CN114138929A - 问答方法及装置 - Google Patents

问答方法及装置 Download PDF

Info

Publication number
CN114138929A
CN114138929A CN202111146241.3A CN202111146241A CN114138929A CN 114138929 A CN114138929 A CN 114138929A CN 202111146241 A CN202111146241 A CN 202111146241A CN 114138929 A CN114138929 A CN 114138929A
Authority
CN
China
Prior art keywords
natural
entity
answer
question
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111146241.3A
Other languages
English (en)
Inventor
陈冉
张桐桐
殷腾龙
杨善松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202111146241.3A priority Critical patent/CN114138929A/zh
Publication of CN114138929A publication Critical patent/CN114138929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种问答方法及装置,该方法包括:确定自然查询语句的主实体;根据所述主实体,构建所述自然查询语句的语义查询图,所述语义查询图用于指示与所述主实体关联的关系或属性;根据所述语义查询图,输出所述自然查询语句对应的自然答案语句。本申请实施例的方案,无需预先设置问答模板,而是首先对主实体进行识别,然后基于主实体构建语义查询图,实现对自然查询语句的理解,进而输出自然答案语句,效率较高,工作量较小,且语义理解更加准确。

Description

问答方法及装置
技术领域
本申请实施例涉及信息交互技术领域,尤其涉及一种问答方法及装置。
背景技术
问答系统可以接收用户使用自然语言表达的问题,通过理解用户的意图、获取相关的知识,从而形成自然语言表达的答案并输出。
目前的问答系统主要是基于模板匹配的方法实现的。基于模板匹配的方法,主要是通过预制模板匹配问题,进行语义的理解。在获取用户的自然语言问题后,需要在预制模板中确定该自然语言问题匹配的模板,从而理解用户的语义,并基于理解的用户的语义,确定相应的问答结果输出。
上述方案需要人工预先设置大量的问答模板,工作量较大,效率较低。
发明内容
本申请实施例提供一种问答方法及装置,以提高问答系统的效率。
第一方面,本申请实施例提供一种问答方法,包括:
确定自然查询语句的主实体;
根据所述主实体,构建所述自然查询语句的语义查询图,所述语义查询图用于指示与所述主实体关联的关系或属性;
根据所述语义查询图,输出所述自然查询语句对应的自然答案语句。
在一种可能的实施方式中,所述确定自然查询语句的主实体,包括:
获取所述自然查询语句的实体链接结果,所述实体链接结果中包括与所述自然查询语句关联的多个实体;
对所述自然查询语句进行识别,获取识别结果,所述识别结果用于指示所述自然查询语句中是否存在三元组;
根据所述实体链接结果和所述识别结果,确定所述主实体。
在一种可能的实施方式中,所述识别结果指示所述自然查询语句中存在三元组;所述根据所述实体链接结果和所述识别结果,确定所述主实体,包括:
将所述三元组中的尾元素在所述实体链接结果中对应的实体,确定为所述主实体。
在一种可能的实施方式中,所述识别结果指示所述自然查询语句中不存在三元组;所述根据所述实体链接结果和所述识别结果,确定所述主实体,包括:
获取所述实体链接结果中各实体的流行度分数;
根据各所述实体的流行度分数,在所述实体连接结果中确定所述主实体。
在一种可能的实施方式中,所述根据所述主实体,构建所述自然查询语句的语义查询图,包括:
获取与所述自然查询语句关联的所述多个实体的关系或属性;
根据所述主实体在所述多个实体的关系或属性中确定目标关系或目标属性;
根据所述主实体、以及所述目标关系或所述目标属性,构建所述语义查询图。
在一种可能的实施方式中,所述根据所述主实体、以及所述目标关系或所述目标属性,构建所述语义查询图,包括:
获取所述目标关系或所述目标属性对应的至少一个指称,以及各指称对应的分数;
根据各所述指称和对应的分数,构建所述语义查询图。
在一种可能的实施方式中,所述根据所述语义查询图,输出所述自然查询语句对应的自然答案语句,包括:
根据所述语义查询图,获取所述自然查询语句中的多个候选答案;
在所述多个候选答案中,确定所述自然查询语句的输出答案;
根据所述输出答案,输出所述自然答案语句。
在一种可能的实施方式中,所述根据所述语义查询图,获取所述自然查询语句中的多个候选答案,包括:
将所述语义查询图与知识图谱进行匹配处理,获取各所述指称对应的候选答案,其中,任意一个指称指示所述主实体与对应的候选答案之间的关系或属性。
在一种可能的实施方式中,所述在所述多个候选答案中,确定所述自然查询语句的输出答案,包括:
将所述候选答案输入至预设模型,得到所述预设模型输出的置信度得分;
根据各所述候选答案的置信度得分,在所述多个候选答案中确定所述输出答案;
其中,所述预设模型是通过多组训练样本训练得到的,每组训练样本中包括样本答案和所述样本答案的样本置信度得分。
第二方面,本申请实施例提供一种问答装置,包括:
确定模块,用于确定自然查询语句的主实体;
处理模块,用于根据所述主实体,构建所述自然查询语句的语义查询图,所述语义查询图用于指示与所述主实体关联的关系或属性;
输出模块,用于根据所述语义查询图,输出所述自然查询语句对应的自然答案语句。
在一种可能的实施方式中,所述确定模块具体用于:
获取所述自然查询语句的实体链接结果,所述实体链接结果中包括与所述自然查询语句关联的多个实体;
对所述自然查询语句进行识别,获取识别结果,所述识别结果用于指示所述自然查询语句中是否存在三元组;
根据所述实体链接结果和所述识别结果,确定所述主实体。
在一种可能的实施方式中,所述识别结果指示所述自然查询语句中存在三元组;所述确定模块具体用于:
将所述三元组中的尾元素在所述实体链接结果中对应的实体,确定为所述主实体。
在一种可能的实施方式中,所述识别结果指示所述自然查询语句中不存在三元组;所述确定模块具体用于:
获取所述实体链接结果中各实体的流行度分数;
根据各所述实体的流行度分数,在所述实体连接结果中确定所述主实体。
在一种可能的实施方式中,所述处理模块具体用于:
获取与所述自然查询语句关联的所述多个实体的关系或属性;
根据所述主实体在所述多个实体的关系或属性中确定目标关系或目标属性;
根据所述主实体、以及所述目标关系或所述目标属性,构建所述语义查询图。
在一种可能的实施方式中,所述处理模块具体用于:
获取所述目标关系或所述目标属性对应的至少一个指称,以及各指称对应的分数;
根据各所述指称和对应的分数,构建所述语义查询图。
在一种可能的实施方式中,所述输出模块具体用于:
根据所述语义查询图,获取所述自然查询语句中的多个候选答案;
在所述多个候选答案中,确定所述自然查询语句的输出答案;
根据所述输出答案,输出所述自然答案语句。
在一种可能的实施方式中,所述输出模块具体用于:
将所述语义查询图与知识图谱进行匹配处理,获取各所述指称对应的候选答案,其中,任意一个指称指示所述主实体与对应的候选答案之间的关系或属性。
在一种可能的实施方式中,所述输出模块具体用于:
将所述候选答案输入至预设模型,得到所述预设模型输出的置信度得分;
根据各所述候选答案的置信度得分,在所述多个候选答案中确定所述输出答案;
其中,所述预设模型是通过多组训练样本训练得到的,每组训练样本中包括样本答案和所述样本答案的样本置信度得分。
第三方面,本申请实施例提供一种问答设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的问答方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的问答方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序;所述计算机程序被执行时实现第一方面任一项所述的问答方法。
本申请实施例提供的问答方法及装置,在获取自然查询语句后,首先确定自然查询语句的主实体,对自然查询语句进行了初步的识别,然后根据主实体,构建自然查询语句的语义查询图,语义查询图指示了与主实体关联的关系或属性,从而实现了对自然查询语句的语义理解,最后,根据该语义查询图,确定问答结果,并输出自然查询语句对应的自然答案语句。本申请实施例的方案,无需预先设置问答模板,而是首先对主实体进行识别,然后基于主实体构建语义查询图,实现对自然查询语句的理解,进而输出自然答案语句,效率较高,工作量较小,且语义理解更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的应用场景的示意图;
图2为本申请实施例提供的问答方法的流程示意图;
图3为本申请实施例提供的问答方法的示意图;
图4为本申请实施例提供的自然查询语句识别示意图;
图5为本申请实施例提供的确定主实体的示意图;
图6为本申请实施例提供的构建语义查询图的流程示意图;
图7为本申请实施例提供的一种构建语义查询图的示意图;
图8为本申请实施例提供的问答装置的结构示意图;
图9为本申请实施例提供的问答设备的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请的应用场景进行介绍。
图1为本申请实施例提供的应用场景的示意图,如图1所示,包括用户 11和智能音箱12。用户11可以向智能音箱12输入自然查询语句,输入的方式可以是语音的形式,也可以是文字的形式。
知识问答系统接收使用自然语言表达的问题,理解用户的意图,获取相关的知识,最终形成自然语言表达的答案并反馈给用户。一个知识问答系统应具备四个基本要素:问题、答案、智能体、知识库。
智能音箱12可以基于知识问答系统对用户输入自然查询语句进行语义解析,获取用户11的意图,并根据用户11的意图获取相应的答案,最终形成自然答案语句输出。
例如在图1中,用户11输入了一个自然查询语句“甲的剧A在哪拍的”,智能音箱12在获取到该自然查询语句后,可以对该语句进行理解,最终输出答案“甲的剧A是在象山影视城拍的”。
图1中以智能音箱作为知识问答系统的载体为例进行说明,可以理解的是,知识问答系统的载体还可以为智能电视、智能手机等终端设备。
上述问答形式,需要基于知识问答系统来实现。目前的知识问答系统主要是基于模板匹配的方法实现的,具体的,预先设置模板匹配问题以及对应的语义理解,构成预制模板。在获取用户的自然查询语句后,在预制模板中对该自然查询语句进行匹配,从而理解用户的意图,并基于用户的意图确定相应的问答结果。
上述方式需要人工预先设置大量的问答模板,效率较低,工作量较大。基于此,本申请实施例提供一种问答方法,无需人工设置问答模板,就能较好的理解用户的意图,进而对用户的自然查询语句进行有效输出。
图2为本申请实施例提供的问答方法的流程示意图,如图2所示,该方法可以包括:
S21,确定自然查询语句的主实体。
本申请实施例中的执行主体可以是终端设备,例如智能电视、智能音箱、智能手机、电脑等等,也可以是服务器,或者其他任何可能的实体设备。
自然查询语句即为用户输入的问答语句,自然查询语句是以人类的自然语言的形式存在的语句。本申请实施例中,自然查询语句可以是语音,也可以是文本或者其他可能的形式。
自然查询语句表达的是人类的语言,终端设备或者机器是无法直接对自然查询语句理解的,因此,需要对自然查询语句进行一系列的处理。
本申请实施例中,在获取自然查询语句后,首先确定该自然查询语句的主实体。在自然查询语句中,可能有关联的一个或多个实体,主实体为这一个或多个实体中的一个。
S22,根据主实体,构建自然查询语句的语义查询图,语义查询图用于指示与主实体关联的关系或属性。
在确定主实体后,会识别自然查询语句中的关系或属性。其中,关系指的是两个实体之间的关联关系,关系对应于两个实体。例如,A是一个航天员,A和航天员分别为两个实体,这两个实体之间的关系就是职业,A的职业是航天员。属性对应的是一个实体,属性指的是对该实体的特征性描述。例如,B的出生日期是2000年7月4日,则B是一个实体,2000年7月4 日是B的属性,这个属性为出生日期。
在识别自然查询语句中的关系或属性后,会基于关系或属性,构建语义查询图,语义查询图用于指示与主实体关联的关系或属性。通过构建语义查询图,实现对自然查询语句的理解,获取用户的意图。
S23,根据语义查询图,输出自然查询语句对应的自然答案语句。
在构建语义查询图之后,实现了对自然查询语句的理解,从而可以基于语义查询图,在预设的知识库中搜索相应的答案,并对答案进行处理,输入自然查询语句对应的自然答案语句。
本申请实施例提供的问答方法,在获取自然查询语句后,首先确定自然查询语句的主实体,对自然查询语句进行了初步的识别,然后根据主实体,构建自然查询语句的语义查询图,语义查询图指示了与主实体关联的关系或属性,从而实现了对自然查询语句的语义理解,最后,根据该语义查询图,确定问答结果,并输出自然查询语句对应的自然答案语句。本申请实施例的方案,无需预先设置问答模板,而是首先对主实体进行识别,然后基于主实体构建语义查询图,实现对自然查询语句的理解,进而输出自然答案语句,效率较高,工作量较小,且语义理解更加准确。
下面结合附图对本申请的方案进行详细介绍。在下述实施例中,均以执行主体为服务器为例进行描述。
图3为本申请实施例提供的问答方法的示意图,如图3所示,在服务器获取自然查询语句后,首先要进行主实体识别,确定自然查询语句的主实体。然后,根据主实体构建语义查询图。在构建语义查询图之后,进行子图匹配,确定多个候选答案。然后,在多个候选答案中,确定最终输出的答案。
首先,对自然查询语句的主实体的识别进行介绍。
在获取自然查询语句后,服务器需要确定自然查询语句的主实体。具体的,服务器可以获取自然查询语句的实体链接结果,该实体链接结果中包括与自然查询语句关联的多个实体。
以如下的自然查询语句为例:
甲主演的剧A在哪拍的?
在上述自然查询语句中,与“甲”有关的实体例如可以包括“甲(影视演员)”,与“剧A”有关的实体例如可以包括“电视剧A(2017年古装电视剧)”、“电影A(2017年古装电影)”、“小说A(古风言情小说)”、“歌曲A(电视剧A花主题曲)”等等,因此,上述自然查询语句的实体链接结果如下:
电视剧A(2017年古装电视剧);
电影A(2017年古装电影);
甲(影视演员);
小说A(古风言情小说);
歌曲A(电视剧A主题曲)。
在获取自然查询语句的实体链接结果后,需要对自然查询语句进行识别,判断自然查询语句中是否存在三元组,根据识别结果和实体链接结果,确定自然查询语句的主实体。
图4为本申请实施例提供的自然查询语句识别示意图,如图4所示,针对自然查询语句,可以构建该自然查询语句的依存句法树。依存句法树描述了各个词语之间的依存关系,即词语之间在句法上的搭配关系,而这种搭配关系是和语义相关联的。
例如在图4中,“甲主演的剧A在哪拍的”可以由“甲”和“A”这两个实体,“演员”这个类别,“主演”、“的”、“拍的”这三个谓词和“在哪”这个约束共同构成。
在构建句法依存树后,可以根据句法依存树,获取自然查询语句中的词语之间的搭配关系。例如在图4中所示,“演员”和“甲”是职业的关系,“甲”是“剧A”的主演,“剧A”是“甲”的代表作品,“剧A”的类型是“电视剧”,等等。
然后,可以基于自然查询语句中的词语之间的搭配关系,确定主实体。
图5为本申请实施例提供的确定主实体的示意图,如图5所示,包括:
S51,判断自然查询语句中是否包含三元组,若是,则执行S52,若否,则执行S54。
本申请实施例中的三元组包括完整三元组和隐藏关系三元组。以“中国海洋大学的知名校友乙的代表作品有什么”这句话为例,“中国海洋大学”、“知名校友”和“乙”即构成一个三元组,且为一个完整三元组。这个三元组中,“中国海洋大学”为头元素(或头实体),“知名校友”为中间元素 (或中间实体),“乙”为尾元素(或尾实体)。
以“中国海洋大学的乙的代表作品有什么”这句话为例,包括一个隐藏关系三元组,即“中国海洋大学”、“知名校友”和“乙”即构成一个隐藏关系三元组。这个三元组中,“中国海洋大学”为头元素(或头实体),“知名校友”(也可以为“校友”、“毕业生”等等)为中间元素(或中间实体),“乙”为尾元素(或尾实体)。
S52,确定三元组中的尾元素。
若自然查询语句中包含三元组,则首先在三元组中确定尾元素(或尾实体)。
S53,根据尾元素确定主实体。
在确定尾元素后,将三元组中的尾元素在实体链接结果中对应的实体,确定为主实体。例如“中国海洋大学的臧克家的代表作品有什么”中的主实体即为臧克家。
在一些情形下,可以直接将自然查询语句中的尾实体直接作为主实体,但是在一些情况下,由于自然语言的复杂性,自然查询语句中的尾实体的描述并不准确。例如,若自然查询语句中的尾实体为“三生三世”,可能是一个简称,其可能对应于“三生三世十里桃花”,也可以能对应于“三生三世枕上书”,因此,需要将该尾元素在实体链接结果中对应的实体,确定为主实体。具体的,可以结合自然查询语句中的其他词语或者特征来确定尾元素在实体链接结果中对应的实体。
S54,获取实体链接结果中的流行度分数。
在获取实体链接结果时,还可以获取实体链接结果中的各实体的流行度分数。例如针对“甲主演的剧A在哪拍的”,实体链接结果如下:
电视剧A(2017年古装电视剧),0.91;
电影A(2017年古装电影),0.9;
甲(影视演员),0.88;
小说A(古风言情小说),0.87;
歌曲A(电视剧A主题曲),0.84。
其中,各实体的流行度分数可以由各实体的热门程度,关联关系等多个因素共同决定。
S55,根据流行度分数确定主实体。
在获取各实体的流行度分数后,可以根据各实体的流行度分数,在实体连接结果中确定主实体。具体的,可以将流行度分数最高的实体确定为主实体。例如在上述实体连接结果中,电视剧A(2017年古装电视剧)的流行度分数最高,为0.91,则可以将电视剧A(2017年古装电视剧)作为主实体。
在确定了自然查询语句的主实体后,需要根据主实体构建语义查询图。
图6为本申请实施例提供的构建语义查询图的流程示意图,如图6所示,包括:
S61,获取与自然查询语句关联的多个实体的关系或属性。
一种可能的实现方式是,在线下进行关系或属性的建模。具体的,可以预先训练一个关系属性识别模型,在训练关系属性识别模型时,向模型中输入自然查询语句以及对应的样本关系或样本属性,然后得到模型中输出的关系或属性。根据模型输出的关系与样本关系之间的差别,或者根据模型输出的属性或样本属性,对关系属性识别模型的参数进行调整,得到训练完成的关系属性识别模型。在构建关系属性识别模型时,例如可以基于ESIM架构进行建模。
在训练完成之后,可以将自然查询语句输入至关系属性识别模型,即可得到与自然查询语句关联的多个实体的关系或属性。
另一种可能的实现方式是,在线下建立实体-实体指称字典和关系-关系指称字典。其中,实体-实体指称表示的是一个实体的多种不同的表示。例如,以上述示例中的A为“三生三世”为例,实体“三生三世”可能指的是“三生三世十里桃花”,也可能指的是“三生三世枕上书”。由于自然语言的复杂性,在进行询问时,用户可能说“甲主演的三生三世在哪拍的”,这里就可以根据实体-实体指称字典,确定该自然查询语句中的“三生三世”指的是“三生三世十里桃花”还是“三生三世枕上书”。
类似的,关系-关系指称字典也是指示的一个关系的多种不同的表示。例如,“甲”和“电视剧A”之间是主演的关系,但是在自然查询语句中,可能是“甲主演的电视剧A”,“甲的代表作品电视剧A”,“甲拍的电视剧 A”,通过关系-关系指称字典,确定“主演的”、“代表作品”、“拍的”表达的是同一个意思,同一种关系。
上述实体-实体指称字典和关系-关系指称字典的设置仅为一种举例,并不构成对实体-实体指称字典和关系-关系指称字典的限定。
在建立了实体-实体指称字典和关系-关系指称字典后,可以通过实体-实体指称字典和关系-关系指称字典,获取与自然查询语句关联的多个实体的关系或属性。
S62,根据主实体在多个实体的关系或属性中确定目标关系或目标属性。
关系关联的是两个实体,属性关联的是实体和字符。本申请实施例中,在获取了自然查询语句关联的多个实体的关系或属性后,需要确定目标关系或目标属性,其中,目标属性关联的两个实体其中的一个属于自然查询语句,另一个不属于自然查询语句;目标属性关联的实体属于自然查询语句,字符不属于自然查询语句。
例如在“甲主演的剧A在哪拍的”中,“在哪拍的”即为一个目标关系或目标属性,其关联的一个实体“剧A”属于自然查询语句。
S63,根据主实体、以及目标关系或目标属性,构建语义查询图。
具体的,首先获取目标关系或目标属性对应的至少一个指称,以及各指称对应的分数。其中,指称指的是同一个意思的不同表达。例如“谁演的”和“代表作品”就是一个关系-关系指称。由于自然语言的复杂性,同一个问题可能有多种不同的表达形式,因此,可以预先设置一个指称字典,基于指称字典,获取目标关系或目标属性对应的至少一个指称。例如根据“在哪拍的”,可以确定指称“拍摄地点”和“制片地区”。
在确定了目标关系或目标属性对应的指称后,可以根据各指称和对应的分数,构建语义查询图。图7为本申请实施例提供的一种构建语义查询图的示意图,如图7所示,
采用节点优先算法,从自然查询语句中找到节点,再填充节点之间的边。当填充边时,若出现同一对节点之间以不同路径相连的问题,则需要代入关系属性识别模型的结果,一方面对关系映射字典中的未登录词进行补充,另一方面将关系映射的分数作为该路径所召回答案的参考值。
具体的,首先用已有的方法识别出所有的实体指称,并且将所有wh- 词和不能匹配到任何实体的名词作为通配符。比如对于例句“What is the budget of thefilmdirected by X and starred by a Chinese actor?”(由X执导并由中国演员主演的电影预算是多少?)可以识别出“what”(什么)、“film” (电影)、“X”、“Chinese”(中国)、“actor”(演员)。
其次进行结构的建立。利用句法依存树,当两个节点之间没有其余节点存在,那么这两个节点之间即认为是有边或路径相连,即为一个关系指称,且路径上所有边的组合成为这个关系指称。如图7所示,点“film”与点“X”、“actor”(演员)之间都没有其余节点存在,所以“film”(电影)与“X”存在关系,关系指称为“directed by”(导演);“film”与“actor”(演员) 存在关系,关系指称为“directed starred by”,由此得到了节点间的关系指称。当两个节点之间的指称没有边时,如图7的“Chinese”(中国)和“actor” (演员),那么若两个节点都为实体,那么在知识图谱中将这两个节点间的关系填入;若其中一个节点为通配符,则在知识图谱中定位另外一个节点,取与其连接频数最高的那些谓词作为候选关系填入。
经过关系填充,可以得到Qu,而Qu中将包含所有节点,但以不同边连接所有节点的子图以Si表示。在将Si与结构化查询图进行匹配时,采用基于动态规划的自顶向下的方法来逐步扩展。即首先找到最可能匹配的部分子图Q,再将与Q中节点相连的边逐一加入,并评估是否可以与知识图谱G中的子图匹配,若可以的话,则继续加入边到Q,直到Q是Qu的包含了Qu所有节点的子图,那么就视为找到了一个语义查询图;若加入了一条边后,后续无法产生匹配,则需要回溯,把这条边从Q中删去,重新加一条新边,再进行迭代。
通过上述方式,构建语义查询图。如图3中的语义查询图示例,其中包括主实体“剧A”,以及两个指称“拍摄地点”和“制片地区”,两个指称包括对应的分数,指称对应的分数用于指示目标关系或目标属性的语义对应的指称。
在构建语义查询图后,可以根据语义查询图获取自然查询语句中的多个候选答案。具体的,可以将语义查询图与知识图谱进行匹配处理,获取各指称对应的候选答案,其中,任意一个指称指示主实体与对应的候选答案之间的关系或属性。
例如在图3中,通过子图匹配,获取了两个候选答案,分别是候选答案 1-制片地区对应的候选答案“中国”,以及候选答案2-拍摄地点对应的候选答案“象山影视城、普者黑”。
在获取多个候选答案后,可以将候选答案输入至预设模型,得到预设模型输出的置信度得分;然后,根据各候选答案的置信度得分,在多个候选答案中确定输出答案;其中,预设模型是通过多组训练样本训练得到的,每组训练样本中包括样本答案和样本答案的样本置信度得分。
例如,可以基于xgboost算法模型来获取候选答案的置信度得分。首先,基于xgboost对候选答案进行特征提取,其中,提取的特征例如可以包括实体链接得分、关系识别模型中属性得分、后续排序得分、实体与属性词拼接与自然查询语句相似度得分等等。
在提取特征后,可以进行xgboost建模,其中,xgboost模型的定位为,给定一个包含n个样本m个特征的数据集:
|D|={(x1,y1),(x2,y2),...,(xn,yn)}, (1)
式(1)中的D为数据集,xn为第n个样本,yn为第n个样本的标签(标签表示正确或错误)。模型的预测输出表示为:
Figure BDA0003285508400000141
其中,Φ(xi)为样本预测函数,f(x)为决策树模型,fk(xi)为样本xi在第k 棵决策树的预测值,fk表示回归树,K为回归树的数量。式(2)表示给定一个输入xi,输出值为K颗回归树的预测值(即按照相应回归树的决策规则,所划分到的叶节点的权重)相加。对于每个样本的预测结果就是每棵回归树预测分数的和。
其中,任意一个候选答案可以作为一个样本,候选答案的属性得分、后续排序得分、实体与属性词拼接与自然查询语句相似度得分等等可以作为样本的m个特征。
目标函数为:
Figure BDA0003285508400000142
其中,
Figure BDA0003285508400000143
Figure BDA0003285508400000144
为误差函数,yi为样本标签的观测值,
Figure BDA0003285508400000145
为样本标签的预测值, fk是一个新的函数,加入fk的主要目的是惩罚复杂模型(防止过拟合),通过在每一轮训练中加入的来使得目标函数尽量最大的降低。
Ω(f)是正则化项,描述回归树的复杂程度,其中T是叶子节点的个数,当树越复杂时其叶子节点的数量越多,w∈RT是叶子节点的向量。
通过上述方式,可以获取各候选答案的置信度得分,然后根据各候选答案的置信度得分,在多个候选答案中确定输出答案。例如在图3中,候选答案1的置信度得分是0.91,候选答案2的置信度得分是0.65,则将置信度得分最高的候选答案确定为输出答案。
在确定输出答案后,可以通过模板拼接、指代词替换、单位转换、多个答案拼接、置信度策略调整等方法,将输出答案改写成自然答案语句,并输出。例如在图3的示例中,最终的输出答案为“象山影视城普者黑”,最终输出的自然答案语句为“甲的剧A是在象山影视城拍的”。
本申请实施例提供的问答方法,在获取自然查询语句后,首先确定自然查询语句的主实体,对自然查询语句进行了初步的识别,然后根据主实体,构建自然查询语句的语义查询图,语义查询图指示了与主实体关联的关系或属性,从而实现了对自然查询语句的语义理解,最后,根据该语义查询图,确定问答结果,并输出自然查询语句对应的自然答案语句。本申请实施例的方案,无需预先设置问答模板,而是首先对主实体进行识别,然后基于主实体构建语义查询图,实现对自然查询语句的理解,进而输出自然答案语句,效率较高,工作量较小,且语义理解更加准确。
图8为本申请实施例提供的问答装置的结构示意图,如图8所示,包括:
确定模块81,用于确定自然查询语句的主实体;
处理模块82,用于根据所述主实体,构建所述自然查询语句的语义查询图,所述语义查询图用于指示与所述主实体关联的关系或属性;
输出模块83,用于根据所述语义查询图,输出所述自然查询语句对应的自然答案语句。
在一种可能的实施方式中,所述确定模块81具体用于:
获取所述自然查询语句的实体链接结果,所述实体链接结果中包括与所述自然查询语句关联的多个实体;
对所述自然查询语句进行识别,获取识别结果,所述识别结果用于指示所述自然查询语句中是否存在三元组;
根据所述实体链接结果和所述识别结果,确定所述主实体。
在一种可能的实施方式中,所述识别结果指示所述自然查询语句中存在三元组;所述确定模块81具体用于:
将所述三元组中的尾元素在所述实体链接结果中对应的实体,确定为所述主实体。
在一种可能的实施方式中,所述识别结果指示所述自然查询语句中不存在三元组;所述确定模块81具体用于:
获取所述实体链接结果中各实体的流行度分数;
根据各所述实体的流行度分数,在所述实体连接结果中确定所述主实体。
在一种可能的实施方式中,所述处理模块82具体用于:
获取与所述自然查询语句关联的所述多个实体的关系或属性;
根据所述主实体在所述多个实体的关系或属性中确定目标关系或目标属性;
根据所述主实体、以及所述目标关系或所述目标属性,构建所述语义查询图。
在一种可能的实施方式中,所述处理模块82具体用于:
获取所述目标关系或所述目标属性对应的至少一个指称,以及各指称对应的分数;
根据各所述指称和对应的分数,构建所述语义查询图。
在一种可能的实施方式中,所述输出模块83具体用于:
根据所述语义查询图,获取所述自然查询语句中的多个候选答案;
在所述多个候选答案中,确定所述自然查询语句的输出答案;
根据所述输出答案,输出所述自然答案语句。
在一种可能的实施方式中,所述输出模块83具体用于:
将所述语义查询图与知识图谱进行匹配处理,获取各所述指称对应的候选答案,其中,任意一个指称指示所述主实体与对应的候选答案之间的关系或属性。
在一种可能的实施方式中,所述输出模块83具体用于:
将所述候选答案输入至预设模型,得到所述预设模型输出的置信度得分;
根据各所述候选答案的置信度得分,在所述多个候选答案中确定所述输出答案;
其中,所述预设模型是通过多组训练样本训练得到的,每组训练样本中包括样本答案和所述样本答案的样本置信度得分。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图9为本申请实施例提供的问答设备的硬件结构示意图,如图9所示,本实施例的问答设备包括:处理器91以及存储器92;其中
存储器92,用于存储计算机执行指令;
处理器91,用于执行存储器存储的计算机执行指令,以实现上述实施例中问答方法所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器92既可以是独立的,也可以跟处理器91集成在一起。
当存储器92独立设置时,该问答设备还包括总线93,用于连接所述存储器92和处理器91。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上问答设备所执行的问答方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等) 或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器 (PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (13)

1.一种问答方法,其特征在于,包括:
确定自然查询语句的主实体;
根据所述主实体,构建所述自然查询语句的语义查询图,所述语义查询图用于指示与所述主实体关联的关系或属性;
根据所述语义查询图,输出所述自然查询语句对应的自然答案语句。
2.根据权利要求1所述的问答方法,其特征在于,所述确定自然查询语句的主实体,包括:
获取所述自然查询语句的实体链接结果,所述实体链接结果中包括与所述自然查询语句关联的多个实体;
对所述自然查询语句进行识别,获取识别结果,所述识别结果用于指示所述自然查询语句中是否存在三元组;
根据所述实体链接结果和所述识别结果,确定所述主实体。
3.根据权利要求2所述的问答方法,其特征在于,所述识别结果指示所述自然查询语句中存在三元组;所述根据所述实体链接结果和所述识别结果,确定所述主实体,包括:
将所述三元组中的尾元素在所述实体链接结果中对应的实体,确定为所述主实体。
4.根据权利要求2所述的问答方法,其特征在于,所述识别结果指示所述自然查询语句中不存在三元组;所述根据所述实体链接结果和所述识别结果,确定所述主实体,包括:
获取所述实体链接结果中各实体的流行度分数;
根据各所述实体的流行度分数,在所述实体连接结果中确定所述主实体。
5.根据权利要求2-4任一项所述的问答方法,其特征在于,所述根据所述主实体,构建所述自然查询语句的语义查询图,包括:
获取与所述自然查询语句关联的所述多个实体的关系或属性;
根据所述主实体在所述多个实体的关系或属性中确定目标关系或目标属性;
根据所述主实体、以及所述目标关系或所述目标属性,构建所述语义查询图。
6.根据权利要求5所述的问答方法,其特征在于,所述根据所述主实体、以及所述目标关系或所述目标属性,构建所述语义查询图,包括:
获取所述目标关系或所述目标属性对应的至少一个指称,以及各指称对应的分数;
根据各所述指称和对应的分数,构建所述语义查询图。
7.根据权利要求6所述的问答方法,其特征在于,所述根据所述语义查询图,输出所述自然查询语句对应的自然答案语句,包括:
根据所述语义查询图,获取所述自然查询语句中的多个候选答案;
在所述多个候选答案中,确定所述自然查询语句的输出答案;
根据所述输出答案,输出所述自然答案语句。
8.根据权利要求7所述的问答方法,其特征在于,所述根据所述语义查询图,获取所述自然查询语句中的多个候选答案,包括:
将所述语义查询图与知识图谱进行匹配处理,获取各所述指称对应的候选答案,其中,任意一个指称指示所述主实体与对应的候选答案之间的关系或属性。
9.根据权利要求8所述的问答方法,其特征在于,所述在所述多个候选答案中,确定所述自然查询语句的输出答案,包括:
将所述候选答案输入至预设模型,得到所述预设模型输出的置信度得分;
根据各所述候选答案的置信度得分,在所述多个候选答案中确定所述输出答案;
其中,所述预设模型是通过多组训练样本训练得到的,每组训练样本中包括样本答案和所述样本答案的样本置信度得分。
10.一种问答装置,其特征在于,包括:
确定模块,用于确定自然查询语句的主实体;
处理模块,用于根据所述主实体,构建所述自然查询语句的语义查询图,所述语义查询图用于指示与所述主实体关联的关系或属性;
输出模块,用于根据所述语义查询图,输出所述自然查询语句对应的自然答案语句。
11.一种问答设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-9任一项所述的问答方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-9任一项所述的问答方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序;所述计算机程序被执行时实现权利要求1-9任一项所述的问答方法。
CN202111146241.3A 2021-09-28 2021-09-28 问答方法及装置 Pending CN114138929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111146241.3A CN114138929A (zh) 2021-09-28 2021-09-28 问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111146241.3A CN114138929A (zh) 2021-09-28 2021-09-28 问答方法及装置

Publications (1)

Publication Number Publication Date
CN114138929A true CN114138929A (zh) 2022-03-04

Family

ID=80394881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111146241.3A Pending CN114138929A (zh) 2021-09-28 2021-09-28 问答方法及装置

Country Status (1)

Country Link
CN (1) CN114138929A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573849A (zh) * 2024-01-16 2024-02-20 之江实验室 一种知识图谱多跳问答方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573849A (zh) * 2024-01-16 2024-02-20 之江实验室 一种知识图谱多跳问答方法、装置、设备及存储介质
CN117573849B (zh) * 2024-01-16 2024-04-19 之江实验室 一种知识图谱多跳问答方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP7346609B2 (ja) 自然言語理解(nlu)フレームワークを使用して意味探索を実行するシステムおよび方法
CN106257440B (zh) 语义信息生成方法和语义信息生成装置
US7630892B2 (en) Method and apparatus for transducer-based text normalization and inverse text normalization
US9342301B2 (en) Converting and input script to a natural language description
CN111177569A (zh) 基于人工智能的推荐处理方法、装置及设备
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN109062902B (zh) 一种文本语义表达方法及装置
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN110727839A (zh) 自然语言查询的语义解析
JP6729095B2 (ja) 情報処理装置及びプログラム
JP2003196280A (ja) テキスト生成方法及びテキスト生成装置
CN112784598A (zh) 思维导图的生成方法、装置、设备及存储介质
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
CN111158692A (zh) 智能合约函数相似性的排序方法、系统和存储介质
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN114138929A (zh) 问答方法及装置
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
US20230244878A1 (en) Extracting conversational relationships based on speaker prediction and trigger word prediction
CN109885835B (zh) 一种获取用户语料中词语之间的关联关系的方法和系统
WO2023245523A1 (zh) 用于生成训练数据的方法以及装置
CN116822530A (zh) 一种基于知识图谱的问答对生成方法
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
JP2019008476A (ja) 生成プログラム、生成装置及び生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination