CN111651578A

CN111651578A - 人机对话方法、装置及设备

Info

Publication number: CN111651578A
Application number: CN202010487974.2A
Authority: CN
Inventors: 何晓楠; 殷超; 鞠强; 谢剑
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-09-11
Anticipated expiration: 2040-06-02
Also published as: US20210191952A1; CN111651578B; JP7093825B2; JP2021089728A

Abstract

本申请公开了一种人机对话方法、装置及设备，涉及自然语言处理技术领域。具体实现方案为：获取用户输入的第一语句，并对第一语句进行语义解析得到第一关键信息集合，获取至少一个历史语句对应的第二关键信息集合，根据第一关键信息集合和第二关键信息集合，确定第一语句对应的多个候选语义，并根据多个候选语义，生成第一语句对应的应答语句。上述过程中，通过根据第一关键信息集合和第二关键信息集合确定出用户的多个候选语义，提高了对用户语义理解的准确性，能够向用户输出更合理的应答语句，提升用户的对话体验。

Description

人机对话方法、装置及设备

技术领域

本申请实施例涉及数据处理中的自然语言处理技术领域，尤其涉及一种人机对话方法、装置及设备。

背景技术

在人机对话场景中，用户的意图可能需要经过多轮对话才能表述清楚。因此，有些场景下，需要将用户本轮输入的语句与上一轮输入的语句结合起来理解，以便准确理解用户的意图。

现有技术中，每次获取到用户输入的语句时，通过预设规则对本轮语句的主谓宾成分进行检测，判断本轮语句是否为省略形态。当确定本轮语句为省略形态时，将本轮语句与上一轮语句结合起来理解确定出用户的意图。在确定本轮语句为非省略形态时，将本轮语句单独理解确定出用户的意图。

然而，上述方式依然存在对用户语义理解不够准确的问题，导致对话效率较低，降低用户体验。

发明内容

本申请实施例提供了一种人机对话方法、装置及设备，用以提高对用户语义理解的准确性，提升用户对话体验。

第一方面，本申请实施例提供一种人机对话方法，包括：

获取用户输入的第一语句，并对所述第一语句进行语义解析得到第一关键信息集合，所述第一关键信息集合包括至少一个第一关键信息；

获取至少一个历史语句对应的第二关键信息集合，所述第二关键信息集合包括至少一个第二关键信息；

根据所述第一关键信息集合和所述第二关键信息集合，确定所述第一语句对应的多个候选语义；

根据所述多个候选语义，生成所述第一语句对应的应答语句。

第二方面，本申请实施例提供一种人机对话装置，包括：

获取模块，用于获取用户输入的第一语句，并对所述第一语句进行语义解析得到第一关键信息集合，所述第一关键信息集合包括至少一个第一关键信息；

所述获取模块，还用于获取至少一个历史语句对应的第二关键信息集合，所述第二关键信息集合包括至少一个第二关键信息；

确定模块，用于根据所述第一关键信息集合和所述第二关键信息集合，确定所述第一语句对应的多个候选语义；

生成模块，还用于根据所述多个候选语义，生成所述第一语句对应的应答语句。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面任一项所述的方法。

第四方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面中任一项所述的方法。

本本申请实施例提供的人机对话方法、装置及设备，该方法包括：获取用户输入的第一语句，并对第一语句进行语义解析得到第一关键信息集合，获取至少一个历史语句对应的第二关键信息集合，根据第一关键信息集合和第二关键信息集合，确定第一语句对应的多个候选语义，并根据多个候选语义，生成第一语句对应的应答语句。上述过程中，通过根据第一关键信息集合和第二关键信息集合确定出用户的多个候选语义，提高了对用户语义理解的准确性，能够向用户输出更合理的应答语句，提升用户的对话体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例的一种可能的应用场景示意图；

图2为本申请实施例中对用户输入的语句进行分析处理的过程示意图；

图3为本申请一个实施例提供的人机对话方法的流程示意图；

图4为本申请另一个实施例提供的人机对话方法的流程示意图；

图5为本申请一个实施例提供的共现概率数据库的生成过程的示意图；

图6为本申请又一个实施例提供的人机对话处理过程的示意图；

图7为本申请实施例提供的人机对话装置的结构示意图；

图8为本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人机对话设备已经得到的广泛的应用。人机对话设备也可以称为对话式的人工智能系统，让用户以自然语言对话的交互方式，实现影音娱乐、信息查询、生活服务、出行路况等多项功能的操作。人机对话设备通常还具有人工智能能力，在与用户的交互过程中，不断学习进化，了解用户的喜好和习惯，变得越来越“聪明”。

图1为本申请实施例的一种可能的应用场景示意图。如图1所示，该应用场景包括：人机对话设备和用户。示例性的，用户可以向人机对话设备输入语句，以表达自己的意图或者需求。人机对话设备对用户输入的语句进行分析、检索等处理，向用户输出应答，以满足用户的意图或者需求。例如：用户向人机对话设备提出需求“播放一首英文歌曲”，人机对话设备向用户输出应答“好的，为你播放英文歌曲《ABC》”，并且，人机对话设备开始为用户播放英文歌曲《ABC》。

需要说明的是，在某些场景中，用户向人机对话设备输入的语句也可以称为“query”。后续实施例的描述中，“语句”和“query”可以等同理解。

本申请实施例中，人机对话设备可以是具有人机对话功能的任意的电子设备。人机对话设备也可以称为智能机器人或者人工智能助手等，包括但不限于：电脑、计算机、智能手机、智能家居、智能音箱、智能可视音箱、智能车载设备、智能穿戴设备等。

图1所示的应用场景中，用户与人机对话设备的交互方式可以有多种，本实施例对此不作限定。示例性的，用户可以以语音形式与人机对话设备进行交互，还可以以文本形式与人机对话设备进行交互。有些场景中，用户还可以采用肢体语言与人机对话设备进行交互。

一些应用场景中，人机对话设备还可以与服务器通信连接。这样，人机对话设备采集到用户输入的语句后，可以将语句发送至服务器进行分析处理得到该语句对应的应答，进而，服务器将应答返回给人机交互设备，由人机交互设备将应答输出给用户。

图2为本申请实施例中对用户输入的语句进行分析处理的过程示意图。如图2所示，人机对话设备获取到用户输入的语句后，对语句进行语义解析处理，确定出该语句的语义。进而，根据语义进行检索处理，并根据检索到的答案生成应答。将应答输出给用户。

其中，语义解析处理过程中可以采用自然语言理解(Natural LanguageUnderstanding，NLU)模型，通过NLU模型对语句进行语义理解，得到NLU解析结果。NLU解析结果包括：垂类(domain)、意图(intent)和槽位(slot)。其中，垂类用于表示用户输入语句所对应的领域，意图用于表示用户输入语句所表达的目的，槽位用于表示用户输入语句中用于描述意图的关键信息。

例如，假设用户输入的语句为“请播放一首英文歌曲”，对该语句进行NLU解析，得到的解析结果为：垂类＝音乐，意图＝播放音乐，槽位＝[歌曲语言-英文]。

进一步的，人机交互设备根据NLU解析结果，在数据库中进行检索，以找到与NLU解析结果匹配的歌曲。并根据检索结果生成应答。例如，假设人机交互设备检索到的英文歌曲为《ABC》，则生成应答“好的，为你播放英文歌曲《ABC》”。进而，人机交互设备并向用户播放该歌曲。

通常情况下，用户输入的语句的语义是相对完整的，例如：“播放一首英文歌曲”、“我想听小红的歌”等。这些语句的主谓宾成分较全，根据语句本身即可准确理解其语义。

然而在很多情况下，用户在表达需求时，因为之前已经说过要听音乐，或人机交互设备正在播放音乐，因此用户在接下来的表述中，会经常使用省略形态来表达需求。所谓省略形态，即，在语句中缺少关键的宾语或其他句子成分，导致只看语句本身无法确定其完整意图。例如，“换个流行的”，“不喜欢这首”，“要中文的”等，都省略了“歌曲”这个关键宾语。也就是说，用户本轮输入的语句，是在上一轮表述的基础上附加了新的需求，或者修改了之前的需求。

可见，在有些情况下，有必要将本轮语句与上一轮语句联系起来理解，即，要联系上下文理解用户的会话(session)语义。这其中存在一个问题，即有时候本轮语句和上一轮语句是有语义关联的，需要联系起来理解，有时候本轮语句和上一轮语句是没有语义关联的，应该分开理解。

现有技术中，为了准确理解用户的意图，人机交互设备在获取到用户输入的本轮语句时，首先通过预设规则对本轮语句的主谓宾成分进行检测，判断本轮语句是否为省略形态。当确定本轮语句为省略形态时，对本轮语句与上一轮语句结合起来理解确定出用户的意图。在确定本轮语句为非省略形态时，对本轮语句单独理解确定出用户的意图。

然而，发明人在实现本申请的过程中发现，上述方式依然存在对用户语义理解不够准确的问题，导致对话效率较低，降低用户体验。主要体现在如下一个或者多个方面：

(1)上述现有技术中，只根据本轮语句的形态特征来判断是否与上一轮语句进行结合理解，受到语音识别结果的准确性以及用户表达方式的多样性的影响，判断结果的准确性较低。例如，有时候本轮语句虽然是省略形态，但是本轮语句与上一轮语句的语义其实并无关联。或者，有时候本轮语句不是省略形态，但是本轮语句与上一轮语句却存在语义上的关联。

(2)实际应用中，用户的意图可能通过多于两轮语句才能表述清楚，例如，三轮、四轮、甚至更多轮。而上述现有技术中，在确定本轮语句为省略形态时，仅将本轮语句与上一轮语句联系起来理解。只根据前后两轮的语句可能依然无法准确理解用户的语义。

(3)实际应用中，受到用户表达方式的多样性的影响，用户表达的意图可能较为含糊，或者用户表达的意图本身不够准确。在这些情况下，采用上述现有技术的方案时，根据确定出的用户语义有可能无法检索到答案，导致无法向用户提供相应的应答，使得用户体验较低。

为了解决上述问题中的至少一个，本申请实施例提供一种人机对话方法，针对用户输入的每一轮语句，都将该语句与之前输入的历史语句结合起来，确定用户的多个候选语义，进而根据多个候选语义，生成应答语句。与现有技术相比，提高了对用户意图理解的准确性，提高对话效率，从而提升用户体验。

下面结合几个具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本申请一个实施例提供的人机对话方法的流程示意图。本实施例的方法可以由人机对话设备执行，还可以由与人机对话设备通信连接的服务器执行。如图3所示，本实施例的方法包括：

S301：获取用户输入的第一语句，并对所述第一语句进行语义解析得到第一关键信息集合，所述第一关键信息集合包括至少一个第一关键信息。

S302：获取至少一个历史语句对应的第二关键信息集合，所述第二关键信息集合包括至少一个第二关键信息。

本实施例中，针对用户输入的每个语句，执行本实施例中的S301至S304。其中，第一语句为用户输入的本轮语句。历史语句为用户在本轮语句之前输入的一轮或者多轮语句。

可选的，对第一语句进行语义解析得到第一关键信息集合，可以包括：将第一语句输入NLU解析模型中进行解析，得到NLU解析结果。NLU解析结果中包括第一关键信息集合。第一关键信息集合中包括至少一个第一关键信息。

需要说明的是，本实施例中的关键信息可以为NLU解析结果中的槽位信息。即，第一关键信息为本轮输入的第一语句中的槽位信息，第二关键信息为历史语句中的槽位信息。

本实施例中，可以在缓存中对历史语句对应第二关键信息集合进行维护。第二关键信息集合中包括历史语句中的第二关键信息。换句话说，第二关键信息集合中包括历史语句中的槽位信息。应理解，在多轮对话场景中，假设当前用户输入的第一语句为第N轮语句，则第二关键信息集合中包括前N-1轮历史语句中的槽位信息。

例如，假设输入的前2轮语句分别为“播放一首英文歌曲”、“换一首劲爆的”。当用户第3轮输入第一语句“要爵士音乐”时，对第一语句“要爵士音乐”进行语义解析，得到第一关键信息集合为{爵士}。并且，从缓存中获取的第二关键信息集合为{英文，劲爆}。进一步的，当用户输入第4轮语句时，缓存中的第二关键信息集合则为{英文，劲爆，爵士}。

本实施例中，通过在缓存中不断更新和维护第二关键信息集合，使得当对第N轮语句进行语义解析时，可以综合考虑前N-1轮语句中的关键信息，从而可以对任意N轮长度的会话进行准确的语义理解。

S303：根据所述第一关键信息集合和所述第二关键信息集合，确定所述第一语句对应的多个候选语义。

其中，第一语句对应的多个候选语义，是指用户在输入第一语句时可能想表达的多个语义。

通过对第一关键信息集合和第二关键进行集合进行综合考虑，可以确定出用户的多个候选语义。结合上述举例，假设用户输入的前2轮语句分别为“播放一首英文歌曲”、“换一首劲爆的”。当用户第3轮输入第一语句“要爵士音乐”时，用户可能是想听劲爆的爵士音乐(无论中英文)，也可能是想听爵士英文歌曲(无论是否劲爆)，还可能是想听劲爆的爵士英文歌曲，还可能是想听爵士音乐(无论中英文、也无论是否劲爆)。

可选的，一种可能的实施方式中，可以对第一关键信息集合和第二关键信息集合中的关键信息进行组合处理，得到多种关键信息组合结果。这样，根据每种关键信息组合结果，可以确定出用户的一个候选语义。从而，根据多种关键信息组合结果，可以确定出用户的多个候选语义。

可选的，本实施例中在第一语句进行语义解析时，还可以得到第一语句的意图(intent)，并且，在缓存中维护至少一个历史语句对应的意图(intent)。这样，在S303之前还可以包括：判断第一语句的意图与所述至少一个历史语句的意图是否相同或者相关。在确定相同或者相关时，再继续执行S303和S304。在确定不相同或者不相关时，将第一语句视为第1轮输入的语句，可以采用现有的人机对话方法对第一语句进行处理。

S304：根据所述多个候选语义，生成所述第一语句对应的应答语句。

示例性的，可以针对每个候选语义分别进行答案检索，根据多个候选语义检索结果情况，生成第一语句对应的应答。例如，若某个候选语义无法检索得到答案，则可以根据其他候选语义的检索结果生成应答语句。

应理解，本实施例由于确定出了第一语句对应的多个候选语义，这样，在生成第一语句对应的应答时，可以根据不同候选语义的检索结果，向用户输出更合理的应答，从而提升用户的对话体验。

本实施例中，在确定第一语句的多个候选语义时，是对第一关键信息集合和第二关键信息集合进行综合分析得到的。也就是说，是对从第一语句解析得到的第一关键信息和从历史语句中解析得到的第二关键信息综合分析得到的。由于关键信息是用于表征用户语义的重要信息，本实施例中从用户多轮语句的语义关联性角度来确定第一语句的多个候选语义，能够提高语义理解的准确性。

进一步的，本实施例中无论第一语句是否为省略形态，都是结合历史语句中的关键信息进行综合分析，而并不依赖第一语句是否为省略形态，因此能够进一步提高语义理解的准确性。

本实施例提供的人机对话方法，包括：获取用户输入的第一语句，并对第一语句进行语义解析得到第一关键信息集合，获取至少一个历史语句对应的第二关键信息集合，根据第一关键信息集合和第二关键信息集合，确定第一语句对应的多个候选语义，并根据多个候选语义，生成第一语句对应的应答语句。上述过程中，通过根据第一关键信息集合和第二关键信息集合确定出用户的多个候选语义，提高了对用户语义理解的准确性，能够向用户输出更合理的应答语句，提升用户的对话体验。

图4为本申请另一个实施例提供的人机对话方法的流程示意图。本实施例对图3所示实施例进行细化。如图4所示，本实施例的方法包括：

S401：获取用户输入的第一语句，并对第一语句进行语义解析得到第一关键信息集合，所述第一关键信息集合包括至少一个第一关键信息。

S402：获取至少一个历史语句对应的第二关键信息集合，所述第二关键信息集合包括至少一个第二关键信息。

本实施例中，S401和S402的具体实施方式与图3中的S301和S302类似，此处不再赘述。

S403：生成所述第二关键信息集合对应的多个子集，并将所述第一关键信息集合和所述多个子集分别进行组合，得到所述多种关键信息组合结果。

S404：根据所述多种关键信息组合结果，确定所述第一语句对应的多个候选语义。

示例性的，假设第一关键信息集合采用query_slots表示，第二关键信息集合采用session_slots表示。假设第一关键信息集合中包括n个第一关键信息，即：

query_slots＝{q_slot₁，q_slot₂，...，q_slot_n}

第二关键信息集合中包括k个第二关键信息，即：

session_slots＝{s_slot₁，s_slot₂，...，s_slot_k}

在对第一关键信息集合和第二关键信息集合中的关键信息进行组合处理时，首先，生成第二关键信息集合session_slots的2^k个子集，分别为：

{φ}、{s_slot₁}、...、{s_slot_k}、{s_slot₁，s_slot₂}、...、{s_slot₁，s_slot₂，...，s_slot_m}、...、{s_slot₁，s_slot₂，...，s_slot_k}。

其中，m＜k。

然后，将上述的每个子集与第一关键信息集合进行组合，得到一种关键信息组合结果，这样，共得到2^k种关键信息组合结果，分别为：

关键信息组合结果1：

{φ}和{q_slot₁，q_slot₂，...，q_slot_n}组合；

关键信息组合结果2：

{s_slot₁}和{q_slot₁，q_slot₂，...，q_slot_n}组合；

关键信息组合结果t：

{s_slot₁，s_slot₂，...，s_slot_m}和{q_slot₁，q_slot₂，...，q_slot_n}组合；

关键信息组合结果2^k：

{s_slot₁，s_slot₂，...，s_slot_k}和{q_slot₁，q_slot₂，...，q_slot_n}组合。

举例说明，假设n＝2，k＝2，第一关键信息集合为{C、D}，第二关键信息集合为{A、B}，则根据第二关键信息集合共生成4个子集，分别为：{φ}、{A}、{B}、{A、B}。将上述4个子集分别与第一关键信息集合进行组合，得到4种关键信息组合结果，分别为：{φ，C，D}、{A，C，D}、{B，C，D}、{A，B，C，D}。

能够理解，根据上述的每一种关键信息组合结果，可以确定出用户的一个候选语义。这样，根据2^k种关键信息组合结果，可以得到用户的2^k个候选语义。

S405：分别确定每种关键信息组合结果对应的候选语义的概率得分。

本实施例中，一个候选语义的概率得分指示的是该候选语义是用户真实语义的概率大小。一个候选语义的概率得分越高，则说明该候选语义是用户真实语义的可能性越大。

一种可能的实施方式中，可以采用如下方式确定候选语义的概率得分：针对每种关键信息组合结果中的第一关键信息集合和第二关键信息集合中的子集，计算在第一关键信息集合中的关键信息都出现的情况下，该子集中的关键信息也都出现的条件概率，并将该条件概率作为该关键信息组合结果对应的候选语义的概率得分。

具体的，通过S403和S404得到2^k个候选语义的概率得分如下：

候选语义1：Prob(φ|(q_slot₁，q_slot₂，...，q_slot_n))

候选语义2：Prob(s_slot₁|(q_slot₁，q_slot₂，...，q_slot_n))

候选语义t：Prob((s_slot₁，s_slot₂，...，s_slot_m)|(q_slot₁，q_slot₂，...，q_slot_n))

候选语义2^k：Prob((s_slot₁，s_slot₂，...，s_slot_k)|(q_slot₁，q_slot₂，...，q_slot_n))

具体实施过程中，考虑到统计难度和归一化等问题，上述各候选语义的概率得分并不是按照联合概率的方式计算，而是将所有的关键信息拆分为二元关系组进行计算。下面给出两种可能的计算方式。

方式1，各候选语义的概率得分的计算方式可以为：获取所述第一关键信息集合中的每个第一关键信息与所述子集中的每个第二关键信息之间的共现概率，根据所述共现概率，确定在所述第一关键信息集合出现的情况下，所述子集也出现的条件概率。

上述方式1中，在计算候选语义的概率得分时，利用了关键信息组合结果中的第一关键信息和第二关键信息之间的共现概率，保证了候选语义的概率得分的准确性。

进一步，在方式1的基础上，计算上述各候选语义的概率得分时，还可以考虑第一语句为省略形态的概率P_lex，具体如下：

方式2，各候选语义的概率得分的计算方式可以为：获取所述第一语句为省略形态的概率；获取所述第一关键信息集合中的每个第一关键信息与所述子集中的每个第二关键信息之间的共现概率；根据所述第一语句为省略形态的概率以及所述共现概率，确定在所述第一关键信息集合出现的情况下，所述子集也出现的条件概率。

一种可能的实施方式中，可以通过将第一语句输入事先训练好的深度神经网络(Deep Neural Networks，DNN)，由DNN网络预测得到第一语句为省略形态的概率P_lex。该实施方式中，通过采用DNN网络对第一语句的省略形态的概率进行预测，与现有技术中通过采用预设规则检测第一语句中的主谓宾成分来判断第一语句是否为省略形态相比，提高了预测结果的准确性。

上述方式2中，在计算候选语义的概率得分时，不仅利用了关键信息组合结果中的第一关键信息和第二关键信息之间的共现概率，还利用了第一语句为省略形态的概率，进一步提高了候选语义的概率得分的准确性。

下面，以方式2为例，对候选语义的概率得分的计算过程进行示例。

示例性的，以候选语义2的概率得分的计算方式为例，如下：

示例性的，以候选语义t的概率得分的计算方式为例，如下：

上述两个示例中，P(s_slot_j|q_slot_i)表示的是在q_slot_i出现时，s_slot_j也出现的条件概率。该条件概率可以通过s_slot_j与q_slot_i的共现概率P(s_slot_j，q_slot_i)以及q_slot_i的概率P(q_slot_i)计算得出，即：

本实施例在计算候选语义的概率得分时，利用了关键信息组合结果中的第一关键信息与第二关键信息之间的共现概率，该共现概率可以是通过对大量历史语料进行离线统计得到的，能够提高候选语义的概率得分的准确性。

具体的，可以采用如下可行的方式：获取历史语料，根据所述历史语料生成关键信息共现数据库，所述关键信息共现数据库中包括不同关键信息之间的共现概率；通过查询所述关键信息共现数据库，得到第一关键信息与第二关键信息之间的共现概率。

需要说明的是，本实施例对于关键信息共现数据库的生成过程不作限定，一种可能的实施方式可以参见后续实施例的详细描述。

S406：按照所述概率得分由高到低的顺序，对所述多个候选语义进行排序。

S407：按照排序后的顺序依次对所述多个候选语义进行答案检索，直至检索得到答案，并根据所述答案，生成所述第一语句对应的应答语句。

能够理解，按照概率得分由高到低的顺序，对多个候选语义进行排序。这样，排序后越靠前的候选语义与用户的真实语义越接近。因此，可以按照排序后的顺序依次对多个候选语义进行答案检索，直至检索得到答案。进而根据检索到的答案，生成第一语句对应的应答语句。

示例性的，按照排序结果，优先对第1个候选语义进行检索，确定是否可以检索到答案。若是，则根据该答案生成第一语句对应的应答语句；若否，则继续对第2个候选语义进行检索。依次类推，直至检索到答案为止，根据检索到的答案生成应答语句。

可选的，在对多个候选语义进行排序之前，还可以使用预设阈值对概率得分进行筛选，这样，只需要针对概率得分大于预设阈值的候选语义进行排序。

下面结合一个具体的实施例描述共现概率数据库的生成过程。

图5为本申请一个实施例提供的共现概率数据库的生成过程的示意图。如图5所示，本实施例的方法包括：

S501：获取历史语料。

其中，历史语料包括但不限于：搜索日志、对话日志，等。

S502：对所述历史语料进行关键信息挖掘，得到多个关键信息。

具体的，可以采用预先训练好的关键信息检测模型，将上述历史语料输入该模型中，由该模型对历史语料中的关键信息进行标注，根据标注结果得到多个关键信息。

例如，假设某个历史语料为“小红歌曲可爱气球”，利用模型对该历史语料进行标注，得到标注结果为：歌星＝“小红”，歌曲＝“可爱气球”。从而得到关键信息：“小红”和“可爱气球”。

S503：统计所述多个关键信息中的任意两个关键信息在所述历史语料中的共现次数。

S504：根据所述共现次数，确定所述任意两个关键信息之间的共现概率。

根据上述标注结果，可以统计出任意两个关键信息的共现次数，即，任意两个关键信息同时在一个语料中出现的次数。例如，统计得到“小红”和“可爱气球”的共现次数，将该共现次数除以语料总数，即可得到“小红”和“可爱气球”的共现概率。

进一步的，本实施例的执行过程可以是离线进行的。将本实施例中统计得到的不同关键信息的共现概率存储至数据库中，生成共现概率数据库。这样，当需要在线对第一语句进行语义理解时，可以通过查询该共现概率数据库获取到所需关键信息之间的共现概率，提高语义理解的效率。

图6为本申请又一个实施例提供的人机对话处理过程的示意图。下面结合图6对本申请实施例中的人机对话处理过程进行举例说明。

假设用户向人机交互设备输入的历史语句包括：“播放一首英文歌曲”、“要劲爆的”。当用户再向人机交互设备输入语句“要爵士音乐”时，人机交互设备针对当前语句的执行过程如图6所示。

参见图6，人机交互设备对当前语句进行语义解析，得到第一关键信息集合为{爵士}，并且，人机交互设备从缓存中获取历史语句对应的第二关键信息集合为{英文，劲爆}。具体的，第一关键信息集合和第二关键信息集合的获取过程可以参见图3中的S301和S302的详细描述。

继续参见图6，人机交互设备对第一关键信息集合和第二关键信息集合中的关键信息进行组合处理，得到多种关键信息组合结果，每种关键信息组合结果对应一个候选语义。进一步的，计算得到每个候选语义的概率得分。假设多个候选语义以及对应的概率得分如下：

候选语义1：{爵士}，概率得分0.7；

候选语义2：{英文，爵士}，概率得分0.9；

候选语义3：{劲爆，爵士}，概率得分0.85；

候选语义4：{英文，劲爆，爵士}，概率得分0.92；

其中，对关键信息进行组合处理的过程可以参见S403-S404的详细描述，各候选语义的概率得分的计算过程可以参见S405的详细描述。

继续参见图6，人机交互设备按照概率得分由高到低的顺序，对多个候选语义进行排序，排序后的顺序为：候选语义4、候选语义2、候选语义3、候选语义1。

进一步的，人机交互设备按照排序后的顺序，对各个候选语义依次进行检索。示例性的，首先对候选语义4进行检索，若检索得到答案，则根据检索到的答案生成应答语义；若未检索得到答案，则继续对候选语义2进行检索。若检索得到答案，则根据检索到的答案生成应答语句；若未检索到答案，则继续对候选语义3进行检索，以此类推。

上述过程中，由于根据第一关键信息集合和第二关键信息集合确定出用户的多个候选语义，提高了对用户语义理解的准确性；进而，可以根据不同候选语义的检索结果，向用户输出更合理的应答语句，提升用户的对话体验。

图7为本申请实施例提供的人机对话装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图7所示，本实施例的人机对话装置10可以包括：获取模块11、确定模块12和生成模块13。

其中，获取模块11，用于获取用户输入的第一语句，并对所述第一语句进行语义解析得到第一关键信息集合，所述第一关键信息集合包括至少一个第一关键信息；

所述获取模块11，还用于获取至少一个历史语句对应的第二关键信息集合，所述第二关键信息集合包括至少一个第二关键信息；

确定模块12，用于根据所述第一关键信息集合和所述第二关键信息集合，确定所述第一语句对应的多个候选语义；

生成模块13，用于根据所述多个候选语义，生成所述第一语句对应的应答语句。

一种可能的实现方式中，所述确定模块12具体用于：

对所述第一关键信息集合和所述第二关键信息集合中的关键信息进行组合处理，得到多种关键信息组合结果；

根据所述多种关键信息组合结果，确定所述第一语句对应的多个候选语义，所述多种关键信息组合结果与所述多个候选语义一一对应。

一种可能的实现方式中，所述确定模块12具体用于：

生成所述第二关键信息集合对应的多个子集；

将所述第一关键信息集合和所述多个子集分别进行组合，得到所述多种关键信息组合结果。

一种可能的实现方式中，所述生成模块13具体用于：

分别确定每种关键信息组合结果对应的候选语义的概率得分；

按照所述概率得分由高到低的顺序，对所述多个候选语义进行排序；

按照排序后的顺序依次对所述多个候选语义进行答案检索，直至检索得到答案，并根据所述答案，生成所述第一语句对应的应答语句。

一种可能的实现方式中，所述生成模块13具体用于：

根据每种关键信息组合结果中的所述第一关键信息集合和所述子集，确定在所述第一关键信息集合出现的情况下，所述子集也出现的条件概率；

将所述条件概率作为该关键信息组合结果对应的候选语义的概率得分。

一种可能的实现方式中，所述生成模块13具体用于：

获取所述第一关键信息集合中的每个第一关键信息与所述子集中的每个第二关键信息之间的共现概率；

根据所述共现概率，确定在所述第一关键信息集合出现的情况下，所述子集也出现的条件概率。

一种可能的实现方式中，所述生成模块13具体用于：

获取所述第一语句为省略形态的概率；

根据所述第一语句为省略形态的概率以及所述共现概率，确定在所述第一关键信息集合出现的情况下，所述子集也出现的条件概率。

一种可能的实现方式中，所述生成模块13具体用于：

获取历史语料，根据所述历史语料生成关键信息共现数据库，所述关键信息共现数据库中包括不同关键信息之间的共现概率；

通过查询所述关键信息共现数据库，得到所述第一关键信息集合中的每个第一关键信息与所述子集中的每个第二关键信息之间的共现概率。

一种可能的实现方式中，所述生成模块13具体用于：

对所述历史语料进行关键信息挖掘，得到多个关键信息；

统计所述多个关键信息中的任意两个关键信息在所述历史语料中的共现次数；

根据所述共现次数，确定所述任意两个关键信息之间的共现概率。

本实施例提供的人机对话装置，可用于实现上述任一方法实施例中的技术方案，其实现原理和技术效果类似，此处不作赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的人机对话方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的人机对话方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的人机对话方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的人机对话方法对应的程序指令/模块(例如，附图7所示的获取模块11、确定模块12和生成模块13)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的人机对话方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

人机对话方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与人机对话的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种人机对话方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述第一关键信息集合和所述第二关键信息集合，确定所述第一语句对应的多个候选语义，包括：

3.根据权利要求2所述的方法，其特征在于，对所述第一关键信息集合和所述第二关键信息集合中的关键信息进行组合处理，得到多种关键信息组合结果，包括：

生成所述第二关键信息集合对应的多个子集；

4.根据权利要求3所述的方法，其特征在于，根据所述多个候选语义，生成所述第一语句对应的应答语句，包括：

5.根据权利要求4所述的方法，其特征在于，分别确定每种关键信息组合结果对应的候选语义的概率得分，包括：

6.根据权利要求5所述的方法，其特征在于，根据每种关键信息组合结果中的所述第一关键信息集合和所述子集，确定在所述第一关键信息集合出现的情况下，所述子集也出现的条件概率，包括：

7.根据权利要求5所述的方法，其特征在于，根据每种关键信息组合结果中的所述第一关键信息集合和所述子集，确定在所述第一关键信息集合出现的情况下，所述子集也出现的条件概率，包括：

获取所述第一语句为省略形态的概率；

8.根据权利要求6或7所述的方法，其特征在于，获取所述第一关键信息集合中的每个第一关键信息与所述子集中的每个第二关键信息之间的共现概率，包括：

9.根据权利要求8所述的方法，其特征在于，根据所述历史语料生成关键信息共现数据库，包括：

对所述历史语料进行关键信息挖掘，得到多个关键信息；

10.一种人机对话装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述确定模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述确定模块具体用于：

生成所述第二关键信息集合对应的多个子集；

13.根据权利要求12所述的装置，其特征在于，所述生成模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述生成模块具体用于：

15.根据权利要求14所述的装置，其特征在于，所述生成模块具体用于：

16.根据权利要求14所述的装置，其特征在于，所述生成模块具体用于：

获取所述第一语句为省略形态的概率；

17.根据权利要求15或16所述的装置，其特征在于，所述生成模块具体用于：

18.根据权利要求17所述的装置，其特征在于，所述生成模块具体用于：

对所述历史语料进行关键信息挖掘，得到多个关键信息；

19.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。