CN112231451B

CN112231451B - 指代词恢复方法、装置、对话机器人及存储介质

Info

Publication number: CN112231451B
Application number: CN202011083035.8A
Authority: CN
Inventors: 方春华
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2023-09-29
Anticipated expiration: 2040-10-12
Also published as: CN112231451A

Abstract

本发明涉及人工智能技术领域，公开了一种指代词恢复方法、装置、对话机器人及存储介质。该方法通过对多轮对话的上下文进行分割和关键词的提取，并替换下文中的指代词，利用语言模型计算替换指代词后的句子的出现概率，基于该出现概率，选择概率最大的一个句子作为最终的目标句子替换下文对应的句子，其中计算句子的出现概率是通过句子中的词语和相邻词语之间的出现概率进行计算，这样方法对对话中的指代词进恢复，无需依赖与训练集，计算速度也快，可以快速聚焦到重点词语替换，大大提高了识别的效率，并且基于当前对话的上文关键词来计算替换下文指代词，其解析更加精准。此外，本发明还涉及区块链技术，上下文本和文本序列可存储于区块链中。

Description

指代词恢复方法、装置、对话机器人及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种指代词恢复方法、装置、对话机器人及存储介质。

背景技术

随着人工智能技术的普及，尤其是对话机器人在各种场景的使用，能够实现机器人与用户的只有对话使得尤为重要了，而实际的人机对话中，常常会使用到指代词，指代词对于我们用户来说结合前后的对话很容易就理解到对应的含义，但是对于机器人来说，其只能实现简单明了的，且非常直白话语才能被识别，对此，在机器人对话过程中，若能实现对代词的恢复有助于机器人改善对话质量，提高用户的良好体验。

目前，对于实现指代词的恢复，提出了基于检索的方法和基于生成的方法，而这些方法主要是通过考虑最后一句话进行推测分析和结合编解码器模型来实现候选项的生成，并从中选择合适的进行替换，这种方式虽然可以实现对指代词的恢复，但是编解码器模型的结构太过于复杂，其训练太过于依赖指代词的语料，并且使用时识别速度慢，精度也比较低。

发明内容

本发明的主要目的是解决现有的对话机器人在多轮对话中，识别话术的指代词效率较低的技术问题。

本发明第一方面提供了一种指代词恢复方法，应用于对话机器人，所述指代词恢复方法包括：

获取所述对话机器人中当前待处理的多轮对话，并确定所述多轮对话中的指代词；

基于所述指代词，将所述多轮对话划分为上文话术和下文话术，其中所述下文话术为包含所述指代词的句子；

利用关键词提取算法，提取所述上文话术的关键词集合；

调用汉语分词工具对所述下文话术的所有句子进行分词，并对分词进行过滤处理，得到下文文本序列；

将所述关键词集合中的关键词依次替换所述下文话术中的指代词，并通过预置的语言模型，计算替换后的句子的出现概率；

将替换后的句子的出现概率进行相互比较，选择其中所述出现概率最大的一个句子作为目标句子，并替换与其对应的指代词的句子，得到目标下文话术。

可选地，在本发明第一方面的第一种实现方式中，所述利用关键词提取算法，提取所述上文话术的关键词集合包括：

利用汉语分词工具对所述上文话术进行分词，并通过预设的停词表对分词后的上文话术句子进行过滤，得到上文文本序列；

调用互点信息算法，计算所述上文文本序列中各分词的词频，并基于所述词频确定每个分词的概率；

根据所述概率提取出所述上文话术的至少一个关键词，形成关键词集合。

可选地，在本发明第一方面的第二种实现方式中，所述调用互点信息算法，计算所述上文文本序列中各分词的词频，并基于所述词频确定每个分词的概率包括：

筛选出所述上文文本序列中的提问分词，并基于所述提问分词从语料库中匹配出对应的答案关键词；

计算所述提问分词和答案关键词在所述语料库中出现的概率；

基于所述提问分词的概率和所述答案关键词的概率，计算出所述上文文本序列中分词的概率。

可选地，在本发明第一方面的第三种实现方式中，所述基于所述提问分词的概率和所述答案关键词的概率，计算出所述上文文本序列中分词的概率包括：

计算所述提问分词和所述答案关键词在所述语料库中一个对话话术的上下文同时出现的次数；

计算所述对话话术的提问话术和回答话术中相配对的提问词语和答案词语的总配对数；

根据所述次数和总配对数，计算所述提问分词和所述答案关键词同时出现的出现概率；

计算所述提问分词在所述语料库中提问句子中出现的提问概率，以及计算所述答案关键词在所述语料库中答案句子中出现的答案概率；

根据所述出现概率、提问概率和答案概率，计算所述上文文本序列中分词的概率。

可选地，在本发明第一方面的第四种实现方式中，所述根据所述出现概率、提问概率和答案概率，计算所述上文文本序列中分词的概率包括：

将所述出现概率除以所述提问概率与所述答案概率的乘积，得到概率比例；

计算所述概率比例的对数，得到所述上文文本序列中分词的概率。

可选地，在本发明第一方面的第五种实现方式中，所述通过预置的语言模型，计算替换后的句子的出现概率包括：

对替换后的句子进行分词，得到分词序列；

利用N-gram模型计算所述分词序列中第一分词的第一概率P1；

利用N-gram模型计算所述分词序列中相邻量两个分词的组合概率P2；

根据所述第一概率和组合概率，确定所述替换后的句子的出现概率。

可选地，在本发明第一方面的第六种实现方式中，所述根据所述第一概率和组合概率，确定所述替换后的句子的出现概率包括：将所述第一概率和所述分词序列中所有相邻的两个分词组合的组合概率相乘，得到所述出现概率。

本发明第二方面提供了一种指代词恢复装置，所述指代词恢复装置法包括：

爬虫模块，用于获取所述对话机器人中当前待处理的多轮对话，并确定所述多轮对话中的指代词；

文本分割模块，用于基于所述指代词，将所述多轮对话划分为上文话术和下文话术，其中所述下文话术为包含所述指代词的句子；

提取模块，用于利用关键词提取算法，提取所述上文话术的关键词集合；

过滤模块，用于调用汉语分词工具对所述下文话术的所有句子进行分词，并对分词进行过滤处理，得到下文文本序列；

计算模块，用于将所述关键词集合中的关键词依次替换所述下文话术中的指代词，并通过预置的语言模型，计算替换后的句子的出现概率；

替换模块，用于将替换后的句子的出现概率进行相互比较，选择其中所述出现概率最大的一个句子作为目标句子，并替换与其对应的指代词的句子，得到目标下文话术。

可选地，在本发明第二方面的第一种实现方式中，所述提取模块包括：

分词单元，用于利用汉语分词工具对所述上文话术进行分词，并通过预设的停词表对分词后的上文话术句子进行过滤，得到上文文本序列；

概率计算单元，用于调用互点信息算法，计算所述上文文本序列中各分词的词频，并基于所述词频确定每个分词的概率；

提取单元，用于根据所述概率提取出所述上文话术的至少一个关键词，形成关键词集合。

可选地，在本发明第二方面的第二种实现方式中，所述概率计算单元包括：

匹配子单元，用于筛选出所述上文文本序列中的提问分词，并基于所述提问分词从语料库中匹配出对应的答案关键词；

概率计算子单元，用于计算所述提问分词和答案关键词在所述语料库中出现的概率；以及基于所述提问分词的概率和所述答案关键词的概率，计算出所述上文文本序列中分词的概率。

可选地，在本发明第二方面的第三种实现方式中，所述概率计算子单元具体用于：

可选地，在本发明第二方面的第四种实现方式中，所述概率计算子单元具体用于：

可选地，在本发明第二方面的第五种实现方式中，所述计算模块具体用于：

对替换后的句子进行分词，得到分词序列；

利用N-gram模型计算所述分词序列中第一分词的第一概率P1；

可选地，在本发明第二方面的第六种实现方式中，所述计算模块具体用于：

将所述第一概率和所述分词序列中所有相邻的两个分词组合的组合概率相乘，得到所述出现概率。

本发明第三方面提供了一种对话机器人，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述对话机器人执行上述的指代词恢复方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的指代词恢复方法。

本发明提供的技术方案中，通过对多轮对话的上下文进行分割和关键词的提取，并利用语言模型计算替换指代词后的句子的出现概率，基于该出现概率，选择概率最大的一个句子作为最终的目标句子替换下文对应的句子，其在计算句子的出现概率时，是通过句子中的词语和相邻词语之间的出现概率进行计算，这样方法对对话中的指代词进恢复，无需依赖与训练集，并且计算速度也快，可以快速聚焦到重点词语替换，大大提高了识别的效率，并且基于当前对话的上文关键词来计算替换下文指代词，其解析更加精准。

附图说明

图1为本发明实施例中指代词恢复方法的第一个实施例示意图；

图2为本发明实施例中指代词恢复方法的第二个实施例示意图；

图3为本发明实施例中步骤204的细化流程示意图；

图4为本发明实施例中步骤2043的细化流程示意图；

图5为本发明实施例中指代词恢复方法的第三个实施例示意图；

图6为本发明实施例中指代词恢复装置的一个实施例示意图；

图7为本发明实施例中指代词恢复装置的另一个实施例示意图；

图8为本发明实施例中对话机器人的一个实施例示意图。

具体实施方式

针对于现有的对话机器人的话术提取方法，本申请提出了一种基于无监督的方法对包含指代词的对话进行恢复的方案，该方案主要是通过识多轮对话中的指代词，并划分上下文话术，提取上文话术中的关键词，基于关键词替换下文话术中的指代词，最后通过N-gram语言模型计算出下文话术中替换后的句子的概率，基于概率选择对概率最大的句子，得到完整的多轮话术，通过该方法的实施不需要依赖话术训练语料也可以实现对应的指代词中解析替换，这样大大提高了识别的效率，并且基于当前对话的上文关键词来计算替换下文指代词，其解析更加精准。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中指代词恢复方法的第一个实施例包括：

101、获取对话机器人中当前待处理的多轮对话，并确定多轮对话中的指代词；

在该步骤中，获取多轮对话具体是通过在对话机器人上设置爬虫工具，实时获取对话机器人的对话语料，或者从对话机器人的对话缓存中爬取对话语料，从对话缓存中获取的则需要对对话的完整性进行识别。

在实际应用中，完整性的识别可以通过设置特定的话术结束语来检测，也可以是通过检测对话中的上下句的时间间隔来识别，当通过时间来识别时，则在上下句的时间间隔大于预设值时，则认为该对话结束，并且是比较完整的对话语料，可以执行爬取作为训练集，但是在制作训练集时，还需要对对话中的指代词来识别配对处理后，存储至对语料库中。

在爬取到多轮对话后，基于上下文的对话来识别出下文中的指代词，具体可以是通过自然语言处理技术来计算对话中的每个词的词频或者是相对于语料库中的出现概率来判断该词是否属于指代词，在实际应用中，其出现概率越小或者词频越小其属于指代词的可能性就越高，或者是通过设置指代词的判断界限值，若小于界限值的，则认为属于指代词，反之则不是。

102、基于指代词，将多轮对话划分为上文话术和下文话术，其中下文话术为包含指代词的句子；

在本实施例中，根据上述识别到的指代词对多轮对话进行上下文对话的划分，在划分过程中，首先确定指代词所在的句子，以该句子为搜索分界点向上进行语句的检索区分问句和答句，而问句和答句的区分具体可以通过昵称来识别区分，比如在问句时一般都会尊称对方为“您”或者“某某先生”，而在答句中仅仅是进行对应的回复，而昵称一般不会出现，即使是出现也是“我”的代称。

103、利用关键词提取算法，提取上文话术的关键词集合；

在本实施例中，其关键词提取算法可以是语义分析算法，也可以是概率计算算法，自然语言模型等等。

在该步骤中，当使用概率计算算法来提取上文话术的关键词时，先对上文话术中的句子分开，并通过自然语言处理技术对每个句子进行分词，得到对应句子的分词集合，并且将分词集合与句子建立对应关系，然后计算每个分词的出现概率，基于该出现概率即可选择出上文话术的关键词，在实际应用中，该出现概率可以理解为是分词在语料库中的出现概率和/或该分词在当前多轮对话中的出现概率的综合概率。

选择出该句子中综合概率较大的若干个分词，将其作为该句子的关键词集合，当然，在实际应用中，一个句子一般只存在一个指代词或者一个关键词，这时关键词集合中选择多个关键词，可以提高后续的指代词与关键词的配对概率。

在本实施例中，在提取上文话术的关键词时，具体还可以通过PMI提取算法来提取，通过计算选择的关键词与指代词同时出现在一个对话中的概率和其单独出现的概率，基于这两个概率计算出关键词的PMI指标，基于该指标来挑选句子的关键词。

104、调用汉语分词工具对下文话术的所有句子进行分词，并对分词进行过滤处理，得到下文文本序列；

在本实施例中，这里汉语分词工具为nlpir工具，通过该工具对下文话术进行文本挖掘和语义搜索等处理，得到下文话术的分词集合，其中在语义搜索的过程中，还可以从文本中挖掘出新词、新概念，用户可以用于专业词典的编撰，还可以进一步编辑标注，导入分词词典中，提高分词系统的准确度，并适应新的语言变化，从而得到该句子完整的分词集合，然后对分词集合中的一些词语进行过滤筛选，删除一些偏差较大的，最后将剩下的进行排序，得到下文文本序列。

105、将关键词集合中的关键词依次替换所述下文话术中的指代词，并通过预置的语言模型，计算替换后的句子的出现概率；

在该步骤中，将关键词集合中的每个关键词替换下文话术中的指代词，这里分为以下两种情况：

情况一、关键词集合中的关键词数量与指代词的数量相同，且一一对应，这时将所有关键词全部对应替换指代词，得到新的下文话术；当然这里还可以进行适当的调整对应关系后，再对应替换，得到另一种下文话术，最后计算得到的几种下文话术的出现概率；

情况二、关键词集合中的关键词都可以用来代表下文话术中的指代词，这时选择其中一个关键词替换下文话术中的所有指代词，得到一个下文话术，然后选择另一个关键词再替换，最后得到数量等于关键词数量的下文话术，最后对所有下文话术计算出现概率；

至于上述的哪种情况，其具体可以根据实际情况来考虑，只要是基于上述提取到的关键词对应替换即可在一定程度上满足指代词的语义替换。

在实际应用中，在计算下文话术的出现概率时，具体是分别对每种情况得到的下文话术中的每个句子的出现概率计算，然后基于回归模型进行回归处理，得到下文话术的实际出现概率，当然这是对于下文话术存在多个对话语句的情况使用，而下文话术中只有一句时，则直接对该句子的分词出现概率计算即可得到下文话术的出现概率。

106、将替换后的句子的出现概率进行相互比较，选择其中出现概率最大的一个句子作为目标句子，并替换与其对应的指代词的句子，得到目标下文话术。

在该步骤中，其相互比较可以通过排序来实现，在计算出所有替换后的下文话术的出现概率后，将其按照出现概率的大小进行排序，然后选择其中最大的一个确定为最终的下文话术，最后将其与上文话术进行合并，从而得到准确的完整语音的多轮对话，对话机器人基于替换后的多轮对话进行识别，即可完成准确的机器对话操作。

通过对上述方法的实施例，通过无监督的方法进行指代词恢复，避免了人工标注数据的麻烦，节约了人工成本。进一步的，采用句子分词概率计算的方式，在一定程度上减少了语义搜索和替换的计算量，提高了计算速度，并且这里使用的概率计算的模型简单。

进一步的，通过抽取关键词并取代指代词，而不是遍历上文的每个词来取代指代词，聚焦重点，减少了计算量。并且采用这种方式设置的人机对话训练用的对话语料简单易得，可高效运用在多轮对话中，有助于提高多轮对话中机器人回复的质量。

请参阅图2，本发明实施例中指代词恢复方法的第二个实施例包括：

201、获取对话机器人中当前待处理的多轮对话，并确定多轮对话中的指代词；

在实际应用中，对于指代词，动词，名词等等词类的组成结构会不一样，对此在识别指代词时，可以通过分词系统和实体识别系统结合标记非结构化文本文件来实现，具体的，首先对多轮对话中的每个句子通过分词系统进行分词，在分词完成后，对每个词的结构进行分析，然后再通过实体识别系统分词的结构进行比对，从而识别出每个句子中的指代词。

202、基于指代词，将多轮对话划分为上文话术和下文话术；

该步骤中，所述下文话术为包含所述指代词的句子；

203、利用汉语分词工具对上文话术进行分词，并通过预设的停词表对分词后的上文话术句子进行过滤，得到上文文本序列；

在本实施例中，不管是上文话术还是下文话术，其中都会存在一些停词语的使用，而这些停词语在对话中，并不能指代任何语义，停词语实际上是用于表示句子的陈述语气和情感，而在实际的语义检索和理解过程中，这些词语是需要被删除的，比如标点符号、语气词等，而这些词时被定义在停词表中，在将上文话术分词完整后，得到的上文文本序列中会，停词语也会被单独划分为一个词，因此需要通过遍历上文文本序列中是否存在与所述停词表中一致的词，若存在，则将其中上文文本序列中提出，从而得到有效的分词。

204、调用互点信息算法，计算上文文本序列中各分词的词频，并基于所述词频确定每个分词的概率；

205、根据概率提取出上文话术的至少一个关键词，形成关键词集合；

在实际应用中，对于步骤204-207具体是采用互点信息算法(Pointwise MutualInformation，PMI)来实现的概率计算，具体的通过互点信息算法，计算所述上文文本序列中各分词的词频，并基于所述词频确定每个分词的概率，而在实际应用中，在计算上文文本序列的分词概率时，首先需要筛选出所述上文文本序列中的提问分词，然后基于所述提问分词从语料库中匹配出对应的答案关键词；计算所述提问分词和答案关键词在所述语料库中出现的概率；基于所述提问分词的概率和所述答案关键词的概率，计算出所述上文文本序列中分词的概率；从上文文本序列中所有的分词中选择出概率较大的至少一个作为当前上文话术的关键词，形成关键词集合。

206、调用汉语分词工具对下文话术的所有句子进行分词，并对分词进行过滤处理，得到下文文本序列；

207、将关键词集合中的关键词依次替换下文话术中的指代词，并通过预置的语言模型，计算替换后的句子的出现概率；

208、将替换后的句子的出现概率进行相互比较，选择其中出现概率最大的一个句子作为目标句子，并替换与其对应的指代词的句子，得到目标下文话术。

在本实施例中，通过对多轮对话的上下文进行分割和关键词的提取，并利用语言模型计算替换指代词后的句子的出现概率，基于该出现概率，选择概率最大的一个句子作为最终的目标句子替换下文对应的句子，其中计算句子的出现概率时，是通过句子中的词语和相邻词语之间的出现概率进行计算，这样方法对对话中的指代词进恢复，无需依赖与训练集，并且计算速度也快，可以快速聚焦到重点词语替换，大大提高了识别的效率，并且基于当前对话的上文关键词来计算替换下文指代词，其解析更加精准。

在本实施例中，对于利用PMI计算句子的出现概率，具体可以通过以下步骤实现，如图3所示：

2041、筛选出上文文本序列中的提问分词，并基于提问分词从语料库中匹配出对应的答案关键词；

2042、计算提问分词和答案关键词在语料库中出现的概率；

2043、基于提问分词的概率和答案关键词的概率，计算出上文文本序列中分词的概率。

在本实施例中，对于计算所述上文文本序列中分词的概率可以通过结合语料库和当前多轮对话的语料来计算，具体的如图4所示：

20431、计算提问分词和答案关键词在所述语料库中一个对话话术的上下文同时出现的次数；

20432、计算对话话术的提问话术和回答话术中相配对的提问词语和答案词语的总配对数；

20433、根据次数和总配对数，计算提问分词和答案关键词同时出现的出现概率；

20434、计算提问分词在语料库中提问句子中出现的提问概率，以及计算答案关键词在语料库中答案句子中出现的答案概率；

20435、根据出现概率、提问概率和答案概率，计算上文文本序列中分词的概率。

在实际应用中，所述根据所述出现概率、提问概率和答案概率，计算所述上文文本序列中分词的概率包括：

下面以具体的例子进行说明：

以”如何购买e生保”为例，分完词后的序列为(如何，购买，e生宝),则这个句子出现的概率为

假设一轮对话中有n轮对话u₁,u₂,…,u_n,u_n包含指代词，需要对指代词进行替代；

上文包含指代词指代的词。首先对上文进行分词并过滤掉停词，通过PMI指数计算出上文的关键词，关键词替换u_n包含的指代词，并计算替换后的句子出现的概率，改写后的句子出现概率最高的作为指代词恢复后的句子。

PMI是用来抽取关键词的一种方法。给定上文中的词w_c,和回复中的词w_r，两个词的PMI信息为:

其中，概率p(w_q,w_r)为w_q和w_r分别在一个对话pair的上下句同时出现的概率(w_q和w_r

同时出现的对话pair数/训练语料q部分每个词和r部分每个词组成的pair总数)，p(w_q)是w_q在q语句中出现的概率(w_q在q语料中出现的语句数/q语料总数)。

在本实施例中，在确定了上文话术的关键词后，则使用bigram模型计算句子出现的概率，基于该概率来选择符合的恢复话术，即是选择准确率和精准度较高的关键词替换指代词，而计算句子出现的概率具体分为两个部分，分别是单个词的概率和相邻词组合的概率。

本实施例在第一实施例的基础上，通过PMI提取关键词，可避免遍历上文句子的每个词替代下文的指代词，减少计算量，提升效率。同时该实现流程是对对话语料进行分词，过滤停词，计算1-gram、2-gram的概率。通过PMI提取上文的关键词，将关键词替换下文的指代词，计算替换后的下文句子出现的概率，选取概率最高的句子作为指代词恢复后的句子。本发明与基于有监督的方式相比，无需训练大量参数，计算速度快，只基于统计n-gram出现的概率即可预测句子出现的概率，通过判断指代词进行替代后句子出现的概率即可进行指代词的恢复。

请参阅图5，本发明实施例中指代词恢复方法的第三个实施例包括：

501、获取对话机器人中当前待处理的多轮对话，并确定多轮对话中的指代词；

502、基于指代词，将多轮对话划分为上文话术和下文话术，其中下文话术为包含指代词的句子；

503、利用关键词提取算法，提取上文话术的关键词集合；

504、调用汉语分词工具对下文话术的所有句子进行分词，并对分词进行过滤处理，得到下文文本序列；

对于上述步骤501-504的具体实现原理与上述步骤101-104和201-206相同，这里不再重复赘述。

505、将关键词集合中的关键词依次替换下文话术中的指代词；

506、对替换后的句子进行分词，得到分词序列；

507、利用N-gram模型计算分词序列中第一分词的第一概率P1；

在该步骤中，这里的N-gram模型为的1-gram模型。

508、利用N-gram模型计算分词序列中相邻量两个分词的组合概率P2；

在该步骤中，这里的N-gram模型为的2-gram模型。

509、根据第一概率和组合概率，确定替换后的句子的出现概率。

510、将替换后的句子的出现概率进行相互比较，选择其中所述出现概率最大的一个句子作为目标句子，并替换与其对应的指代词的句子，得到目标下文话术。

在本实施例中，在计算句子的出现概率时，具体是通过语言模型来计算，而该语言模型为N-gram模型，具体的，在计算第一概率时，使用的是1-gram模型来计算，而计算组合时，采用2-gram模型来实现。

在实际应用中，将所述第一概率和所述分词序列中所有相邻的两个分词组合的组合概率相乘，得到所述出现概率。(例如分词序列包括N个分词，从中选择一个A1，相邻次组合有2N个，则出现概率为P1乘以N个P2的乘积)

例如“天气”这个词在100个句子中出现，语料中总共有10000个句子，则天气出现的概率为0.01。接着计算2-gram出现的概率，2-gram是一个句子相邻的两个词的组合。计算2-gram出现的概率与单个词出现的概率一致，例如(天气，不错)这个组合在句子中总共出现10次，总共有10000个句子，则(天气，不错)出现的概率为0.001。

假设一个句子共有n个词，文本序列为(A₁,A₂,…,A_n),则2-gram语言模型的计算公式为：

P(A₁，A₂,……,A_n)＝P(A₁)·P(A₂|A₁)·P(A₃|A₂)·…·P(A_n|A_n-1)

通过上述方案的实施，对对话语料进行分词，过滤停词，计算1-gram、2-gram的概率。通过PMI提取上文的关键词，将关键词替换下文的指代词，计算替换后的下文句子出现的概率，选取概率最高的句子作为指代词恢复后的句子。本发明与基于有监督的方式相比，无需训练大量参数，计算速度快，只基于统计N-gram出现的概率即可预测句子出现的概率，通过判断指代词进行替代后句子出现的概率即可进行指代词的恢复。

上面对本发明实施例中指代词恢复方法进行了描述，下面对本发明实施例中指代词恢复装置进行描述，请参阅图6，本发明实施例中指代词恢复装置的第一个实施例包括：

爬虫模块601，用于获取所述对话机器人中当前待处理的多轮对话，并确定所述多轮对话中的指代词；

文本分割模块602，用于基于所述指代词，将所述多轮对话划分为上文话术和下文话术，其中所述下文话术为包含所述指代词的句子；

提取模块603，用于利用关键词提取算法，提取所述上文话术的关键词集合；

过滤模块604，用于调用汉语分词工具对所述下文话术的所有句子进行分词，并对分词进行过滤处理，得到下文文本序列；

计算模块605，用于将所述关键词集合中的关键词依次替换所述下文话术中的指代词，并通过预置的语言模型，计算替换后的句子的出现概率；

替换模块606，用于将替换后的句子的出现概率进行相互比较，选择其中所述出现概率最大的一个句子作为目标句子，并替换与其对应的指代词的句子，得到目标下文话术。

在本实施例中，所述指代词恢复装置运行上述指代词恢复方法，该方法通过对多轮对话的上下文进行分割和关键词的提取，并利用语言模型计算替换指代词后的句子的出现概率，基于该出现概率，选择概率最大的一个句子作为最终的目标句子替换下文对应的句子，其中计算句子的出现概率时，是通过句子中的词语和相邻词语之间的出现概率进行计算，这样方法对对话中的指代词进恢复，无需依赖与训练集，并且计算速度也快，可以快速聚焦到重点词语替换，大大提高了识别的效率，并且基于当前对话的上文关键词来计算替换下文指代词，其解析更加精准。

请参阅图7，本发明实施例中指代词恢复装置的第二个实施例，该指代词恢复装置具体包括：

在本实施例中，所述提取模块603包括：

分词单元6031，用于利用汉语分词工具对所述上文话术进行分词，并通过预设的停词表对分词后的上文话术句子进行过滤，得到上文文本序列；

概率计算单元6032，用于调用互点信息算法，计算所述上文文本序列中各分词的词频，并基于所述词频确定每个分词的概率；

提取单元6033，用于根据所述概率提取出所述上文话术的至少一个关键词，形成关键词集合。

在本实施例中，所述概率计算单元6032包括：

匹配子单元60321，用于筛选出所述上文文本序列中的提问分词，并基于所述提问分词从语料库中匹配出对应的答案关键词；

概率计算子单元60322，用于计算所述提问分词和答案关键词在所述语料库中出现的概率；以及基于所述提问分词的概率和所述答案关键词的概率，计算出所述上文文本序列中分词的概率。

在本实施例中，所述概率计算子单元60322在实现分词的概率时，具体实现步骤如下：

在另一实施例中，所述概率计算子单元60322具体用于：

在另一些实施例中，所述计算模块605具体用于：

对替换后的句子进行分词，得到分词序列；

利用N-gram模型计算所述分词序列中第一分词的第一概率P1；

在另一实施例中，所述计算模块605具体用于：

本发明实施例中，通过对上述装置的实施，不仅实现了无监督的方法进行指代词恢复，避免了人工标注数据的麻烦，节约了人工成本。并且这种指代词恢复方法可以快速进行焦点定位并替换，其计算量小，计算速度快，这里的语言模型简单易用。

进一步的，通过抽取关键词并取代指代词，而不是遍历上文的每个词来取代指代词，聚焦重点，减少了计算量。由于是根据对话上文的关键词来对下文的指代词进行替换，其采用的对话语料简单易得，无需人工大加干预，可高效运用在多轮对话中，有助于提高多轮对话中机器人回复的质量。

上面图6和图7从模块化功能实体的角度对本发明实施例中的指代词恢复装置进行详细描述，下面从硬件处理的角度对本发明实施例中对话机器人进行详细描述，而指代词恢复装置可以插件的形式设置与所述对话机器人种实现对话术的识别。

图8是本发明实施例提供的一种对话机器人的结构示意图，该对话机器人800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对对话机器人800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在对话机器人800上执行存储介质830中的一系列指令操作,以实现上述指代词恢复方法的步骤。

对话机器人800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的对话机器人结构并不构成对本申请提供的对话机器人的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述各实施例提供的指代词恢复方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种指代词恢复方法，应用于对话机器人，其特征在于，所述指代词恢复方法包括：

利用关键词提取算法，提取所述上文话术的关键词集合；

将替换后的句子的出现概率进行相互比较，选择其中所述出现概率最大的一个句子作为目标句子，并替换与其对应的指代词的句子，得到目标下文话术；

所述利用关键词提取算法，提取所述上文话术的关键词集合包括：

根据所述概率提取出所述上文话术的至少一个关键词，形成关键词集合；

所述调用互点信息算法，计算所述上文文本序列中各分词的词频，并基于所述词频确定每个分词的概率包括：

基于所述提问分词的概率和所述答案关键词的概率，计算出所述上文文本序列中分词的概率；

所述基于所述提问分词的概率和所述答案关键词的概率，计算出所述上文文本序列中分词的概率包括：

2.根据权利要求1所述的指代词恢复方法，其特征在于，所述根据所述出现概率、提问概率和答案概率，计算所述上文文本序列中分词的概率包括：

3.根据权利要求1或权利要求2所述的指代词恢复方法，其特征在于，所述通过预置的语言模型，计算替换后的句子的出现概率包括：

对替换后的句子进行分词，得到分词序列；

利用N-gram模型计算所述分词序列中第一分词的第一概率；

利用N-gram模型计算所述分词序列中相邻量两个分词的组合概率；

4.根据权利要求3所述的指代词恢复方法，其特征在于，所述根据所述第一概率和组合概率，确定所述替换后的句子的出现概率包括：将所述第一概率和所述分词序列中所有相邻的两个分词组合的组合概率相乘，得到所述出现概率。

5.一种指代词恢复装置，其特征在于，所述指代词恢复装置包括：

爬虫模块，用于获取对话机器人中当前待处理的多轮对话，并确定所述多轮对话中的指代词；

替换模块，用于将替换后的句子的出现概率进行相互比较，选择其中所述出现概率最大的一个句子作为目标句子，并替换与其对应的指代词的句子，得到目标下文话术；

所述提取模块包括：

提取单元，用于根据所述概率提取出所述上文话术的至少一个关键词，形成关键词集合；

所述概率计算单元包括：

概率计算子单元，用于计算所述提问分词和答案关键词在所述语料库中出现的概率；以及基于所述提问分词的概率和所述答案关键词的概率，计算出所述上文文本序列中分词的概率；

所述概率计算子单元具体用于：

6.根据权利要求5所述的指代词恢复装置，其特征在于，所述概率计算子单元具体用于：

7.根据权利要求5或权利要求6所述的指代词恢复装置，其特征在于，所述计算模块具体用于：

对替换后的句子进行分词，得到分词序列；

利用N-gram模型计算所述分词序列中第一分词的第一概率；

8.根据权利要求7所述的指代词恢复装置，其特征在于，所述计算模块具体用于：

9.一种对话机器人，其特征在于，所述对话机器人包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述对话机器人执行如权利要求1-4中任一项所述的指代词恢复方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的指代词恢复方法。