CN112287080A

CN112287080A - 问题语句的改写方法、装置、计算机设备和存储介质

Info

Publication number: CN112287080A
Application number: CN202011149730.XA
Authority: CN
Inventors: 刘东煜; 陈乐清; 曾增烽
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-29
Anticipated expiration: 2040-10-23
Also published as: CN112287080B; WO2022083103A1

Abstract

本申请涉及人工智能技术领域，可应用于智慧医疗领域中，以推动智慧城市的发展，提供一种问题语句的改写方法、装置、计算机设备和存储介质，获取用户输入的问题语句；基于同义词匹配，识别问题语句中每个可被替换的词，以及替换每个词的候选同义词；将每个词的候选同义词作为节点，将问题语句的起点作为起始节点，问题语句的终点作为结束节点；将候选同义词之间的句子片段作为连接节点之间的边，构建有向图；基于N‑gram语言模型，计算有向图中各个边的边权重；通过N最短路径算法计算出最短路径，将最短路径中各个节点对应的候选同义词改写至问题语句中，得到改写的问题语句。本申请通过最短路径的计算，找出最符合语境同义词，从而对语句进行改写。

Description

问题语句的改写方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种问题语句的改写方法、装置、计算机设备和存储介质。

背景技术

在医疗领域的FAQ(问题解答)模块中，用户可以提出与医疗相关的医疗问题，针对用户提出的医疗问题，其回复答案生成主要将用户的问题与问题模板匹配的方式完成。但是在某些情况下用户问题与模板问题语义相近，却无法召回答案。比如：用户问“抑郁症可以投保吗？”，而模板问为“精神病可以投保吗？”，这种情况下可以通过同义词改写的方式扩充输入的问题语句，如：“抑郁症”的同义词为“精神病”，则可以在一定程度上提高召回率。

在具体的应用场景，比如在数字医疗的FAQ问答机器人中，数据库会事先存储多个医疗问题的模板，当用户提问时会匹配到相应的模板问题从而进行自动回复。

然而，对于同一类问题，用户的提问方式却多种多样，同时也包含大量的口语表述，如：“注射疫苗->打疫苗”、“腿骨折->腿瘸了”、“取消->退保”等。

因此，在实际中虽然用户问题与模板问题的语义相近，却无法正确匹配到相应的回复。

因此，可以对用户的问题语句中的词进行同义词替换，但是在不同语境下同义词的合理性却存在差异。如“打疫苗”可以改写为“注射疫苗”，此时，“打”与“注射”是一组同义词，然而将“打篮球”改写为“注射篮球”却十分不合理。这样的例子普遍存在，如“可以投保吗？”可以改写为“能投保吗？”，而将“这个想法可以”改写为“这个想法能”却很滑稽。因此，目前的同义词替换存在不符合语境的缺陷。

发明内容

本申请的主要目的为提供一种问题语句的改写方法、装置、计算机设备和存储介质，旨在克服目前同义词改写时出现不符合语境的缺陷。

为实现上述目的，本申请提供了一种问题语句的改写方法，包括以下步骤：

获取用户输入的问题语句；

基于同义词匹配，识别所述问题语句中每个可被替换的词，以及替换每个所述词的候选同义词；

将每个所述词的候选同义词作为节点，将所述问题语句的起点作为起始节点，所述问题语句的终点作为结束节点；

将所述候选同义词之间的句子片段作为连接节点之间的边，分别在所述起始节点、结束节点与所述节点之间构建边；基于所述起始节点、结束节点、各个所述节点以及所述边，构建有向图；其中，所述有向图中的各个节点对应的候选同义词之间不存在交叉，所述有向图中由起始节点开始，由结束节点结束，且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点；

基于N-gram语言模型，计算所述有向图中各个边的边权重；

基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句。

进一步地，所述基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句的步骤之后，包括：

计算所述问题语句与所述改写后的问题语句的语义相似度；

判断所述语义相似度是否大于阈值；

若不大于，则基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出第二短路径，将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句；

若大于，则在数据库中匹配对应所述改写后的问题语句的答案，并将匹配出的所述答案推送至所述用户所在的用户终端。

进一步地，所述计算所述问题语句与所述改写后的问题语句的语义相似度的步骤，包括：

基于预设的编码器，得到所述问题语句对应的第一向量矩阵，以及得到所述改写后的问题语句对应的第二向量矩阵；

计算第一向量矩阵与所述第二向量矩阵的相似度。

相似度的计算公式为：

其中，Ai为所述第一向量矩阵的第i个分向量的数值，Bi为所述第二向量矩阵的第i个分向量的数值，所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。

基于所述改写后的问题语句，识别所述用户的意图；

判断所述意图是否为指定意图；所述指定意图为购买产品意图；

若是，则获取对应所述指定意图的产品信息文本，并对所述产品信息文本进行哈希计算，得到对应的哈希值存储于数据库中；

将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端，并提醒所述用户在所述产品信息文本中输入用户信息，并基于所述哈希值对所述产品信息文本进行加密。

进一步地，所述边权重的计算公式为：

其中，所述问题语句中包括m个字，所述问题语句表示为：

s＝w₁,w₂,w₃,…,w_m

P(w)为问题语句中的字的概率分数，i，j分别为两个节点对应在所述问题语句中的位置；事件

代表事件w_j-n+1…w_j-1同时发生，n为N-gram语言模型的窗口大小；

所述最短路径的计算公式为：

本申请还提供了一种问题语句的改写装置，包括：

获取单元，用于获取用户输入的问题语句；

第一识别单元，用于基于同义词匹配，识别所述问题语句中每个可被替换的词，以及替换每个所述词的候选同义词；

第一构建单元，用于将每个所述词的候选同义词作为节点，将所述问题语句的起点作为起始节点，所述问题语句的终点作为结束节点；

第二构建单元，用于将所述候选同义词之间的句子片段作为连接节点之间的边，分别在所述起始节点、结束节点与所述节点之间构建边；基于所述起始节点、结束节点、各个所述节点以及所述边，构建有向图；其中，所述有向图中的各个节点对应的候选同义词之间不存在交叉，所述有向图中由起始节点开始，由结束节点结束，且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点；

第一计算单元，用于基于N-gram语言模型，计算所述有向图中各个边的边权重；

改写单元，用于基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句。

进一步地，还包括：

第二计算单元，用于计算所述问题语句与所述改写后的问题语句的语义相似度；

判断单元，用于判断所述语义相似度是否大于阈值；

第三计算单元，用于若不大于，则基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出第二短路径，将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句；

匹配单元，用于若大于，则在数据库中匹配对应所述改写后的问题语句的答案，并将匹配出的所述答案推送至所述用户所在的用户终端。

进一步地，所述第二计算单元具体用于：

计算第一向量矩阵与所述第二向量矩阵的相似度。

相似度的计算公式为：

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请提供的问题语句的改写方法、装置、计算机设备和存储介质，获取用户输入的问题语句；基于同义词匹配，识别所述问题语句中每个可被替换的词，以及替换每个所述词的候选同义词；将每个所述词的候选同义词作为节点，将所述问题语句的起点作为起始节点，所述问题语句的终点作为结束节点；将所述候选同义词之间的句子片段作为连接节点之间的边，分别在所述起始节点、结束节点与所述节点之间构建边；基于所述起始节点、结束节点、各个所述节点以及所述边，构建有向图；基于N-gram语言模型，计算所述有向图中各个边的边权重；通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句。本申请通过最短路径的计算，找出最符合语境同义词，从而对问题语句进行改写。

附图说明

图1是本申请一实施例中问题语句的改写方法步骤示意图；

图2是本申请一实施例中问题语句的改写装置结构框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种问题语句的改写方法，包括以下步骤：

步骤S1，获取用户输入的问题语句；

步骤S2，基于同义词匹配，识别所述问题语句中每个可被替换的词，以及替换每个所述词的候选同义词；

步骤S3，将每个所述词的候选同义词作为节点，将所述问题语句的起点作为起始节点，所述问题语句的终点作为结束节点；

步骤S4，将所述候选同义词之间的句子片段作为连接节点之间的边，分别在所述起始节点、结束节点与所述节点之间构建边；基于所述起始节点、结束节点、各个所述节点以及所述边，构建有向图；其中，所述有向图中的各个节点对应的候选同义词之间不存在交叉，所述有向图中由起始节点开始，由结束节点结束，且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点；

步骤S5，基于N-gram语言模型，计算所述有向图中各个边的边权重；

步骤S6，基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句。

在本实施例中，上述方法可应用于智慧城市的智慧医疗领域中，以推动智慧城市的建设，例如可以应用于医疗领域的问答系统中，用户在问答系统输入与医疗相关的问题语句，本方法对上述问题语句进行改写。在医疗领域中，由于医疗领域中的词汇专业性较强，用户在输入上述问题语句时，由于对医疗领域的词汇较为生疏，可能造成其表达不够通顺等，因此，需要对用户提出的医疗问题进行改写，得到符合语境的语句，从而提高匹配正确答案的概率。

具体地，如上述步骤S1所述的，应用于智能解答的场景中，上述问题语句为用户在用户终端上语音输入或者文字输入的语句，例如：请问交费期间可以退保金鑫盛吗？

如上述步骤S2所述的，配置有离线同义词挖掘系统，该系统经过长期的同义词挖掘，从而不断补充同义词词典。上述同义词词典中的同义词以key-value形式存储，key为待匹配的词语，value为若干可能与该词成为同义词的词语。基于上述同义词词典，利用同义词匹配，从上述问题语句中识别出每个可被替换的词，即识别出问题语句中每个具有同义词的词，以及根据同义词词典获取到替换每个词的候选同义词。

如上述步骤S3-S4所述的，将每个候选同义词看作为一个“节点”，候选同义词与候选同义词之间的句子片段看作“边”，构建有向图G(V,E)。候选同义词v₁与候选同义词v₂不存在交叉则建立有向边e₁₂，设：候选同义词v₁在句中的位置在候选同义词v₂之前，则边e₁₂的方向由v₁指向v₂。同时添加起始节点“<Start>”与结束节点“<End>”，上述起始节点以及结束节点与上述候选同义词对应的节点之间也依次构建边。如下图所示，因“交费”、“期间”两个匹配词间无交叉，所以存在有向边，而因“交费期间”、“期间”两个匹配词间存在交叉则不存在有向边。

如上述步骤S5所述的，上述N-gram语言模型用于计算上个各个候选同义词代入至问题语句后的句子通顺度分数，并基于上述通顺度分数计算所述有向图中各个边的边权重。上述N-gram语言模型采用大规模通用语料(人民日报、搜狗语料等)以及垂直领域语料(如：FAQ中的语料)训练得到。其中，N-gram是一种统计语言模型算法，通过对语句的出现概率进行建模从而得到句子困惑度分数(即顺畅度分数)。

如上述步骤S6所述的，根据上述构造好的有向图，使用N最短路径进行求解出起始节点至结束节点的最短路径(即概率分数最大)，针对最短路径，依次选择路径上节点对应的候选同义词进行改写即得到了改写后的问题句子。经过上述改写之后，使得改写后的问题语句不仅可以在数据库中查找出对应的答案，而且更加贴近于用户提出问题时的语境，更加符合用户的问题需求。

在一实施例中，所述基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句的步骤S6之后，包括：

步骤S7，计算所述问题语句与所述改写后的问题语句的语义相似度；

步骤S8，判断所述语义相似度是否大于阈值；

步骤S9，若不大于，则基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出第二短路径，将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句；

步骤S10，若大于，则在数据库中匹配对应所述改写后的问题语句的答案，并将匹配出的所述答案推送至所述用户所在的用户终端。

在本实施例中，得到改写后问题语句，为了避免上述模型训练不够造成改写不正确的缺陷，还需要计算上述改写后的问题语句与用户原输入的问题语句的语义相似度；当该语义相似度大于预设的阈值时，则表明其语义与原问题语句的语义近似，则可以在数据库中获取该改写后的问题语句所对应的答案。若语义相似度不大于预设的阈值时，则表明其语义与原问题语句的语义不够近似，此时有可能是计算出现误差，或者模型训练过程中出现问题。因此，可以基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出第二短路径，将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句。

在一实施例中，所述计算所述问题语句与所述改写后的问题语句的语义相似度的步骤S7，包括：

计算第一向量矩阵与所述第二向量矩阵的相似度。

相似度的计算公式为：

在一实施例中，用户在输入上述问题语句时，通常具有相应的意图，例如寻求预防某种疾病的相关信息，例如寻求治疗某种疾病的药物/治疗方案文本，又或者是其它与医疗相关的产品购买意图等。所述基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句的步骤S6之后，包括：

步骤S71，基于所述改写后的问题语句，识别所述用户的意图；

步骤S81，判断所述意图是否为指定意图；所述指定意图为购买产品意图；

步骤S91，若是，则获取对应所述指定意图的产品信息文本，并对所述产品信息文本进行哈希计算，得到对应的哈希值存储于数据库中；

步骤S101，将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端，并提醒所述用户在所述产品信息文本中输入用户信息，并基于所述哈希值对所述产品信息文本进行加密。

在本实施例中，在得到改写后的问题语句之后，可以对该问题语句进行意图识别，判断该用户是否具有购买产品的意图；若用户的意图为购买产品，为了加快与用户之间的信息沟通，则可以推荐对应所述指定意图的产品信息文本，该产品信息文本中记载有所述用户意图购买产品的相关介绍信息，且该产品信息文本中还具有输入用户信息的文本框。为了保障用户在上述产品信息文本中输入用户信息之后进行传输的安全性，因此需要对其进行加密传输。在本实施例中，约定对上述产品信息文本的加密密码为上述产品信息文本未输入用户信息之前的哈希值。

在一实施例中，所述边权重的计算公式为：

其中，所述问题语句中包括m个字，所述问题语句表示为：

s＝w₁,w₂,w₃,…,w_m

计算最短路径时，为了使乘法变成加法，此处边权重进行log处理，因此，上述最短路径的计算公式为：

在本实施例中，以一个包括m个字的问题语句为例，该问题语句表示为：s＝w₁,w₂,w₃,…,w_m。

文题语句s的出现概率可表示为:

p(s)＝(w₁,w₂,w₃,…,w_m)＝P(w₁)P(w₂|w₁)…P(w_m|w₁…w_m-1)

利用马尔科夫假设可以对上式进行近似求解，以N-gram语言模型的窗口n＝4为例：

p(s)＝P(w₁,w₂,w₃,…,w_m)＝(w₁)P(w₂|w₁)…P(w_m|w_m-3…w_m-1)

将上式进行简化，用事件

代表事件w_m-3…w_m-1同时发生，简化如下：

定义有向图的节点集合为所有候选同义词集，边集合为所有候选同义词与候选同义词间的n-gram拆解后的概率分数。

在一具体实施例中，以N-gram语言模型的窗口n＝4为例，上述问题语句为：请问交费期间可以退保金鑫盛吗？其中交费的候选同义词为“缴费”，可以的候选同义词为“能不能”，以计算上述“缴费”与“能不能”之间的边的边权重为例：

上述问题语句的顶点(即起始节点、结束节点)至候选同义词的节点之间边的边权重计算以起始节点为例(距终止位的边权重计算方式同理)，其计算公式如下：

参照图2，本申请一实施例中还提供了一种问题语句的改写装置，包括：

获取单元10，用于获取用户输入的问题语句；

第一识别单元20，用于基于同义词匹配，识别所述问题语句中每个可被替换的词，以及替换每个所述词的候选同义词；

第一构建单元30，用于将每个所述词的候选同义词作为节点，将所述问题语句的起点作为起始节点，所述问题语句的终点作为结束节点；

第二构建单元40，用于将所述候选同义词之间的句子片段作为连接节点之间的边，分别在所述起始节点、结束节点与所述节点之间构建边；基于所述起始节点、结束节点、各个所述节点以及所述边，构建有向图；其中，所述有向图中的各个节点对应的候选同义词之间不存在交叉，所述有向图中由起始节点开始，由结束节点结束，且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点；

第一计算单元50，用于基于N-gram语言模型，计算所述有向图中各个边的边权重；

改写单元60，用于基于所述有向图以及所述有向图中各个边的边权重，通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句。

在一实施例中，还包括：

判断单元，用于判断所述语义相似度是否大于阈值；

在一实施例中，所述第二计算单元具体用于：

计算第一向量矩阵与所述第二向量矩阵的相似度。

相似度的计算公式为：

在一实施例中，上述装置还包括：

第二识别单元，用于基于所述改写后的问题语句，识别所述用户的意图；

意图判断单元，用于判断所述意图是否为指定意图；所述指定意图为购买产品意图；

哈希计算单元，用于若是，则获取对应所述指定意图的产品信息文本，并对所述产品信息文本进行哈希计算，得到对应的哈希值存储于数据库中；

发送单元，用于将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端，并提醒所述用户在所述产品信息文本中输入用户信息，并基于所述哈希值对所述产品信息文本进行加密。

在一实施例中，所述边权重的计算公式为：

其中，所述问题语句中包括m个字，所述问题语句表示为：

s＝w₁,w₂,w₃,…,w_m

所述最短路径的计算公式为：

在本实施例中，上述各个单元的具体实现请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储问题语句等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问题语句的改写方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种问题语句的改写方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的问题语句的改写方法、装置、计算机设备和存储介质，获取用户输入的问题语句；基于同义词匹配，识别所述问题语句中每个可被替换的词，以及替换每个所述词的候选同义词；将每个所述词的候选同义词作为节点，将所述问题语句的起点作为起始节点，所述问题语句的终点作为结束节点；将所述候选同义词之间的句子片段作为连接节点之间的边，分别在所述起始节点、结束节点与所述节点之间构建边；基于所述起始节点、结束节点、各个所述节点以及所述边，构建有向图；基于N-gram语言模型，计算所述有向图中各个边的边权重；通过N最短路径算法计算出最短路径，将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中，得到改写后的问题语句。本申请通过最短路径的计算，找出最符合语境同义词，从而对问题语句进行改写。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。