CN112287080A - 问题语句的改写方法、装置、计算机设备和存储介质 - Google Patents

问题语句的改写方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112287080A
CN112287080A CN202011149730.XA CN202011149730A CN112287080A CN 112287080 A CN112287080 A CN 112287080A CN 202011149730 A CN202011149730 A CN 202011149730A CN 112287080 A CN112287080 A CN 112287080A
Authority
CN
China
Prior art keywords
question
node
directed graph
question sentence
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011149730.XA
Other languages
English (en)
Other versions
CN112287080B (zh
Inventor
刘东煜
陈乐清
曾增烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011149730.XA priority Critical patent/CN112287080B/zh
Publication of CN112287080A publication Critical patent/CN112287080A/zh
Priority to PCT/CN2021/091700 priority patent/WO2022083103A1/zh
Application granted granted Critical
Publication of CN112287080B publication Critical patent/CN112287080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,可应用于智慧医疗领域中,以推动智慧城市的发展,提供一种问题语句的改写方法、装置、计算机设备和存储介质,获取用户输入的问题语句;基于同义词匹配,识别问题语句中每个可被替换的词,以及替换每个词的候选同义词;将每个词的候选同义词作为节点,将问题语句的起点作为起始节点,问题语句的终点作为结束节点;将候选同义词之间的句子片段作为连接节点之间的边,构建有向图;基于N‑gram语言模型,计算有向图中各个边的边权重;通过N最短路径算法计算出最短路径,将最短路径中各个节点对应的候选同义词改写至问题语句中,得到改写的问题语句。本申请通过最短路径的计算,找出最符合语境同义词,从而对语句进行改写。

Description

问题语句的改写方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种问题语句的改写方法、装置、计算机设备和存储介质。
背景技术
在医疗领域的FAQ(问题解答)模块中,用户可以提出与医疗相关的医疗问题,针对用户提出的医疗问题,其回复答案生成主要将用户的问题与问题模板匹配的方式完成。但是在某些情况下用户问题与模板问题语义相近,却无法召回答案。比如:用户问“抑郁症可以投保吗?”,而模板问为“精神病可以投保吗?”,这种情况下可以通过同义词改写的方式扩充输入的问题语句,如:“抑郁症”的同义词为“精神病”,则可以在一定程度上提高召回率。
在具体的应用场景,比如在数字医疗的FAQ问答机器人中,数据库会事先存储多个医疗问题的模板,当用户提问时会匹配到相应的模板问题从而进行自动回复。
然而,对于同一类问题,用户的提问方式却多种多样,同时也包含大量的口语表述,如:“注射疫苗->打疫苗”、“腿骨折->腿瘸了”、“取消->退保”等。
因此,在实际中虽然用户问题与模板问题的语义相近,却无法正确匹配到相应的回复。
因此,可以对用户的问题语句中的词进行同义词替换,但是在不同语境下同义词的合理性却存在差异。如“打疫苗”可以改写为“注射疫苗”,此时,“打”与“注射”是一组同义词,然而将“打篮球”改写为“注射篮球”却十分不合理。这样的例子普遍存在,如“可以投保吗?”可以改写为“能投保吗?”,而将“这个想法可以”改写为“这个想法能”却很滑稽。因此,目前的同义词替换存在不符合语境的缺陷。
发明内容
本申请的主要目的为提供一种问题语句的改写方法、装置、计算机设备和存储介质,旨在克服目前同义词改写时出现不符合语境的缺陷。
为实现上述目的,本申请提供了一种问题语句的改写方法,包括以下步骤:
获取用户输入的问题语句;
基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;
将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;
将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点;
基于N-gram语言模型,计算所述有向图中各个边的边权重;
基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。
进一步地,所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤之后,包括:
计算所述问题语句与所述改写后的问题语句的语义相似度;
判断所述语义相似度是否大于阈值;
若不大于,则基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句;
若大于,则在数据库中匹配对应所述改写后的问题语句的答案,并将匹配出的所述答案推送至所述用户所在的用户终端。
进一步地,所述计算所述问题语句与所述改写后的问题语句的语义相似度的步骤,包括:
基于预设的编码器,得到所述问题语句对应的第一向量矩阵,以及得到所述改写后的问题语句对应的第二向量矩阵;
计算第一向量矩阵与所述第二向量矩阵的相似度。
相似度的计算公式为:
Figure BDA0002740802470000031
其中,Ai为所述第一向量矩阵的第i个分向量的数值,Bi为所述第二向量矩阵的第i个分向量的数值,所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。
进一步地,所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤之后,包括:
基于所述改写后的问题语句,识别所述用户的意图;
判断所述意图是否为指定意图;所述指定意图为购买产品意图;
若是,则获取对应所述指定意图的产品信息文本,并对所述产品信息文本进行哈希计算,得到对应的哈希值存储于数据库中;
将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端,并提醒所述用户在所述产品信息文本中输入用户信息,并基于所述哈希值对所述产品信息文本进行加密。
进一步地,所述边权重的计算公式为:
Figure BDA0002740802470000032
其中,所述问题语句中包括m个字,所述问题语句表示为:
s=w1,w2,w3,…,wm
P(w)为问题语句中的字的概率分数,i,j分别为两个节点对应在所述问题语句中的位置;事件
Figure BDA0002740802470000033
代表事件wj-n+1…wj-1同时发生,n为N-gram语言模型的窗口大小;
所述最短路径的计算公式为:
Figure BDA0002740802470000041
本申请还提供了一种问题语句的改写装置,包括:
获取单元,用于获取用户输入的问题语句;
第一识别单元,用于基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;
第一构建单元,用于将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;
第二构建单元,用于将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点;
第一计算单元,用于基于N-gram语言模型,计算所述有向图中各个边的边权重;
改写单元,用于基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。
进一步地,还包括:
第二计算单元,用于计算所述问题语句与所述改写后的问题语句的语义相似度;
判断单元,用于判断所述语义相似度是否大于阈值;
第三计算单元,用于若不大于,则基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句;
匹配单元,用于若大于,则在数据库中匹配对应所述改写后的问题语句的答案,并将匹配出的所述答案推送至所述用户所在的用户终端。
进一步地,所述第二计算单元具体用于:
基于预设的编码器,得到所述问题语句对应的第一向量矩阵,以及得到所述改写后的问题语句对应的第二向量矩阵;
计算第一向量矩阵与所述第二向量矩阵的相似度。
相似度的计算公式为:
Figure BDA0002740802470000051
其中,Ai为所述第一向量矩阵的第i个分向量的数值,Bi为所述第二向量矩阵的第i个分向量的数值,所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的问题语句的改写方法、装置、计算机设备和存储介质,获取用户输入的问题语句;基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;基于N-gram语言模型,计算所述有向图中各个边的边权重;通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。本申请通过最短路径的计算,找出最符合语境同义词,从而对问题语句进行改写。
附图说明
图1是本申请一实施例中问题语句的改写方法步骤示意图;
图2是本申请一实施例中问题语句的改写装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种问题语句的改写方法,包括以下步骤:
步骤S1,获取用户输入的问题语句;
步骤S2,基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;
步骤S3,将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;
步骤S4,将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点;
步骤S5,基于N-gram语言模型,计算所述有向图中各个边的边权重;
步骤S6,基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。
在本实施例中,上述方法可应用于智慧城市的智慧医疗领域中,以推动智慧城市的建设,例如可以应用于医疗领域的问答系统中,用户在问答系统输入与医疗相关的问题语句,本方法对上述问题语句进行改写。在医疗领域中,由于医疗领域中的词汇专业性较强,用户在输入上述问题语句时,由于对医疗领域的词汇较为生疏,可能造成其表达不够通顺等,因此,需要对用户提出的医疗问题进行改写,得到符合语境的语句,从而提高匹配正确答案的概率。
具体地,如上述步骤S1所述的,应用于智能解答的场景中,上述问题语句为用户在用户终端上语音输入或者文字输入的语句,例如:请问交费期间可以退保金鑫盛吗?
如上述步骤S2所述的,配置有离线同义词挖掘系统,该系统经过长期的同义词挖掘,从而不断补充同义词词典。上述同义词词典中的同义词以key-value形式存储,key为待匹配的词语,value为若干可能与该词成为同义词的词语。基于上述同义词词典,利用同义词匹配,从上述问题语句中识别出每个可被替换的词,即识别出问题语句中每个具有同义词的词,以及根据同义词词典获取到替换每个词的候选同义词。
如上述步骤S3-S4所述的,将每个候选同义词看作为一个“节点”,候选同义词与候选同义词之间的句子片段看作“边”,构建有向图G(V,E)。候选同义词v1与候选同义词v2不存在交叉则建立有向边e12,设:候选同义词v1在句中的位置在候选同义词v2之前,则边e12的方向由v1指向v2。同时添加起始节点“<Start>”与结束节点“<End>”,上述起始节点以及结束节点与上述候选同义词对应的节点之间也依次构建边。如下图所示,因“交费”、“期间”两个匹配词间无交叉,所以存在有向边,而因“交费期间”、“期间”两个匹配词间存在交叉则不存在有向边。
如上述步骤S5所述的,上述N-gram语言模型用于计算上个各个候选同义词代入至问题语句后的句子通顺度分数,并基于上述通顺度分数计算所述有向图中各个边的边权重。上述N-gram语言模型采用大规模通用语料(人民日报、搜狗语料等)以及垂直领域语料(如:FAQ中的语料)训练得到。其中,N-gram是一种统计语言模型算法,通过对语句的出现概率进行建模从而得到句子困惑度分数(即顺畅度分数)。
如上述步骤S6所述的,根据上述构造好的有向图,使用N最短路径进行求解出起始节点至结束节点的最短路径(即概率分数最大),针对最短路径,依次选择路径上节点对应的候选同义词进行改写即得到了改写后的问题句子。经过上述改写之后,使得改写后的问题语句不仅可以在数据库中查找出对应的答案,而且更加贴近于用户提出问题时的语境,更加符合用户的问题需求。
在一实施例中,所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤S6之后,包括:
步骤S7,计算所述问题语句与所述改写后的问题语句的语义相似度;
步骤S8,判断所述语义相似度是否大于阈值;
步骤S9,若不大于,则基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句;
步骤S10,若大于,则在数据库中匹配对应所述改写后的问题语句的答案,并将匹配出的所述答案推送至所述用户所在的用户终端。
在本实施例中,得到改写后问题语句,为了避免上述模型训练不够造成改写不正确的缺陷,还需要计算上述改写后的问题语句与用户原输入的问题语句的语义相似度;当该语义相似度大于预设的阈值时,则表明其语义与原问题语句的语义近似,则可以在数据库中获取该改写后的问题语句所对应的答案。若语义相似度不大于预设的阈值时,则表明其语义与原问题语句的语义不够近似,此时有可能是计算出现误差,或者模型训练过程中出现问题。因此,可以基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。
在一实施例中,所述计算所述问题语句与所述改写后的问题语句的语义相似度的步骤S7,包括:
基于预设的编码器,得到所述问题语句对应的第一向量矩阵,以及得到所述改写后的问题语句对应的第二向量矩阵;
计算第一向量矩阵与所述第二向量矩阵的相似度。
相似度的计算公式为:
Figure BDA0002740802470000081
其中,Ai为所述第一向量矩阵的第i个分向量的数值,Bi为所述第二向量矩阵的第i个分向量的数值,所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。
在一实施例中,用户在输入上述问题语句时,通常具有相应的意图,例如寻求预防某种疾病的相关信息,例如寻求治疗某种疾病的药物/治疗方案文本,又或者是其它与医疗相关的产品购买意图等。所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤S6之后,包括:
步骤S71,基于所述改写后的问题语句,识别所述用户的意图;
步骤S81,判断所述意图是否为指定意图;所述指定意图为购买产品意图;
步骤S91,若是,则获取对应所述指定意图的产品信息文本,并对所述产品信息文本进行哈希计算,得到对应的哈希值存储于数据库中;
步骤S101,将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端,并提醒所述用户在所述产品信息文本中输入用户信息,并基于所述哈希值对所述产品信息文本进行加密。
在本实施例中,在得到改写后的问题语句之后,可以对该问题语句进行意图识别,判断该用户是否具有购买产品的意图;若用户的意图为购买产品,为了加快与用户之间的信息沟通,则可以推荐对应所述指定意图的产品信息文本,该产品信息文本中记载有所述用户意图购买产品的相关介绍信息,且该产品信息文本中还具有输入用户信息的文本框。为了保障用户在上述产品信息文本中输入用户信息之后进行传输的安全性,因此需要对其进行加密传输。在本实施例中,约定对上述产品信息文本的加密密码为上述产品信息文本未输入用户信息之前的哈希值。
在一实施例中,所述边权重的计算公式为:
Figure BDA0002740802470000091
其中,所述问题语句中包括m个字,所述问题语句表示为:
s=w1,w2,w3,…,wm
P(w)为问题语句中的字的概率分数,i,j分别为两个节点对应在所述问题语句中的位置;事件
Figure BDA0002740802470000092
代表事件wj-n+1…wj-1同时发生,n为N-gram语言模型的窗口大小;
计算最短路径时,为了使乘法变成加法,此处边权重进行log处理,因此,上述最短路径的计算公式为:
Figure BDA0002740802470000101
在本实施例中,以一个包括m个字的问题语句为例,该问题语句表示为:s=w1,w2,w3,…,wm
文题语句s的出现概率可表示为:
p(s)=(w1,w2,w3,…,wm)=P(w1)P(w2|w1)…P(wm|w1…wm-1)
利用马尔科夫假设可以对上式进行近似求解,以N-gram语言模型的窗口n=4为例:
p(s)=P(w1,w2,w3,…,wm)=(w1)P(w2|w1)…P(wm|wm-3…wm-1)
将上式进行简化,用事件
Figure BDA0002740802470000102
代表事件wm-3…wm-1同时发生,简化如下:
Figure BDA0002740802470000103
定义有向图的节点集合为所有候选同义词集,边集合为所有候选同义词与候选同义词间的n-gram拆解后的概率分数。
在一具体实施例中,以N-gram语言模型的窗口n=4为例,上述问题语句为:请问交费期间可以退保金鑫盛吗?其中交费的候选同义词为“缴费”,可以的候选同义词为“能不能”,以计算上述“缴费”与“能不能”之间的边的边权重为例:
Figure BDA0002740802470000104
上述问题语句的顶点(即起始节点、结束节点)至候选同义词的节点之间边的边权重计算以起始节点为例(距终止位的边权重计算方式同理),其计算公式如下:
Figure BDA0002740802470000105
参照图2,本申请一实施例中还提供了一种问题语句的改写装置,包括:
获取单元10,用于获取用户输入的问题语句;
第一识别单元20,用于基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;
第一构建单元30,用于将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;
第二构建单元40,用于将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点;
第一计算单元50,用于基于N-gram语言模型,计算所述有向图中各个边的边权重;
改写单元60,用于基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。
在一实施例中,还包括:
第二计算单元,用于计算所述问题语句与所述改写后的问题语句的语义相似度;
判断单元,用于判断所述语义相似度是否大于阈值;
第三计算单元,用于若不大于,则基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句;
匹配单元,用于若大于,则在数据库中匹配对应所述改写后的问题语句的答案,并将匹配出的所述答案推送至所述用户所在的用户终端。
在一实施例中,所述第二计算单元具体用于:
基于预设的编码器,得到所述问题语句对应的第一向量矩阵,以及得到所述改写后的问题语句对应的第二向量矩阵;
计算第一向量矩阵与所述第二向量矩阵的相似度。
相似度的计算公式为:
Figure BDA0002740802470000111
其中,Ai为所述第一向量矩阵的第i个分向量的数值,Bi为所述第二向量矩阵的第i个分向量的数值,所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。
在一实施例中,上述装置还包括:
第二识别单元,用于基于所述改写后的问题语句,识别所述用户的意图;
意图判断单元,用于判断所述意图是否为指定意图;所述指定意图为购买产品意图;
哈希计算单元,用于若是,则获取对应所述指定意图的产品信息文本,并对所述产品信息文本进行哈希计算,得到对应的哈希值存储于数据库中;
发送单元,用于将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端,并提醒所述用户在所述产品信息文本中输入用户信息,并基于所述哈希值对所述产品信息文本进行加密。
在一实施例中,所述边权重的计算公式为:
Figure BDA0002740802470000121
其中,所述问题语句中包括m个字,所述问题语句表示为:
s=w1,w2,w3,…,wm
P(w)为问题语句中的字的概率分数,i,j分别为两个节点对应在所述问题语句中的位置;事件
Figure BDA0002740802470000122
代表事件wj-n+1…wj-1同时发生,n为N-gram语言模型的窗口大小;
所述最短路径的计算公式为:
Figure BDA0002740802470000123
在本实施例中,上述各个单元的具体实现请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储问题语句等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问题语句的改写方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种问题语句的改写方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的问题语句的改写方法、装置、计算机设备和存储介质,获取用户输入的问题语句;基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;基于N-gram语言模型,计算所述有向图中各个边的边权重;通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。本申请通过最短路径的计算,找出最符合语境同义词,从而对问题语句进行改写。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种问题语句的改写方法,其特征在于,包括以下步骤:
获取用户输入的问题语句;
基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;
将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;
将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点;
基于N-gram语言模型,计算所述有向图中各个边的边权重;
基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。
2.根据权利要求1所述的问题语句的改写方法,其特征在于,所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤之后,包括:
计算所述问题语句与所述改写后的问题语句的语义相似度;
判断所述语义相似度是否大于阈值;
若不大于,则基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句;
若大于,则在数据库中匹配对应所述改写后的问题语句的答案,并将匹配出的所述答案推送至所述用户所在的用户终端。
3.根据权利要求2所述的问题语句的改写方法,其特征在于,所述计算所述问题语句与所述改写后的问题语句的语义相似度的步骤,包括:
基于预设的编码器,得到所述问题语句对应的第一向量矩阵,以及得到所述改写后的问题语句对应的第二向量矩阵;
计算第一向量矩阵与所述第二向量矩阵的相似度。
相似度的计算公式为:
Figure FDA0002740802460000021
其中,Ai为所述第一向量矩阵的第i个分向量的数值,Bi为所述第二向量矩阵的第i个分向量的数值,所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。
4.根据权利要求1所述的问题语句的改写方法,其特征在于,所述基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句的步骤之后,包括:
基于所述改写后的问题语句,识别所述用户的意图;
判断所述意图是否为指定意图;所述指定意图为购买产品意图;
若是,则获取对应所述指定意图的产品信息文本,并对所述产品信息文本进行哈希计算,得到对应的哈希值存储于数据库中;
将所述产品信息文本以及所述哈希值发送至所述用户所在的用户终端,并提醒所述用户在所述产品信息文本中输入用户信息,并基于所述哈希值对所述产品信息文本进行加密。
5.根据权利要求1所述的问题语句的改写方法,其特征在于,所述边权重的计算公式为:
Figure FDA0002740802460000022
其中,所述问题语句中包括m个字,所述问题语句表示为:
s=w1,w2,w3,…,wm
P(w)为问题语句中的字的概率分数,i,j分别为两个节点对应在所述问题语句中的位置;事件
Figure FDA0002740802460000031
代表事件wj-n+1…wj-1同时发生,n为N-gram语言模型的窗口大小;
所述最短路径的计算公式为:
Figure FDA0002740802460000032
6.一种问题语句的改写装置,其特征在于,包括:
获取单元,用于获取用户输入的问题语句;
第一识别单元,用于基于同义词匹配,识别所述问题语句中每个可被替换的词,以及替换每个所述词的候选同义词;
第一构建单元,用于将每个所述词的候选同义词作为节点,将所述问题语句的起点作为起始节点,所述问题语句的终点作为结束节点;
第二构建单元,用于将所述候选同义词之间的句子片段作为连接节点之间的边,分别在所述起始节点、结束节点与所述节点之间构建边;基于所述起始节点、结束节点、各个所述节点以及所述边,构建有向图;其中,所述有向图中的各个节点对应的候选同义词之间不存在交叉,所述有向图中由起始节点开始,由结束节点结束,且连接所述节点之间的边的方向为所述问题语句中排列在前的候选同义词对应的节点指向所述问题语句中排列在后的候选同义词对应的节点;
第一计算单元,用于基于N-gram语言模型,计算所述有向图中各个边的边权重;
改写单元,用于基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出最短路径,将所述最短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句。
7.根据权利要求6所述的问题语句的改写装置,其特征在于,还包括:
第二计算单元,用于计算所述问题语句与所述改写后的问题语句的语义相似度;
判断单元,用于判断所述语义相似度是否大于阈值;
第三计算单元,用于若不大于,则基于所述有向图以及所述有向图中各个边的边权重,通过N最短路径算法计算出第二短路径,将所述第二短路径中各个节点对应的候选同义词改写至所述问题语句中,得到改写后的问题语句;
匹配单元,用于若大于,则在数据库中匹配对应所述改写后的问题语句的答案,并将匹配出的所述答案推送至所述用户所在的用户终端。
8.根据权利要求7所述的问题语句的改写装置,其特征在于,所述第二计算单元具体用于:
基于预设的编码器,得到所述问题语句对应的第一向量矩阵,以及得到所述改写后的问题语句对应的第二向量矩阵;
计算第一向量矩阵与所述第二向量矩阵的相似度。
相似度的计算公式为:
Figure FDA0002740802460000041
其中,Ai为所述第一向量矩阵的第i个分向量的数值,Bi为所述第二向量矩阵的第i个分向量的数值,所述第一向量矩阵和所述第二向量矩阵均包括n个分向量。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202011149730.XA 2020-10-23 2020-10-23 问题语句的改写方法、装置、计算机设备和存储介质 Active CN112287080B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011149730.XA CN112287080B (zh) 2020-10-23 2020-10-23 问题语句的改写方法、装置、计算机设备和存储介质
PCT/CN2021/091700 WO2022083103A1 (zh) 2020-10-23 2021-04-30 问题语句的改写方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011149730.XA CN112287080B (zh) 2020-10-23 2020-10-23 问题语句的改写方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112287080A true CN112287080A (zh) 2021-01-29
CN112287080B CN112287080B (zh) 2023-10-03

Family

ID=74423800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011149730.XA Active CN112287080B (zh) 2020-10-23 2020-10-23 问题语句的改写方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN112287080B (zh)
WO (1) WO2022083103A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435213A (zh) * 2021-07-09 2021-09-24 支付宝(杭州)信息技术有限公司 针对用户问题和知识库返回答案的方法和装置
CN113704428A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 智能问诊方法、装置、电子设备及存储介质
CN113742454A (zh) * 2021-09-09 2021-12-03 平安科技(深圳)有限公司 基于人工智能的应答语料生成方法及相关设备
WO2022083103A1 (zh) * 2020-10-23 2022-04-28 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
CN116978509A (zh) * 2023-09-22 2023-10-31 山东百康云网络科技有限公司 一种电子处方流转方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292477B (zh) * 2022-07-18 2024-04-16 盐城天眼察微科技有限公司 推送相似文章判定方法和装置、及存储介质和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
WO2016125949A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 문서 자동 요약 방법 및 서버
WO2017096819A1 (zh) * 2015-12-09 2017-06-15 乐视控股(北京)有限公司 一种同义词数据挖掘方法和系统
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN110347796A (zh) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 向量语义张量空间下的短文本相似度计算方法
CN110955761A (zh) * 2019-10-12 2020-04-03 深圳壹账通智能科技有限公司 文书中问答数据获取方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095178B (zh) * 2014-05-09 2018-08-14 安徽科大讯飞医疗信息技术有限公司 实现文本语义容错理解的方法及系统
US10970278B2 (en) * 2019-03-29 2021-04-06 Microsoft Technology Licensing, Llc Querying knowledge graph with natural language input
CN110543555A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 一种用于智能客服中的标问召回方法和装置
CN112287080B (zh) * 2020-10-23 2023-10-03 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016125949A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 문서 자동 요약 방법 및 서버
WO2017096819A1 (zh) * 2015-12-09 2017-06-15 乐视控股(北京)有限公司 一种同义词数据挖掘方法和系统
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN110347796A (zh) * 2019-07-05 2019-10-18 神思电子技术股份有限公司 向量语义张量空间下的短文本相似度计算方法
CN110955761A (zh) * 2019-10-12 2020-04-03 深圳壹账通智能科技有限公司 文书中问答数据获取方法、装置、计算机设备和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022083103A1 (zh) * 2020-10-23 2022-04-28 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
CN113435213A (zh) * 2021-07-09 2021-09-24 支付宝(杭州)信息技术有限公司 针对用户问题和知识库返回答案的方法和装置
CN113435213B (zh) * 2021-07-09 2024-04-30 支付宝(杭州)信息技术有限公司 针对用户问题和知识库返回答案的方法和装置
CN113704428A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 智能问诊方法、装置、电子设备及存储介质
CN113704428B (zh) * 2021-08-30 2023-10-24 康键信息技术(深圳)有限公司 智能问诊方法、装置、电子设备及存储介质
CN113742454A (zh) * 2021-09-09 2021-12-03 平安科技(深圳)有限公司 基于人工智能的应答语料生成方法及相关设备
CN113742454B (zh) * 2021-09-09 2023-07-21 平安科技(深圳)有限公司 基于人工智能的应答语料生成方法及相关设备
CN116978509A (zh) * 2023-09-22 2023-10-31 山东百康云网络科技有限公司 一种电子处方流转方法
CN116978509B (zh) * 2023-09-22 2023-12-19 山东百康云网络科技有限公司 一种电子处方流转方法

Also Published As

Publication number Publication date
WO2022083103A1 (zh) 2022-04-28
CN112287080B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN112287080B (zh) 问题语句的改写方法、装置、计算机设备和存储介质
US20230162723A1 (en) Text data processing method and apparatus
CN111984766B (zh) 缺失语义补全方法及装置
EP4209965A1 (en) Data processing method and related device
CN108763535B (zh) 信息获取方法及装置
US20160364377A1 (en) Language Processing And Knowledge Building System
CN112364660B (zh) 语料文本处理方法、装置、计算机设备及存储介质
CN113724882B (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
US11295861B2 (en) Extracted concept normalization using external evidence
CN109344242B (zh) 一种对话问答方法、装置、设备及存储介质
CN109918494B (zh) 基于图的上下文关联回复生成方法、计算机及介质
Kim et al. A Bi-LSTM memory network for end-to-end goal-oriented dialog learning
CN113204618A (zh) 基于语义增强的信息识别方法、装置、设备及存储介质
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
KR20160058531A (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
CN110826345A (zh) 一种机器翻译方法和装置
CN111368029B (zh) 基于意图三元组的交互方法、装置、设备及存储介质
CN113157897A (zh) 语料生成方法、装置、计算机设备及存储介质
Yan et al. Response selection from unstructured documents for human-computer conversation systems
CN116975212A (zh) 问题文本的答案查找方法、装置、计算机设备和存储介质
US20210082422A1 (en) System and method to interpret natural language requests and handle natural language responses in conversation
CN115186080A (zh) 一种智能问答数据处理方法、系统、计算机设备及介质
CN112069813B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN111931503B (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant