CN110309377B - 语义归一化、提问模式的生成、应答确定方法及装置 - Google Patents

语义归一化、提问模式的生成、应答确定方法及装置 Download PDF

Info

Publication number
CN110309377B
CN110309377B CN201810239943.8A CN201810239943A CN110309377B CN 110309377 B CN110309377 B CN 110309377B CN 201810239943 A CN201810239943 A CN 201810239943A CN 110309377 B CN110309377 B CN 110309377B
Authority
CN
China
Prior art keywords
question
sentences
semantic
question sentences
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810239943.8A
Other languages
English (en)
Other versions
CN110309377A (zh
Inventor
李凤麟
任巨伟
陈海青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810239943.8A priority Critical patent/CN110309377B/zh
Publication of CN110309377A publication Critical patent/CN110309377A/zh
Application granted granted Critical
Publication of CN110309377B publication Critical patent/CN110309377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种语义归一化、提问模式的生成、应答确定方法及装置,用以解决现有技术中在将用户问题归一化映射到知识库中某个对应的知识点时,容易导致知识库大小的膨胀和标题维护的混乱,且灵活性较差的问题。所述语义归一化方法,包括:获取多个历史提问语句;对所述多个历史提问语句进行聚类,生成至少一个类族;确定每个类族对应的知识点;确定每个类族对应的语义标签集合;建立每个类族对应的语义标签集合与所述每个类族对应的知识点之间的映射关系。

Description

语义归一化、提问模式的生成、应答确定方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种语义归一化、提问模式的生成、应答确定方法、装置、设备和计算机可读存储介质。
背景技术
随着人工智能技术的发展,机器人客服替代传统人工客服正在成为一种趋势。相比于传统的人工客服,机器人客服具有效率高、成本低、服务时间连续不间断等一系列优势。
为了使机器人客服能够理解和回答用户的问题,必须将语义相同但是表述各异的用户问题归一化映射到知识库中某个对应的知识点。其中,知识库中包括多个知识点。知识点是指回答用户问题的业务知识或流程。知识点由标题和内容两部分组成,标题通常简要描述某个问题,而内容则针对问题进行详细阐述和说明。
针对上述归一化的问题,现有技术中通常采用以下两种解决方案。
第一种方案是为知识库中每个知识点维护多个扩展标题,针对用户提出的问题,使用检索模型从标准标题和扩展标题集中查找最合适的知识点来回答用户的问题。
此种方案中,为每个知识点维护多个扩展标题,容易导致知识库大小的膨胀和标题维护的混乱。举例来说,如果知识库中存储有2000个知识点,每个知识点平均维护25个扩展标题,则知识库中需要维护的标题数将激增到50000个。而且随着知识库的不断增大,维护人员在向知识库中添加新的扩展标题时,可能添加已存在的扩展标题,甚至由于多个维护人员之间存在理解偏差,添加的扩展标题还可能会存在冲突。
第二种方案是采用机器学习(例如,传统的支持向量机(Support VectorMachine,SVM),深度学习的卷积神经网络(Convolutional Neural Network,CNN))的分类方法,以知识点为分类目标,把用户问题分类到相应的知识点。
此种方案中,在机器学习时需要大量的训练数据,也即需要大量的用户问题和知识点组成的配对,因此,此种方案在灵活性上稍有欠缺。
综上所述,现有技术中在将用户问题归一化映射到知识库中某个对应的知识点时,为知识库中每个知识点维护多个扩展标题的方式,容易导致知识库大小的膨胀和标题维护的混乱;而机器学习的方式,需要大量的训练数据,灵活性较差。
申请内容
本申请实施例提供了一种语义归一化、提问模式的生成、应答确定方法、装置、设备和计算机可读存储介质,用以解决现有技术中在将用户问题归一化映射到知识库中某个对应的知识点时,容易导致知识库大小的膨胀和标题维护的混乱,且灵活性较差的问题。
根据本申请实施例的第一方面,提供一种语义归一化方法,包括:
获取多个历史提问语句;
对多个历史提问语句进行聚类,生成至少一个类族;
确定每个类族对应的知识点;
确定每个类族对应的语义标签集合;
建立每个类族对应的语义标签集合与每个类族对应的知识点之间的映射关系。
根据本申请实施例的第二方面,提供一种语义归一化装置,包括:
获取模块,用于获取多个历史提问语句;
聚类模块,用于对多个历史提问语句进行聚类,生成至少一个类族;
知识点确定模块,用于确定每个类族对应的知识点;
语义标签集合确定模块,用于确定每个类族对应的语义标签集合;
映射关系建立模块,用于建立每个类族对应的语义标签集合与每个类族对应的知识点之间的映射关系。
根据本申请实施例的第三方面,提供一种语义归一化设备,包括:存储器和处理器;该存储器用于储存有可执行程序代码;该处理器用于读取存储器中存储的可执行程序代码以执行上述语义归一化方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现上述语义归一化方法。
根据本申请实施例的第五方面,提供一种提问模式的生成方法,包括:
获取多个历史提问语句;
对多个历史提问语句进行聚类,生成至少一个类族;
确定每个类族对应的语义标签集合;
基于语义标签集合,从多个历史提问语句中提取提问模式。
根据本申请实施例的第六方面,提供一种提问模式的生成装置,包括:
获取模块,用于获取多个历史提问语句;
聚类模块,用于对多个历史提问语句进行聚类,生成至少一个类族;
语义标签集合确定模块,用于确定每个类族对应的语义标签集合;
提问模式提取模块,用于基于语义标签集合,从多个历史提问语句中提取提问模式。
根据本申请实施例的第七方面,提供一种提问模式的生成设备,包括:存储器和处理器;该存储器用于储存有可执行程序代码;该处理器用于读取存储器中存储的可执行程序代码以执行上述提问模式的生成方法。
根据本申请实施例的第八方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现上述提问模式的生成方法。
根据本申请实施例的第九方面,提供一种应答确定方法,包括:
接收用户输入的语句;
基于预先存储的提问模式,从用户输入的语句中提取语义标签,其中,提问模式是采用本申请上述实施例任一项的提问模式的生成方法生成的;
根据预先建立的语义标签集合与知识点的映射关系,确定从用户输入的语句中提取出的语义标签所在的目标语义标签集合,并确定目标语义标签集合对应的知识点,其中,映射关系是采用本申请上述实施例任一项的语义归一化方法建立的;
利用目标语义标签集合对应的知识点中包括的内容作为对用户输入的语句的应答。
根据本申请实施例的第十方面,提供一种应答确定装置,包括:
接收模块,用于接收用户输入的语句;
语义标签提取模块,用于基于本申请上述实施例提供的提问模式的生成装置生成的提问模式,从用户输入的语句中提取语义标签;
处理模块,用于根据本申请上述实施例提供的语义归一化装置建立的语义标签集合与知识点的映射关系,确定从用户输入的语句中提取出的语义标签所在的目标语义标签集合,并确定目标语义标签集合对应的知识点,其中,映射关系是采用本申请上述实施例任一项的语义归一化方法建立的;
应答模块,用于利用目标语义标签集合对应的知识点中包括的内容作为对用户输入的语句的应答。
根据本申请实施例的第十一方面,提供一种应答确定设备,包括:存储器和处理器;该存储器用于储存有可执行程序代码;该处理器用于读取存储器中存储的可执行程序代码以执行上述应答确定方法。
根据本申请实施例的第十二方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现上述应答确定方法。
根据本申请实施例中的语义归一化、提问模式的生成、应答确定方法、装置、设备和计算机可读存储介质,通过对多个历史提问语句进行聚类,生成至少一个类族,进而以每一类族为桥梁,建立语义标签集合与知识点之间的映射关系,避免了为知识库中每个知识点维护多个扩展标题时导致的知识库大小膨胀和标题维护混乱的问题,同时在对多个历史提问语句进行聚类,生成至少一个类族时,仅需历史提问语句,而无需大量的用户问题和知识点组成的配对,大大提高了灵活性,并降低了人工将用户问题和知识点进行配对的成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本申请实施例的语义归一化方法的流程示意图;
图2示出了根据本申请实施例的语义归一化装置的结构示意图;
图3示出了能够实现根据本申请实施例的语义归一化方法和装置的计算设备的示例性硬件架构的结构图;
图4示出了根据本申请实施例的提问模式的生成方法的流程示意图;
图5示出了根据本申请实施例的提问模式的生成装置的结构示意图;
图6示出了能够实现根据本申请实施例的提问模式的生成方法和装置的计算设备的示例性硬件架构的结构图;
图7示出了根据本申请实施例的应答确定方法的应用场景的示意图;
图8示出了根据本申请实施例的应答确定方法的流程示意图;
图9示出了根据本申请实施例的应答确定装置的结构示意图;
图10示出了能够实现根据本申请实施例的应答确定方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前,将语义相同但是表述各异的用户问题归一化映射到知识库中某个对应的知识点时,为知识库中每个知识点维护多个扩展标题的方式,容易导致知识库大小的膨胀和标题维护的混乱;而机器学习的方式,需要大量的训练数据,灵活性较差。有鉴于此,本申请实施例提供了一种新的语义归一化方案,获取多个历史提问语句,对多个历史提问语句进行聚类,生成至少一个类族,确定每个类族对应的知识点,并确定每个类族对应的语义标签集合,然后建立每个类族对应的语义标签集合与每个类族对应的知识点之间的映射关系。
本申请实施例通过对多个历史提问语句进行聚类,生成至少一个类族,进而以每一类族为桥梁,建立语义标签集合与知识点之间的映射关系,避免了为知识库中每个知识点维护多个扩展标题时导致的知识库大小膨胀和标题维护混乱的问题,同时在对多个历史提问语句进行聚类,生成至少一个类族时,仅需历史提问语句,而无需大量的用户问题和知识点组成的配对,大大提高了灵活性,并降低了人工将用户问题和知识点进行配对的成本。
在一个实施方式中,可以从用户问题的历史日志中提取历史提问语句,也可以通过网络抓取的方式从网页或者应用程序中抓取历史提问语句。当然,从用户问题的历史日志中提取历史提问语句时,可以从预定时间段的历史日志中提取历史提问语句。举例来说,为了提高提取的历史提问语句的时效性,可以从最近三个月的历史日志中提取历史提问语句。
在一个实施方式中,在获取多个历史提问语句之后,对多个历史提问语句进行聚类,生成至少一个类族。
在一个示例中,在获取多个历史提问语句之后,计算多个历史提问语句中任意两个提问语句之间的相似值,并基于多个历史提问语句中任意两个提问语句之间的相似值,对多个历史提问语句进行聚类,生成至少一个类族。
在一个示例中,计算多个历史提问语句中任意两个提问语句之间的相似值时,可以结合词频-逆向文件频率(Term Frequency–Inverse Document Frequency,TF-IDF)算法和余弦相似度算法进行计算。
在一个示例中,基于多个历史提问语句中任意两个提问语句之间的相似值,对多个历史提问语句进行聚类,生成至少一个类族时,首先基于多个历史提问语句中任意两个提问语句之间的相似值,针对每个提问语句,在其它提问语句中确定预设数量个提问语句作为该提问语句的相似提问语句。
具体地,针对每个提问语句,在其它提问语句中确定预设数量个提问语句作为该提问语句的相似提问语句时,可以将每个提问语句与其它提问语句之间的相似值进行降序排列,并基于降序排列的结果,依次选取预设数量个提问语句作为其相似提问语句。其中,预设数量可以根据经验值设定,例如,预设数量的取值为100。
举例来说,假设获取到的4个历史提问语句,分别记为提问语句1、提问语句2、提问语句3以及提问语句4,其中,提问语句1与提问语句2之间的相似值为0.91,提问语句1与提问语句3之间的相似值为0.12,提问语句1与提问语句4之间的相似值为0.67,提问语句2与提问语句3之间的相似值为0.55,提问语句2与提问语句4之间的相似值为0.75,提问语句3与提问语句4之间的相似值为0.78。
假设预设数量为2,也即针对每个提问语句,在其它提问语句中确定2个提问语句作为其相似提问语句。针对提问语句1,提问语句1与提问语句2之间的相似值为0.91,提问语句1与提问语句3之间的相似值为0.12,提问语句1与提问语句4之间的相似值为0.67,基于提问语句1与其它提问语句之间的相似值进行降序排列时,降序排列的结果为0.91-0.67-0.12。因此,可以将提问语句2和提问语句4确定为提问语句1的相似提问语句。依次类推,可以将提问语句1和提问语句4确定为提问语句2的相似提问语句;可以将提问语句4和提问语句2确定为提问语句3的相似提问语句;可以将提问语句3和提问语句2确定为提问语句4的相似提问语句。
在为每个提问语句确定预设数量个相似提问语句之后,针对每个提问语句,依照预设格式生成预设数量个三元组,其中,三元组中包括每个提问语句、每个提问语句的一个相似提问语句、以及每个提问语句与上述一个相似提问语句之间的相似值。其中,预设格式可以是三元组中三个元素的顺序格式,预设格式可以自由设定。例如:预设格式为(提问语句,提问语句的相似提问语句,提问语句与相似提问语句之间的相似值)。
举例来说,沿用上例,以预设格式为(提问语句,提问语句的相似提问语句,提问语句与相似提问语句之间的相似值)为例。针对提问语句1,可以生成(提问语句1,提问语句2,0.91)、(提问语句1,提问语句4,0.67)两个三元组;针对提问语句2,可以生成(提问语句2,提问语句1,0.91)、(提问语句2,提问语句4,0.75)两个三元组;针对提问语句3,可以生成(提问语句3,提问语句4,0.78)、(提问语句3,提问语句2,0.55)两个三元组;针对提问语句4,可以生成(提问语句4,提问语句3,0.78)、(提问语句4,提问语句2,0.75)两个三元组。
在生成多个三元组之后,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值,并在确定任意一个三元组中包括的两个提问语句所在类族之间的相似值大于预设相似度阈值时,将两个提问语句所在类族聚类为一个类族,生成至少一个类族。其中,预设相似度阈值可以根据经验值设定,例如:预设相似度阈值为0.7。
需要说明的是,在对历史提问语句首次进行聚类时,认为每个提问语句均是一个单独的类族,换句话说,每个类族中包括一个提问语句。举例来说,沿用上例,在首次进行聚类时,提问语句1可以视为一个类族,提问语句2可以视为一个类族,提问语句3可以视为一个类族,提问语句4也可以视为一个类族。
在对历史提问语句聚类过程中,若任意一个三元组包括的两个提问语句所在类族中均包括多个提问语句,则两个提问语句所在类族之间的相似值为不同类族的任意两个提问语句之间相似值之和的平均值。例如,如果类族A中有2个提问语句,类族B中有3个提问语句,则在计算类族A和类族B之间的相似值时,首先分别计算类族A中第1个提问语句与类族B中3个提问语句之间的相似值,得到3个相似值,然后分别计算类族A中第2个提问语句与类族B中3个提问语句之间的相似值,又得到3个相似值,最后计算上述6个相似值的平均值作为类族A和类族B之间的相似值。
下面仍沿用上例,以预设相似度阈值为0.7为例,结合三元组(提问语句1,提问语句2,0.91)和三元组(提问语句1,提问语句4,0.67),对本示例中对历史提问语句的聚类过程进行简单说明。
针对三元组(提问语句1,提问语句2,0.91),在判断提问语句1所在类族与提问语句2所在类族是否可以聚类为一个类族时,需要判断提问语句1所在类族与提问语句2所在类族之间的相似值是否大于预设相似度阈值。由于提问语句1所在类族中仅包括提问语句1,提问语句2所在类族中仅包括提问语句2,因此,提问语句1所在类族与提问语句2所在类族之间的相似值,即为提问语句1与提问语句2之间的相似值。也即提问语句1所在类族与提问语句2所在类族之间的相似值为0.91,大于预设相似度阈值0.7,则可以将提问语句1所在类族和提问语句2所在类族聚类为一个类族。本次聚类之后,提问语句1和提问语句2聚类到一个类族中。
针对三元组(提问语句1,提问语句4,0.67),在判断提问语句1所在类族与提问语句4所在类族是否可以聚类为一个类族时,需要判断提问语句1所在类族与提问语句4所在类族之间的相似值是否大于预设相似度阈值。由于在对三元组(提问语句1,提问语句2,0.91)处理时,已经将提问语句1和提问语句2聚类到一个类族中。因此,提问语句1所在类族中包括提问语句1和提问语句2,提问语句4所在类族中仅包括提问语句4。故提问语句1所在类族与提问语句4所在类族之间的相似值,等于提问语句1与提问语句4之间相似值和提问语句2与提问语句4之间相似值之和的平均值。通过计算可得提问语句1所在类族与提问语句4所在类族之间的相似值为0.71,大于预设相似度阈值0.7,则可以将提问语句1所在类族和提问语句4所在类族聚类为一个类族,也即将提问语句1、提问语句2和提问语句4聚类为一个类族。本次聚类之后,提问语句1、提问语句2和提问语句4聚类到一个类族中
在一个示例中,为了提高对历史提问语句的聚类速度,在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值时,可以先在生成的多个三元组中,获取相似值大于预设相似度阈值的三元组作为有效三元组,进而在获取到的有效三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
在一个示例中,为了提高对历史提问语句的聚类速度,在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值时,还可以依照三元组中相似值的大小,对生成的多个三元组进行降序排列,进而依据三元组的降序排列结果,依次判断每个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
本示例中对历史提问语句进行聚类的方法,与传统的层次聚类相比,在保证聚类准确性的同时,无需在每一次聚类完成时,重新计算类族与剩余各个提问语句的相似值,提高了聚类的速度。
在一个实施方式中,在将获取到的多个历史提问语句聚类为至少一个类族之后,可以确定每个类族对应的知识点,并确定每个类族对应的语义标签集合,进而建立每个类族对应的语义标签集合与该类族对应的知识点之间的映射关系。其中,本申请实施例中提到的语义标签集合中包括多个语义标签,而语义标签是指描述用户问题或者知识点标题的语义单元。例如,“忘记密码”可以作为一个语义标签、“账号丢失”也可以作为一个语义标签。
在一个示例中,确定每个类族对应的知识点时,针对一个类族,可以计算类族中每个提问语句与每个知识点的标题之间的相似度,进而基于类族中每个提问语句与每个知识点的标题之间的相似度,确定该类族对应的知识点。
例如,针对一个类族,在计算类族中每个提问语句与每个知识点的标题之间的相似度之后,针对每个提问语句,按照相似度由高到低的顺序,确定与每个提问语句最为相似的知识点,然后统计各个知识点出现的次数,将出现次数最多的知识点确定为该类族对应的知识点。
再例如,针对一个类族,在计算类族中每个提问语句与每个知识点的标题之间的相似度之后,针对每个提问语句,按照相似度由高到低的顺序,确定与每个提问语句最为相似的5个知识点,然后统计各个知识点出现的次数,将出现次数最多的知识点确定为该类族对应的知识点。
在一个示例中,确定每个类族对应的语义标签集合时,可以对每个类族中包括的每个提问语句进行分词处理,然后基于分词处理的结果,统计每个词语在每个类族中出现的次数,并利用出现次数大于预设次数阈值的词语,组成词语集合,并将组成的词语集合作为该类族对应的语义标签集合。其中,预设次数阈值可以根据经验值设定,例如:预设次数阈值为5。
在一个示例中,在将获取到的多个历史提问语句聚类为至少一个类族之后,确定每个类族对应的知识点与确定每个类族对应的语义标签集合,可以同时执行。当然,也可以先确定每个类族对应的知识点,后确定每个类族对应的语义标签集合,或者先确定每个类族对应的语义标签集合,后确定每个类族对应的知识点。
在一个示例中,本申请实施例的语义归一化方案,在根据对历史提问语句聚类生成的类族,建立语义标签集合与知识点之间的映射关系之后,还可以建立每个类族与知识点之间的映射关系,也即建立每个类族中多个提问语句与知识点之间的映射关系。在每个类族中多个提问语句与知识点之间的映射关系之后,可以为机器学习提供大量的训练数据,用于机器学习的模型训练。
下面结合具体的系统处理流程对上述语义归一化方法的执行过程进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
从整体流程而言,如图1所示,语义归一化方法100,可以包括以下步骤:
步骤S101,获取多个历史提问语句;
步骤S102,对多个历史提问语句进行聚类,生成至少一个类族;
步骤S103,确定每个类族对应的知识点;
步骤S104,确定每个类族对应的语义标签集合;
步骤S105,建立每个类族对应的语义标签集合与每个类族对应的知识点之间的映射关系。
在本申请实施例中,通过对多个历史提问语句进行聚类,生成至少一个类族,进而以每一类族为桥梁,建立语义标签集合与知识点之间的映射关系,避免了为知识库中每个知识点维护多个扩展标题时导致的知识库大小膨胀和标题维护混乱的问题,同时在对多个历史提问语句进行聚类,生成至少一个类族时,仅需历史提问语句,而无需大量的用户问题和知识点组成的配对,大大提高了灵活性,并降低了人工将用户问题和知识点进行配对的成本。
在实现的时候,上述实施例中的语义归一化方法可以通过语义归一化装置来实现。如图2所示,语义归一化装置200,可以包括:
获取模块201,用于获取多个历史提问语句。
聚类模块202,用于对多个历史提问语句进行聚类,生成至少一个类族。
知识点确定模块203,用于确定每个类族对应的知识点。
语义标签集合确定模块204,用于确定每个类族对应的语义标签集合。
映射关系建立模块205,用于建立每个类族对应的语义标签集合与每个类族对应的知识点之间的映射关系。
在一个实施方式中,聚类模块202,具体用于:计算多个历史提问语句中任意两个提问语句之间的相似值;基于多个历史提问语句中任意两个提问语句之间的相似值,对多个历史提问语句进行聚类,生成至少一个类族。
在一个实施方式中,聚类模块202,具体用于:基于多个历史提问语句中任意两个提问语句之间的相似值,针对每个提问语句,在其它提问语句中确定预设数量个提问语句作为每个提问语句的相似提问语句;针对每个提问语句,依照预设格式生成预设数量个三元组,其中,三元组中包括每个提问语句、每个提问语句的一个相似提问语句、以及每个提问语句与一个相似提问语句之间的相似值;在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值;在确定任意一个三元组中包括的两个提问语句所在类族之间的相似值大于预设相似度阈值时,将两个提问语句所在类族聚类为一个类族,生成至少一个类族。
在一个实施方式中,聚类模块202,具体用于:在生成的多个三元组中,获取相似值大于预设相似度阈值的三元组作为有效三元组;在获取到的有效三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
在一个实施方式中,聚类模块202,具体用于:依照三元组中相似值的大小,对生成的多个三元组进行降序排列;依据三元组的排列顺序,依次判断每个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
在一个实施方式中,两个提问语句所在类族之间的相似值为不同类族的任意两个提问语句之间相似值之和的平均值。
在一个实施方式中,知识点确定模块203,具体用于:计算每个类族中每个提问语句与每个知识点的标题之间的相似度;基于每个类族中每个提问语句与每个知识点的标题之间的相似度,确定每个类族对应的知识点。
在一个实施方式中,语义标签集合确定模块204,具体用于:对每个类族中包括的每个提问语句进行分词处理;基于分词处理的结果,统计每个词语在每个类族中出现的次数;利用出现次数大于预设次数阈值的词语,组成词语集合,并将词语集合作为每个类族对应的语义标签集合。
图3示出了能够实现根据本申请实施例的语义归一化方法和装置的计算设备的示例性硬件架构的结构图。如图3所示,计算设备300包括输入设备301、输入接口302、中央处理器303、存储器304、输出接口305、以及输出设备306。其中,输入接口302、中央处理器303、存储器304、以及输出接口305通过总线310相互连接,输入设备301和输出设备306分别通过输入接口302和输出接口305与总线310连接,进而与计算设备300的其他组件连接。
具体地,输入设备301接收来自外部的输入信息,并通过输入接口302将输入信息传送到中央处理器303;中央处理器303基于存储器304中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器304中,然后通过输出接口305将输出信息传送到输出设备306;输出设备306将输出信息输出到计算设备300的外部供用户使用。
也就是说,图3所示的计算设备也可以被实现为语义归一化设备,该语义归一化设备可以包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1-图2描述的语义归一化方法和装置。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘Solid State Disk(SSD))等。
结合上述实施例中的语义归一化方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种语义归一化方法。
另外,目前,用户的提问模式多是由人工来定义,此种定义方式一方面容易造成提问模式的遗漏,另一方面效率比较低下。鉴于此,本申请实施例还提供了一种提问模式的生成方案,获取多个历史提问语句,对多个历史提问语句进行聚类,生成至少一个类族,并确定每个类族对应的语义标签集合,然后基于每个类族对应的语义标签集合,从每个类族包括的提问语句中提取提问模式。采用本申请实施例的提问模式的生成方案,不但能够提高生成提问模式的效率,而且生成的提问模式更加全面。
根据本申请实施例的提问模式的生成方案中,获取多个历史提问语句、对多个历史提问语句进行聚类,生成至少一个类族、以及确定每个类族对应的语义标签集合的其他细节与以上结合图1-图2描述的根据本申请实施例的语义归一化方案类似,在此不再赘述。
在一个实施方式中,在确定每个类族的语义标签之后,基于每个类族对应的语义标签集合,从每个类族包括的提问语句中提取提问模式时,可以但不限于以下两种方式。
方式一、针对每个类族对应的语义标签集合中包括的每个语义标签,从该类族包括的提问语句中提取每个语义标签的同义词作为提问模式。
举例来说,语义标签集合中包括语义标签“怎么办”,历史提问语句中有一提问语句为“我的密码忘记了,咋处理?”,则针对语义标签集合中的语义标签“怎么办”,可以从提问语句中提取出“咋处理”作为语义标签“怎么办”的提问模式。
方式二、在确定历史提问语句中包括语义标签集合中的多个语义标签,且多个语义标签中相邻语义标签之间的间隔均小于预设距离阈值时,依据多个语义标签在历史提问语句中的顺序,连接多个语义标签作为提问模式。
其中,相邻语义标签之间的间隔可以使用相邻语义标签在提问语句中间隔的字数或词数来表示,预设距离阈值可以根据经验值进行设定。例如,预设距离阈值为5个字。
在一个示例中,多个语义标签,可以是语义标签集合中包括的语义标签,也可以是语义标签集合中包括的语义标签的子语义标签。例如,语义标签集合中包括语义标签“密码忘记”时,其子语义标签为“密码”和“忘记”。
举例来说,语义标签集合中包括语义标签“密码忘记”,该语义标签有两个子语义标签,分别为“密码”和“忘记”,历史提问语句中有一提问语句为“我的密码搞忘记了,怎么办?”。由于提问语句中同时包括语义标签“密码忘记”的两个子语义标签,且提问语句中子语义标签“密码”和子语义标签“忘记”之间间隔1个字,小于预设距离阈值(以5个字为例)。因此,依照子语义标签“密码”和子语义标签“忘记”在提问语句中的顺序,可以从提问语句中提取出“密码+忘记”作为语义标签“密码忘记”的提问模式。
在一个示例中,提问语句中包括多个语义标签的情况下,从提问语句中提取提问模式时,多个语义标签在提问语句中的顺序不同,生成的提问模式也不同。
举例来说,语义标签集合中包括语义标签“密码忘记”,该语义标签有两个子语义标签,分别为“密码”和“忘记”,历史提问语句中提问语句1为“我的密码搞忘记了,怎么办?”,提问语句2为“我忘记我的密码了,怎么办?”。从提问语句1中可以提取出提问模式“密码+忘记”作为语义标签“密码忘记”的提问模式,而从提问语句2中可以提取出“忘记+密码”作为语义标签“密码忘记”的提问模式。
在一个示例中,提问语句中包括多个语义标签的情况下,从提问语句中提取提问模式时,可以依据多个语义标签在提问语句中的顺序,利用通配符连接多个语义标签作为提问模式。其中,通配符包括但不限于:“+”、“&”、“*”等。
在一个示例中,为了方便利用生成的提问模式将用户输入的语句转换为语义标签,可以以字典树的方式存储生成的提问模式。
下面结合具体的系统处理流程对上述提问模式的生成方法的执行过程进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
从整体流程而言,如图4所示,提问模式的生成方法400,可以包括以下步骤:
步骤S401,获取多个历史提问语句;
步骤S402,对多个历史提问语句进行聚类,生成至少一个类族;
步骤S403,确定每个类族对应的语义标签集合;
步骤S404,基于语义标签集合,从多个历史提问语句中提取提问模式。
在本申请实施例中,获取多个历史提问语句,对多个历史提问语句进行聚类,生成至少一个类族,并确定每个类族对应的语义标签集合,然后基于每个类族对应的语义标签集合,从每个类族包括的提问语句中提取提问模式。依此方式从每个类族包括的提问语句中提取提问模式,不但能够提高生成提问模式的效率,而且生成的提问模式更加全面。
在实现的时候,上述实施例中的提问模式的生成方法可以通过提问模式的生成装置来实现。如图5所示,应答确定装置500,可以包括:
获取模块501,用于获取多个历史提问语句。
聚类模块502,用于对多个历史提问语句进行聚类,生成至少一个类族。
语义标签集合确定模块503,用于确定每个类族对应的语义标签集合。
提问模式提取模块504,用于基于语义标签集合,从多个历史提问语句中提取提问模式。
在一个实施方式中,聚类模块502,具体用于:计算多个历史提问语句中任意两个提问语句之间的相似值;基于多个历史提问语句中任意两个提问语句之间的相似值,对多个历史提问语句进行聚类,生成至少一个类族。
在一个实施方式中,聚类模块502,具体用于:基于多个历史提问语句中任意两个提问语句之间的相似值,针对每个提问语句,在其它提问语句中确定预设数量个提问语句作为每个提问语句的相似提问语句;针对每个提问语句,依照预设格式生成预设数量个三元组,其中,三元组中包括每个提问语句、每个提问语句的一个相似提问语句、以及每个提问语句与一个相似提问语句之间的相似值;在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值;在确定任意一个三元组中包括的两个提问语句所在类族之间的相似值大于预设相似度阈值时,将两个提问语句所在类族聚类为一个类族,生成至少一个类族。
在一个实施方式中,聚类模块502,具体用于:在生成的多个三元组中,获取三元组中相似值大于预设相似度阈值的三元组作为有效三元组;在获取到的有效三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
在一个实施方式中,聚类模块502,具体用于:依照三元组中相似值的大小,对生成的多个三元组进行降序排列;依据三元组的排列顺序,依次判断每个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
在一个实施方式中,两个提问语句所在类族之间的相似值为不同类族的任意两个提问语句之间相似值之和的平均值。
在一个实施方式中,语义标签集合确定模块503,具体用于:对每个类族中包括的每个提问语句进行分词处理;基于分词处理的结果,统计每个词语在每个类族中出现的次数;利用出现次数大于预设次数阈值的词语,组成词语集合,并将词语集合作为类族对应的语义标签集合。
在一个实施方式中,提问模式提取模块504,具体用于:针对语义标签集合中包括的每个语义标签,从多个历史提问语句中提取每个语义标签的同义词作为提问模式。
在一个实施方式中,提问模式提取模块504,具体用于:在确定历史提问语句中包括语义标签集合中的多个语义标签,且相邻语义标签在历史提问语句中的间隔均小于预设距离阈值时,依据多个语义标签在历史提问语句中的顺序,连接多个语义标签作为提问模式。
在一个实施方式中,提问模式提取模块504,具体用于:利用通配符连接多个语义标签作为提问模式。
在一个实施方式中,装置还包括:存储模块505,用于以字典树的方式存储从多个历史提问语句中提取提问模式。
图6示出了能够实现根据本申请实施例的提问模式的生成方法和装置的计算设备的示例性硬件架构的结构图。如图6所示,计算设备600包括输入设备601、输入接口602、中央处理器603、存储器604、输出接口605、以及输出设备606。其中,输入接口602、中央处理器603、存储器604、以及输出接口605通过总线610相互连接,输入设备601和输出设备606分别通过输入接口602和输出接口605与总线610连接,进而与计算设备600的其他组件连接。
具体地,输入设备601接收来自外部的输入信息,并通过输入接口602将输入信息传送到中央处理器603;中央处理器603基于存储器604中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器604中,然后通过输出接口605将输出信息传送到输出设备606;输出设备606将输出信息输出到计算设备600的外部供用户使用。
也就是说,图6所示的计算设备也可以被实现为提问模式的生成设备,该提问模式的生成设备可以包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图4-图5描述的提问模式的生成方法和装置。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘Solid State Disk(SSD))等。
结合上述实施例中的提问模式的生成方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种提问模式的生成方法。
在基于获取到的多个历史提问语句,建立语义标签集合和知识点之间的映射关系,且从多个历史提问语句中提取提问模式之后,本申请实施例还提供了一种应答确定方案,本申请实施例的应答确定方案,基于预先建立的语义标签集合和知识点之间的映射关系和预先提取的提问模式实施。
参见图7,图7是本申请实施例提供的应答确定方法的应用场景,可以包括:用户客户端70和应答服务器71,用户客户端70与应答服务器71可通过蓝牙、短距离通信、蜂窝移动网、无线局域网或者其他通信方式进行通信。当然,实际中可以有一个或多个用户客户端70。
在一个实施方式中,用户客户端70可以是可移动设备。例如,可以是手机、平板电脑等。用户客户端70还可以是桌面设备,例如:一体机等。
传统方案中,应答服务器71中构建有知识库,知识库中包括多个知识点,每个知识点包括标题和内容两部分。应答服务器71为每个知识点维护多个扩展标题,在接收到用户提出的问题,也即接收到用户输入的语句时,使用检索模型从标准标题和扩展标题集中查找最合适的知识点来回答用户的问题。此种方案为每个知识点维护多个扩展标题,容易导致知识库大小的膨胀和标题维护的混乱。
为了解决上述方案中知识库大小膨胀和标题维护混乱的问题,本申请实施例的应答确定方案,应答服务器71在接收用户输入的语句之后,基于预先存储的提问模式,从用户输入的语句中提取语义标签,然后根据预先建立的语义标签集合与知识点的映射关系,确定从用户输入的语句中提取出的语义标签所在的目标语义标签集合,并确定目标语义标签集合对应的知识点,利用目标语义标签集合对应的知识点中包括的内容作为对用户输入的语句的应答。
举例来说,假设“密码+忘记”为语义标签“密码忘记”的提问模式,“咋处理”为语义标签“怎么办”的提问模式,语义标签集合1中包括语义标签“密码忘记”和语义标签“怎么办”,且预先建立语义标签集合1与知识点“如何找回密码”之间的映射关系。
假设用户输入的语句为“我密码搞忘记了,咋处理?”,应答服务器71接收用户输入的语句之后,根据预先生成的提问模式,可以从用户输入的语句中提取出语义标签“密码忘记”和语义标签“怎么办”,而语义标签“密码忘记”和语义标签“怎么办”所在的语义标签集合为语义标签集合1。因此,语义标签集合1为用户输入的语句的目标语义标签集合,进而由于语义标签集合1又与知识点“如何找回密码”之间具有映射关系,因此,知识点“如何找回密码”为目标语义标签集合对应的知识点,可以利用知识点“如何找回密码”中包括的内容作为对用户输入语句“我密码搞忘记了,咋处理?”的应答。
在一个实施方式中,应答服务器71在接收用户输入的语句之后,基于预先以字典树的方式存储的提问模式,从用户输入的语句中提取语义标签,以提高从用户输入的语句中提取语义标签的效率。
下面结合具体的系统处理流程对上述应答确定方法的执行过程进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本申请,并不构成对本申请的不当限定。
从整体流程而言,如图8所示,应答确定方法800,可以包括以下步骤:
步骤S801,接收用户输入的语句;
步骤S802,基于预先存储的提问模式,从用户输入的语句中提取语义标签,其中,提问模式是采用本申请上述实施例中的提问模式的生成方法生成的;
步骤S803,根据预先建立的语义标签集合与知识点的映射关系,确定从用户输入的语句中提取出的语义标签所在的目标语义标签集合,并确定目标语义标签集合对应的知识点,其中,映射关系是采用本申请上述实施例中的语义归一化方法建立的;
步骤S804,利用目标语义标签集合对应的知识点中包括的内容作为对用户输入的语句的应答。
在本申请实施例中,在接收用户输入的语句之后,基于预先存储的提问模式,从用户输入的语句中提取语义标签,然后根据预先建立的语义标签集合与知识点的映射关系,确定从用户输入的语句中提取出的语义标签所在的目标语义标签集合,并确定目标语义标签集合对应的知识点,利用目标语义标签集合对应的知识点中包括的内容作为对用户输入的语句的应答。本申请实施例无需为每个知识点维护多个扩展标题,有效解决知识库大小膨胀和标题维护混乱的问题。
在实现的时候,上述实施例中的应答确定方法可以通过应答确定装置来实现。如图9所示,应答确定装置900,可以包括:
接收模块901,用于接收用户输入的语句。
语义标签提取模块902,用于基于本申请上述实施例提供的提问模式的生成装置生成的提问模式,从用户输入的语句中提取语义标签。
处理模块903,用于根据本申请上述实施例提供的语义归一化装置建立的语义标签集合与知识点的映射关系,确定从用户输入的语句中提取出的语义标签所在的目标语义标签集合,并确定目标语义标签集合对应的知识点。
应答模块904,用于利用目标语义标签集合对应的知识点中包括的内容作为对用户输入的语句的应答。
图10示出了能够实现根据本申请实施例的应答确定方法和装置的计算设备的示例性硬件架构的结构图。如图10所示,计算设备1000包括输入设备1001、输入接口1002、中央处理器1003、存储器1004、输出接口1005、以及输出设备1006。其中,输入接口1002、中央处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接,进而与计算设备1000的其他组件连接。
具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到中央处理器1003;中央处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到计算设备1000的外部供用户使用。
也就是说,图10所示的计算设备也可以被实现为应答确定设备,该应答确定设备可以包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图8-图9描述的应答确定方法和装置。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘Solid State Disk(SSD))等。
结合上述实施例中的应答确定方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种应答确定方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (24)

1.一种语义归一化的方法,其特征在于,所述方法包括:
获取多个历史提问语句;
计算所述多个历史提问语句中任意两个提问语句之间的相似值;
基于所述多个历史提问语句中任意两个提问语句之间的相似值,针对每个提问语句,在其它提问语句中确定预设数量个提问语句作为所述每个提问语句的相似提问语句;
针对每个提问语句,依照预设格式生成预设数量个三元组,其中,所述三元组中包括每个提问语句、每个提问语句的一个相似提问语句、以及所述每个提问语句与所述一个相似提问语句之间的相似值;
在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值;
在确定任意一个三元组中包括的两个提问语句所在类族之间的相似值大于预设相似度阈值时,将所述两个提问语句所在类族聚类为一个类族,生成至少一个类族;
计算每个类族中每个提问语句与每个知识点的标题之间的相似度;
针对所述每个提问语句,按照相似度由高到低的顺序,确定与所述每个提问语句最为相似的知识点;
统计各个知识点出现的次数,将出现次数最多的知识点确定为所述每个类族对应的知识点;
确定每个类族对应的语义标签集合;
建立每个类族对应的语义标签集合与所述每个类族对应的知识点之间的映射关系。
2.根据权利要求1所述的方法,其特征在于,所述在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值,包括:
在生成的多个三元组中,获取三元组中相似值大于所述预设相似度阈值的三元组作为有效三元组;
在获取到的有效三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
3.根据权利要求1所述的方法,其特征在于,所述在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值,包括:
依照三元组中相似值的大小,对生成的多个三元组进行降序排列;
依据所述三元组的排列顺序,依次判断每个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述两个提问语句所在类族之间的相似值为不同类族的任意两个提问语句之间相似值之和的平均值。
5.根据权利要求1所述的方法,其特征在于,所述确定每个类族对应的语义标签集合,包括:
对每个类族中包括的每个提问语句进行分词处理;
基于所述分词处理的结果,统计每个词语在所述每个类族中出现的次数;
利用出现次数大于预设次数阈值的词语,组成词语集合,并将所述词语集合作为所述类族对应的语义标签集合。
6.一种语义归一化的装置,其特征在于,所述装置包括:
获取模块,用于获取多个历史提问语句;
聚类模块,用于计算所述多个历史提问语句中任意两个提问语句之间的相似值;基于所述多个历史提问语句中任意两个提问语句之间的相似值,针对每个提问语句,在其它提问语句中确定预设数量个提问语句作为所述每个提问语句的相似提问语句;针对每个提问语句,依照预设格式生成预设数量个三元组,其中,所述三元组中包括每个提问语句、每个提问语句的一个相似提问语句、以及所述每个提问语句与所述一个相似提问语句之间的相似值;在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值;在确定任意一个三元组中包括的两个提问语句所在类族之间的相似值大于预设相似度阈值时,将所述两个提问语句所在类族聚类为一个类族,生成至少一个类族;
知识点确定模块,用于计算每个类族中每个提问语句与每个知识点的标题之间的相似度;针对所述每个提问语句,按照相似度由高到低的顺序,确定与所述每个提问语句最为相似的知识点;统计各个知识点出现的次数,将出现次数最多的知识点确定为所述每个类族对应的知识点;
语义标签集合确定模块,用于确定每个类族对应的语义标签集合;
映射关系建立模块,用于建立每个类族对应的语义标签集合与所述每个类族对应的知识点之间的映射关系。
7.一种语义归一化设备,其特征在于,包括存储器和处理器;所述存储器用于储存有可执行程序代码;所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求1-5中任意一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-5中任一项所述的方法。
9.一种提问模式的生成方法,其特征在于,包括:
获取多个历史提问语句;
计算所述多个历史提问语句中任意两个提问语句之间的相似值;
基于所述多个历史提问语句中任意两个提问语句之间的相似值,针对每个提问语句,在其它提问语句中确定预设数量个提问语句作为所述每个提问语句的相似提问语句;
针对每个提问语句,依照预设格式生成预设数量个三元组,其中,所述三元组中包括每个提问语句、每个提问语句的一个相似提问语句、以及所述每个提问语句与所述一个相似提问语句之间的相似值;
在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值;
在确定任意一个三元组中包括的两个提问语句所在类族之间的相似值大于预设相似度阈值时,将所述两个提问语句所在类族聚类为一个类族,生成至少一个类族;
确定每个类族对应的语义标签集合;
基于所述语义标签集合,从所述多个历史提问语句中提取提问模式。
10.根据权利要求9所述的方法,其特征在于,所述在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值,包括:
在生成的多个三元组中,获取三元组中相似值大于所述预设相似度阈值的三元组作为有效三元组;
在获取到的有效三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
11.根据权利要求9所述的方法,其特征在于,所述在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值,包括:
依照三元组中相似值的大小,对生成的多个三元组进行降序排列;
依据所述三元组的排列顺序,依次判断每个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值。
12.根据权利要求9-11中任一项所述的方法,其特征在于,所述两个提问语句所在类族之间的相似值为不同类族的任意两个提问语句之间相似值之和的平均值。
13.根据权利要求9所述的方法,其特征在于,所述确定每个类族对应的语义标签集合,包括:
对每个类族中包括的每个提问语句进行分词处理;
基于所述分词处理的结果,统计每个词语在所述每个类族中出现的次数;
利用出现次数大于预设次数阈值的词语,组成词语集合,并将所述词语集合作为所述类族对应的语义标签集合。
14.根据权利要求13所述的方法,其特征在于,所述基于所述语义标签集合,从所述多个历史提问语句中提取提问模式,包括:
针对所述语义标签集合中包括的每个语义标签,从所述多个历史提问语句中提取所述每个语义标签的同义词作为提问模式。
15.根据权利要求14所述的方法,其特征在于,所述基于所述语义标签集合,从所述多个历史提问语句中提取提问模式,包括:
在确定所述历史提问语句中包括所述语义标签集合中的多个语义标签,且多个语义标签中相邻语义标签之间的间隔均小于预设距离阈值时,依据所述多个语义标签在所述历史提问语句中的顺序,连接所述多个语义标签作为提问模式。
16.根据权利要求15所述的方法,其特征在于,所述连接所述多个语义标签作为提问模式,包括:
利用通配符连接所述多个语义标签作为提问模式。
17.根据权利要求9所述的方法,其特征在于,所述方法还包括:
以字典树的方式存储从所述多个历史提问语句中提取的提问模式。
18.一种提问模式的生成装置,其特征在于,包括:
获取模块,用于获取多个历史提问语句;
聚类模块,用于计算所述多个历史提问语句中任意两个提问语句之间的相似值;基于所述多个历史提问语句中任意两个提问语句之间的相似值,针对每个提问语句,在其它提问语句中确定预设数量个提问语句作为所述每个提问语句的相似提问语句;针对每个提问语句,依照预设格式生成预设数量个三元组,其中,所述三元组中包括每个提问语句、每个提问语句的一个相似提问语句、以及所述每个提问语句与所述一个相似提问语句之间的相似值;在生成的多个三元组中,判断任意一个三元组中包括的两个提问语句所在类族之间的相似值是否大于预设相似度阈值;在确定任意一个三元组中包括的两个提问语句所在类族之间的相似值大于预设相似度阈值时,将所述两个提问语句所在类族聚类为一个类族,生成至少一个类族;
语义标签集合确定模块,用于确定每个类族对应的语义标签集合;
提问模式提取模块,用于基于所述语义标签集合,从所述多个历史提问语句中提取提问模式。
19.一种提问模式的生成设备,其特征在于,包括存储器和处理器;所述存储器用于储存有可执行程序代码;所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求9-17中任意一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求9-17中任一项所述的方法。
21.一种应答确定方法,其特征在于,包括:
接收用户输入的语句;
基于预先存储的提问模式,从所述用户输入的语句中提取语义标签,其中,所述提问模式是采用权利要求9-17中任一项所述的方法生成的;
根据预先建立的语义标签集合与知识点的映射关系,确定从所述用户输入的语句中提取出的语义标签所在的目标语义标签集合,并确定所述目标语义标签集合对应的知识点,其中,所述映射关系是采用权利要求1-5中任一项所述的方法建立的;
利用所述目标语义标签集合对应的知识点中包括的内容作为对所述用户输入的语句的应答。
22.一种应答确定装置,其特征在于,包括:
接收模块,用于接收用户输入的语句;
语义标签提取模块,用于基于权利要求18所述的提问模式的生成装置生成的提问模式,从所述用户输入的语句中提取语义标签;
处理模块,用于根据权利要求6所述的语义归一化装置建立的语义标签集合与知识点的映射关系,确定从所述用户输入的语句中提取出的语义标签所在的目标语义标签集合,并确定所述目标语义标签集合对应的知识点;
应答模块,用于利用所述目标语义标签集合对应的知识点中包括的内容作为对所述用户输入的语句的应答。
23.一种应答确定设备,其特征在于,包括存储器和处理器;所述存储器用于储存有可执行程序代码;所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求21所述的方法。
24.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求21所述的方法。
CN201810239943.8A 2018-03-22 2018-03-22 语义归一化、提问模式的生成、应答确定方法及装置 Active CN110309377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810239943.8A CN110309377B (zh) 2018-03-22 2018-03-22 语义归一化、提问模式的生成、应答确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810239943.8A CN110309377B (zh) 2018-03-22 2018-03-22 语义归一化、提问模式的生成、应答确定方法及装置

Publications (2)

Publication Number Publication Date
CN110309377A CN110309377A (zh) 2019-10-08
CN110309377B true CN110309377B (zh) 2023-08-15

Family

ID=68073591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810239943.8A Active CN110309377B (zh) 2018-03-22 2018-03-22 语义归一化、提问模式的生成、应答确定方法及装置

Country Status (1)

Country Link
CN (1) CN110309377B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837559B (zh) * 2019-11-08 2023-03-10 卫盈联信息技术(深圳)有限公司 语句样本集的生成方法、电子装置及存储介质
CN111159370A (zh) * 2019-12-20 2020-05-15 中国建设银行股份有限公司 一种短会话新问题生成方法、存储介质和人机交互装置
CN113836275B (zh) * 2020-06-08 2023-09-05 菜鸟智能物流控股有限公司 对话模型建立方法、装置、非易失性存储介质和电子装置
CN111858891A (zh) * 2020-07-23 2020-10-30 平安科技(深圳)有限公司 问答库构建方法、装置、电子设备及存储介质
CN112463943A (zh) * 2020-12-11 2021-03-09 深圳市一号互联科技有限公司 基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质
CN113836284A (zh) * 2021-09-26 2021-12-24 北京京东拓先科技有限公司 知识库构建、生成应答语句的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294725A (zh) * 2012-03-03 2013-09-11 李辉 智能应答机器人软件
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
WO2015042766A1 (en) * 2013-09-24 2015-04-02 Empire Technology Development Llc Automatic question sorting
CN107015983A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 一种用于智能问答中提供知识信息的方法与设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262062B2 (en) * 2015-12-21 2019-04-16 Adobe Inc. Natural language system question classifier, semantic representations, and logical form templates

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294725A (zh) * 2012-03-03 2013-09-11 李辉 智能应答机器人软件
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
WO2015042766A1 (en) * 2013-09-24 2015-04-02 Empire Technology Development Llc Automatic question sorting
CN107015983A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 一种用于智能问答中提供知识信息的方法与设备

Also Published As

Publication number Publication date
CN110309377A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110309377B (zh) 语义归一化、提问模式的生成、应答确定方法及装置
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
WO2020119030A1 (zh) 用于答复问题的模型训练方法、装置、设备及存储介质
US20190266287A1 (en) Bot networks
US20160162569A1 (en) Methods and systems for improving machine learning performance
US20190073416A1 (en) Method and device for processing question clustering in automatic question and answering system
US9875301B2 (en) Learning multimedia semantics from large-scale unstructured data
JP6404106B2 (ja) コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法
CN104050256A (zh) 基于主动学习的问答方法及采用该方法的问答系统
US10936630B2 (en) Inferring topics with entity linking and ontological data
US20150309988A1 (en) Evaluating Crowd Sourced Information Using Crowd Sourced Metadata
US20180046721A1 (en) Systems and Methods for Automatic Customization of Content Filtering
CN110309234B (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
US20230030086A1 (en) System and method for generating ontologies and retrieving information using the same
KR101545050B1 (ko) 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN115878750A (zh) 信息处理方法、装置、设备及计算机可读存储介质
CN113407738A (zh) 一种相似文本检索方法、装置、电子设备和存储介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN110929526A (zh) 样本生成方法、装置以及电子设备
CN112966084B (zh) 基于知识图谱的答案查询方法、装置、设备及存储介质
CN111753199B (zh) 用户画像构建方法及设备、电子设备和介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
JP2022111020A (ja) 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40015538

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant