CN112328799B - 问题分类方法和装置 - Google Patents

问题分类方法和装置 Download PDF

Info

Publication number
CN112328799B
CN112328799B CN202110010592.5A CN202110010592A CN112328799B CN 112328799 B CN112328799 B CN 112328799B CN 202110010592 A CN202110010592 A CN 202110010592A CN 112328799 B CN112328799 B CN 112328799B
Authority
CN
China
Prior art keywords
question
texts
sample
type
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110010592.5A
Other languages
English (en)
Other versions
CN112328799A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110010592.5A priority Critical patent/CN112328799B/zh
Publication of CN112328799A publication Critical patent/CN112328799A/zh
Application granted granted Critical
Publication of CN112328799B publication Critical patent/CN112328799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例提供了一种问题分类方法和装置,涉及人工智能技术领域中的机器学习。本申请实施例中的问题分类方法包括:对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式;分别将各问题类型的样本问题文本与问题序列模式进行匹配,确定与问题序列模式相匹配的样本问题文本以及与问题序列模式相匹配的样本问题文本的文本条数;基于文本条数以及各问题类型的样本问题文本的总条数,确定问题序列模式的第一支持度,作为与问题序列模式相匹配的样本问题文本的聚类权重;基于聚类权重对所有问题类型的样本问题文本进行加权聚类处理。本申请实施例的技术方案提高了对待分类的问题文本进行问题类型的准确度。

Description

问题分类方法和装置
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种问题分类方法和装置。
背景技术
随着人工智能的发展,智能问答系统被广泛应用于各种场景,例如,在电商平台、销售平台的智能客服。构建智能问答系统的关键在于理解用户提出的问题,而识别问题的问题类型成为理解问题语义、提供准确答案的关键步骤。
相关技术中提出了问题类型的识别方案,比如,预先建立常见问题库,将用户提出的问题与常见问题库中所有问题语句进行句子相似度计算而确定问题类型。问题相似度的问题类型识别只是将问题类型识别简化为一般的句子归类问题,忽略了问题本身的一些属性信息,例如对问题文本中的疑问词、问题文本的疑问句式与其他句子的区别、不同疑问词与问题类型之间的强映射关系等多种属性信息,进而导致相关技术中的问题类型识别方式存在识别准确度低的技术问题。
发明内容
本申请的实施例提供了一种视频标签的处理方法和装置,可以解决相关技术中的问题类型识别方式存在的识别准确度低的技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种问题分类方法,包括:对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式;分别将各问题类型的样本问题文本与所述问题序列模式进行匹配,确定与所述问题序列模式相匹配的样本问题文本以及与所述问题序列模式相匹配的样本问题文本的文本条数;基于所述文本条数以及各问题类型的样本问题文本的总条数,确定所述问题序列模式的第一支持度,作为与所述问题序列模式相匹配的样本问题文本的聚类权重;基于所述聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量;获取待分类的问题文本,并生成所述待分类的问题文本对应的句向量;基于所述句向量以及各问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
根据本申请实施例的一个方面,提供了一种问题分类装置,包括:挖掘单元,用于对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式;匹配单元,用于分别将各问题类型的样本问题文本与所述问题序列模式进行匹配,确定与所述问题序列模式相匹配的样本问题文本以及与所述问题序列模式相匹配的样本问题文本的文本条数;计算单元,用于基于所述文本条数以及各问题类型的样本问题文本的总条数,确定所述问题序列模式的第一支持度,作为与所述问题序列模式相匹配的样本问题文本的聚类权重;聚类单元,用于基于所述聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量;第一生成单元,用于获取待分类的问题文本,并生成所述待分类的问题文本对应的句向量;分类单元,用于基于所述句向量以及各问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
在本申请的一些实施例中,基于前述方案,所述挖掘单元被配置为:对各问题类型的样本问题文本进行分词处理,分别得到各问题类型的样本问题文本的分词结果;确定所述分词结果中的词汇在各问题类型的样本问题文本出现的第二支持度;在各问题类型的样本问题文本中,删除所述第二支持度小于第二支持度阈值的词汇,得到更新后的各问题类型的样本问题文本;对更新后的各问题类型的样本问题文本进行序列模式挖掘,分别生成各问题类型的频繁序列模式;基于各问题类型的频繁序列模式,生成各问题类型的问题序列模式。
在本申请的一些实施例中,基于前述方案,所述挖掘单元被配置为:从更新后的各问题类型的样本问题文本中选择词汇作为前缀,并确定与所述前缀对应的至少一个后缀,所述至少一个后缀包含有更新后的各问题类型的样本问题文本中位于所述前缀之后的词汇,且包含的词汇的位置顺序与在更新后的各问题类型的样本问题文本中的位置顺序一致;从所述至少一个后缀中选择在所述至少一个后缀中的第三支持度大于第三支持度阈值的一个词汇添加至所述前缀中,得到新的前缀,并继续确定与所述新的前缀对应的新的后缀,直至从确定出的新的后缀中无法选择出第三支持度大于第三支持度阈值的词汇为止;根据得到的多个前缀,分别生成各问题类型的频繁序列模式。
在本申请的一些实施例中,基于前述方案,所述匹配单元被配置为:基于预定的无意义词汇,从各问题类型的频繁序列模式中确定与所述无意义词汇相匹配的目标词汇;从所述频繁序列模式中删除所述目标词汇,得到删除后的各问题类型的频繁序列模式。
在本申请的一些实施例中,基于前述方案,所述匹配单元被配置为:从各问题类型的问题序列模式中删除第一支持度小于预定第一支持度阈值的问题序列模式,得到删除后的各问题类型的问题序列模式;基于删除后的各问题类型的问题序列模式,生成各问题类型的问题序列模式。
在本申请的一些实施例中,基于前述方案,所述聚类单元被配置为:从各问题类型中选择进行加权聚类的一个问题类型,并为除所选择的问题类型之外的剩余问题类型的样本问题文本分配聚类权重,所述分配的聚类权重小于所选择的问题类型的样本问题文本的聚类权重;基于所选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除所选择的问题类型之外的剩余问题类型的样本问题文本分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于所选择的问题类型的样本问题文本集合和不属于所选择的问题类型的样本问题文本集合;基于所述属于所选择的问题类型的样本问题文本集合,生成所选择的问题类型的聚类中心向量;在各问题类型中重新选择进行加权聚类的一个问题类型,并为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配聚类权重,所述重新分配的聚类权重小于重新选择的问题类型的样本问题文本的聚类权重;基于重新选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于重新选择的问题类型的样本问题文本集合和不属于重新选择的问题类型的样本问题文本集合;基于所述属于重新选择的问题类型的样本问题文本集合,生成重新选择的问题类型的聚类中心向量,继续在各问题类型中重新选择进行加权聚类的一个问题类型,直至生成各问题类型的聚类中心向量。
在本申请的一些实施例中,基于前述方案,所述分类单元被配置为:基于待分类的问题文本,从各问题类型的问题序列模式中确定与所述待分类的问题文本相匹配的目标问题序列模式;基于所述句向量以及所述目标问题序列模式所属的问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
在本申请的一些实施例中,基于前述方案,所述分类单元被配置为:分别计算所述句向量与各问题类型的聚类中心向量之间的相似度;基于所述相似度,确定所述待分类的问题文本所属的问题类型。
在本申请的一些实施例中,基于前述方案,所述问题分类装置还包括:选取单元,用于从预定问题文本库中,分别选取与各问题类型对应的问题词汇相匹配的目标问题文本;第二生成单元,用于基于所述目标问题文本,生成各问题类型的样本问题文本。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的问题分类方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的问题分类方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的问题分类方法。
在本申请的一些实施例所提供的技术方案中,通过将各问题类型的样本问题文本进行序列模式挖掘,确定各问题类型的问题序列模式,并确定与问题序列模式相匹配的样本问题文本的文本条数以及各问题类型的样本问题文本的总条数,确定问题序列模式的第一支持度,作为与问题序列模式相匹配的样本问题文本的聚类权重,基于聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量,由于所确定问题类型的聚类中心向量考虑了样本问题文本所属的问题序列模式,因此可以提高所确定的各问题类型的聚类中心向量的准确度,进而提高对待分类的问题文本进行问题类型的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
图2示出了根据本申请的一个实施例中的问题分类方法的流程图。
图3示出了本申请的一个实施例中的生成问题类型的样本问题文本的流程图。
图4示出了本申请的一个实施例中的问题分类方法的步骤S210的具体流程图。
图5示出了本申请的一个实施例中的问题分类方法的步骤S440的具体流程图。
图6示出了本申请的一个实施例中的问题分类方法的步骤S450的具体流程图。
图7示出了本申请的一个实施例中的问题分类方法的流程图。
图8示出了本申请的一个实施例中的问题分类方法的步骤S240的具体流程图。
图9示出了本申请的一个实施例中的问题分类方法的步骤S260的具体流程图。
图10示出了本申请的一个实施例中的问题分类方法的步骤S260的具体流程图。
图11示出了根据本申请的一个实施例中的问题分类装置的框图。
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
机器学习(ML ,Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括客户端101、网络102和服务器103。客户端101和服务器103之间通过网络102连接,并基于网络102进行数据交互,该网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的客户端101、网络102和服务器103的数目仅仅是示意性的。根据实现需要,可以具有任意数目的客户端101、网络102和服务器103,如服务器103可以是多个服务器组成的服务器集群等。
可选地,服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云存储、网络服务等基础云计算服务的云服务器。
服务器103对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式;分别将各问题类型的样本问题文本与问题序列模式进行匹配,确定与问题序列模式相匹配的样本问题文本以及与问题序列模式相匹配的样本问题文本的文本条数;基于文本条数以及各问题类型的样本问题文本的总条数,确定问题序列模式的第一支持度,作为与问题序列模式相匹配的样本问题文本的聚类权重;基于聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量;获取待分类的问题文本,并生成待分类的问题文本对应的句向量;基于句向量以及各问题类型的聚类中心向量,确定待分类的问题文本所属的问题类型,服务器103可以将待分类的问题文本所属的问题类型发送至客户端101,以使得客户端101接收待分类的问题文本所属的问题类型的分类结果。
以上可以看出,通过各问题类型的样本问题文本进行序列模式挖掘,确定各问题类型的问题序列模式,并确定与问题序列模式相匹配的样本问题文本的文本条数以及各问题类型的样本问题文本的总条数,确定问题序列模式的第一支持度,作为与问题序列模式相匹配的样本问题文本的聚类权重,基于聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量,由于所确定的问题类型的聚类中心向量考虑了样本问题文本所属的问题序列模式,因此可以提高所确定的各问题类型的聚类中心向量的准确度,进而提高对待分类的问题文本进行问题类型的准确度。
需要说明的是,本申请实施例所提供的问题分类方法一般由服务器103执行,相应地,问题分类装置一般设置于服务器103中。但是,在本申请的其它实施例中,客户端101也可以与服务器103具有相似的功能,从而执行本申请实施例所提供的问题分类方法的方案。以下对本申请实施例的技术方案的实现细节进行详细阐述。
图2示出了根据本申请的一个实施例的问题分类方法的流程图,该问题分类方法可以由服务器来执行,该服务器可以是图1中所示的服务器。参照图2所示,该问题分类方法至少包括步骤S210至步骤S260,详细介绍如下。
在步骤S210中,对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式。
在一个实施例中,问题类型是根据提问目的对问题进行划分的类别。在通常的问答场景中,问题类型可以包括时间、地点、人物以及事件等类别。在一些特定的问答场景中,如电商领域的问答场景中,问题类型可以包括商品价格、商品质量和商品售后服务等更加具体的类别。
在一个实施例中,样本问题文本是指属于某个问题类型的问题文本,各问题类型的样本问题文本可以从问题文本库中获取。由于不同问题类型的问题文本包含不同的问题词汇,因此,可以依据问题文本库中的问题文本是否包含某个问题类型的问题词汇来确定属于相应问题类型的样本问题文本。
在一个实施例中,序列模式挖掘是指在给定样本问题文本数据库和给定最小支持度阈值的情况下,挖掘样本问题文本数据库中支持度大于最小支持度阈值的所有频繁序列,旨在发现样本问题文本数据库中的频繁序列模式。需要指出的是,给定的样本问题文本数据库是指包含同一个问题类型的样本问题文本的数据库,即在进行序列模式挖掘时,是分别针对不同问题类型来进行序列模式挖掘的。
序列的支持度是指该序列在样本问题文本数据库中样本问题文本所出现的支持度,即样本问题文本数据库中包含该序列的问题文本的文本数与样本问题文本数据库中的问题文本的文本总数之间的比值,若序列的支持度大于或等于最小支持度阈值,则称该序列是一个频繁序列模式。所挖掘得到的频繁序列模式则构成了各问题类型的问题序列模式。
图3示出了本申请的一个实施例中的生成问题类型的样本问题文本的流程图,参照图3所示,该生成问题类型的样本问题文本的方法包括步骤S310至步骤S320,详细介绍如下。
在步骤S310中,从预定问题文本库中,分别选取与各问题类型对应的问题词汇相匹配的问题文本。
在一个实施例中,预定问题文本库为包含多个问题文本的文本库,如,在电商领域的问答场景中,预定问题文本库可以是根据各个用户提出的真实问题文本所构建的文本库。不同问题类型一般包含反映对应类别特征的问题词汇。具体而言,时间问题类型包含反映时间特征的问题词汇,可以包括什么时候、何时、几时、啥时候、哪天、哪个月、哪年等;地点问题类型包含反映地点特征的问题词汇,可以包括哪个地方、何处、哪个地点、哪处等。相应的,其它问题类型也包括反映对应类别特征的问题词汇。
在一个实施例中,在确定某个问题类型的样本问题文本时,可以在预定问题文本库中选取与该问题类型对应的问题词汇相匹配的问题文本,作为该问题类型的样本问题文本。可以理解,当问题文本库中的某一个问题文本中包含某个问题类型对应的一个问题词汇时,则认为该问题文本与该问题类型对应的问题词汇相匹配。如,问题文本为“海贼王是哪年发布的”,由于问题文本包含“哪年”这个反映时间特征的问题词汇,则认为问题文本是与时间问题类型对应的问题词汇相匹配的问题文本。
在步骤S320中,基于与各问题类型对应的问题词汇相匹配的问题文本,生成各问题类型的样本问题文本。
在一个实施例中,在确定与各问题类型对应的问题词汇相匹配的问题文本后,可以将相匹配的问题文本作为对应问题类型的样本问题文本。
可以理解,同一个问题文本可以同时作为不同问题类型的样本问题文本,如,问题文本为“你是什么时候在哪个地方看的那部电影”,问题文本包含“什么时候”这个反映时间特征的问题词汇以及包含“哪个地方”这个反映地点特征的问题词汇,因此该问题文本既可以是时间问题类型的样本问题文本,也可以是地点问题类型的样本问题文本。
图4示出了本申请的一个实施例中的问题分类方法的步骤S210的具体流程图,参照图4所示,进行序列模式挖掘的方法包括步骤S410至步骤S450,详细介绍如下。
在步骤S410中,对各问题类型的样本问题文本进行分词处理,分别得到各问题类型的样本问题文本的分词结果。
在一个实施例中,在对各问题类型的样本问题文本进行序列模式挖掘时,首先要对样本问题文本进行分词处理,得到样本问题文本的分词结果,具体可以是采用结巴分词来实现对样本问题文本进行分词处理,当然,可以是采用其它文本分词方法,在此不作限定。
可以理解,分词结果包含样本问题文本所包含的所有词汇。例如,以时间问题类型的样本问题文本为例,其样本问题文本和样本问题文本的分词结果为表1所示。
Figure DEST_PATH_IMAGE001
在步骤S420中,确定分词结果中的词汇在各问题类型的样本问题文本出现的第二支持度。
在一个实施例中,针对同一个问题类型的所有样本问题文本,由于不同的样本问题文本会存在相同的某些词汇,为了便于根据支持度高的词汇来挖掘问题类型的频繁序列模式,可以在分词结果中过滤掉支持度低的词汇,以提高频繁序列模式的挖掘效率。第二支持度是指在该问题类型的所有样本问题文本中出现该词汇的文本条数与该问题类型的所有样本问题文本的文本总条数之间的比值。
针对表1的样本问题文本的分词结果,其中分词结果的词汇在时间问题类型的样本问题文本出现的第二支持度,如表2所示。
Figure DEST_PATH_IMAGE002
在步骤S430中,在各问题类型的样本问题文本中,删除第二支持度小于第二支持度阈值的词汇,得到更新后的各问题类型的样本问题文本。
在一个实施例中,在各问题类型的样本问题文本中,删除第二支持度小于第二支持度阈值的词汇,得到更新后的各问题类型的样本问题文本,进而实现过滤掉样本问题文本中支持度较低的词汇。
如表2所示,将第二支持度阈值设置为0.4,则词汇“青花瓷”、“他”、“你们”以及“软件”为需要删除的词汇。
在步骤S440中,对更新后的各问题类型的样本问题文本进行序列模式挖掘,分别生成各问题类型的频繁序列模式。
在一个实施例中,针对更新后的各问题类型的所有样本问题文本,依次进行序列模式挖掘,分别生成各问题类型的频繁序列模式。
图5示出了本申请的一个实施例中的问题分类方法的步骤S440的具体流程图,参照图5所示,步骤S440可以包括步骤S510至步骤S530。
在步骤S510中,从更新后的各问题类型的样本问题文本中选择词汇作为前缀,并确定与前缀对应的至少一个后缀,至少一个后缀包含有更新后的各问题类型的样本问题文本中位于前缀之后的词汇,且包含的词汇的位置顺序与在更新后的各问题类型的样本问题文本中的位置顺序一致。
在步骤S520中,从至少一个后缀中选择在至少一个后缀中的第三支持度大于第三支持度阈值的一个词汇添加至前缀中,得到新的前缀,并继续确定与新的前缀对应的新的后缀,直至从确定出的新的后缀中无法选择出第三支持度大于第三支持度阈值的词汇为止。
在步骤S530中,根据得到的多个前缀,分别生成各问题类型的频繁序列模式。
以下以生成时间问题类型的频繁序列模式为来说明实施例中的步骤S510至步骤S530。
假设给定的时间问题类型的样本问题文本为四个,四个更新后的样本问题文本为如下表3所示。
Figure DEST_PATH_IMAGE003
第一步,从更新后的样本问题文本选择词汇作为前缀,并确定与前缀对应的至少一个后缀,至少一个后缀包含有更新后的各问题类型的样本问题文本中位于前缀之后的词汇,且包含的词汇的位置顺序与在更新后的各问题类型的样本问题文本中的位置顺序一致,可以得到如表4所示的结果。
Figure DEST_PATH_IMAGE004
第二步,从至少一个后缀中选择在至少一个后缀中的第三支持度大于第三支持度阈值的一个词汇添加至前缀中,得到新的前缀,并继续确定与新的前缀对应的新的后缀。
以表4中的一项前缀“是”为例,假设第三支持度阈值为0.3,可以确定在前缀中第三支持度大于第三支持度阈值的词汇包括“哪天”和“什么时候”,因此可以将“哪天”和“什么时候”添加到前缀“是”中,而对于其他前缀,例如“哪天”、“发布”、“决定”等,其对应的后缀不存在第三支持度大于第三支持度阈值的词汇,因此无词汇可加到前缀中,因此可以得到如表5所示的结果。第三支持度等于包含该词汇的样本问题文本的文本条数与样本问题文本的文本总条数的比值。
Figure DEST_PATH_IMAGE005
由于针对“是哪天”和“是什么时候”的前缀,其对应的后缀不存在第三支持度大于第三支持度阈值的词汇,因此挖掘结束。
第三步,根据得到的二项前缀“是哪天”和“是什么时候”生成时间问题类型的频繁序列模式。
可以理解的是,针对其它问题类型,例如人物问题类型、地点问题类型,均可以通过上述方法对相应问题类型的样本问题文本进行频繁序列模式挖掘,进而生成相应问题类型的频繁序列模式。
还请继续参考图4,在步骤S450中,基于各问题类型的频繁序列模式,生成各问题类型的问题序列模式。
在一个实施例中,在确定各问题类型的频繁序列模式后,可以将各问题类型的频繁序列模式直接作为相应问题类型的问题序列模式。
图4所示实施例的技术方案中,通过预先在各问题类型的样本问题文本中过滤掉支持度低的词汇,可以提高挖掘出各问题类型的频繁序列模式的挖掘效率,进而提高挖掘各问题类型的问题序列模式的效率。
图6示出了本申请的一个实施例中的问题分类方法的步骤S450的具体流程图,参照图6所示,步骤S450可以包括步骤S610至步骤S620,以下对这些步骤进行详细描述。
在步骤S610中,从各问题类型的频繁序列模式中删除第一支持度小于预定第一支持度阈值的频繁序列模式,得到删除后的各问题类型的频繁序列模式。
在一个实施例中,第一支持度为包含某个频繁序列模式的样本问题文本的文本数与问题类型的所有样本问题文本的文本总数之间的比值。对于各问题类型的频繁序列模式,可以从各问题类型的频繁序列模式中删除第一支持度小于预定第一支持度阈值的频繁序列模式,得到删除后的各问题类型的频繁序列模式,删除后的各问题类型的频繁序列模式为置信度高的频繁序列模式,它可以较为典型的反映出各问题类型对应的问题文本所具有的普遍特征。
步骤S620,基于删除后的各问题类型的频繁序列模式,生成各问题类型的问题序列模式。
在一个实施例中,在得到删除后的各问题类型的频繁序列模式后,可以将删除后的各问题类型的频繁序列模式直接作为各问题类型的问题序列模式。
图7示出了本申请的一个实施例中的问题分类方法的流程图,参照图7所示,在基于各问题类型的频繁序列模式,生成各问题类型的问题序列模式的步骤S450之前,还包括步骤S710至步骤S720,以下对这些步骤进行详细描述。
在步骤S710中,基于预定的无意义词汇,从各问题类型的频繁序列模式中确定与无意义词汇相匹配的目标词汇。
在一个实施例中,无意义词汇指的是具体事务名称、具体人物名称等词汇,这类词汇可能在大部分的问题文本中会出现,例如作家名、歌手名、企业名等。但是这类词汇却与问题类型无关联,因此需要从各问题类型的频繁序列模式进行删除。具体的,可以预先建立一个由无意义词汇所组成的词汇库,将各问题类型的频繁序列模式与词汇库中的无意义词汇逐个进行匹配,以确定各问题类型的频繁序列模式中是否存在与无意义词汇相匹配的目标词汇。
在步骤S720中,从频繁序列模式中删除目标词汇,得到删除后的各问题类型的频繁序列模式。
在一个实施例中,从频繁序列模式中删除目标词汇,得到删除后的各问题类型的频繁序列模式。
图7所示实施例的技术方案中,通过从各问题类型的频繁序列模式中确定与无意义词汇相匹配的目标词汇,实现将频繁序列模式所包含的无意义词汇去除掉,使得频繁序列模式中包含的词汇可以更为精准的反映问题类型的普通特征,进而提高所确定的各问题类型的聚类中心向量的准确度。
还请继续参考图2,在步骤S220中,分别将各问题类型的样本问题文本与问题序列模式进行匹配,确定与问题序列模式相匹配的样本问题文本以及与问题序列模式相匹配的样本问题文本的文本条数。
在一个实施例中,针对某个问题类型的样本问题文本,将其与该问题类型的问题序列模式进行匹配,确定与问题序列模式相匹配的样本问题文本以及与问题序列模式相匹配的样本问题文本的文本条数。将样本问题文本与问题序列模式进行匹配时,是确定问题序列模式所包含的所有词汇是否在样本问题文本中出现,且这些词汇在样本问题文本中出现的先后位置顺序和在问题序列模式中出现的先后位置顺序是一致的,若满足以上条件,则认为该样本问题文本与问题序列模式相匹配。
在步骤S230中,基于文本条数以及各问题类型的样本问题文本的总条数,确定问题序列模式的第一支持度,作为与问题序列模式相匹配的样本问题文本的聚类权重。
在一个实施例中,问题序列模式的第一支持度等于与该问题序列模式相匹配的样本问题文本和该问题序列模式所属的各问题类型的样本问题文本的总条数之间的比值,聚类权重为对所有问题类型的样本问题文本进行加权聚类时,各个样本问题文本对应的权重。
在步骤S240中,基于聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量。
在一个实施例中,对样本进行聚类处理时,各个样本是无差别的,其对应的权重可认为是一致的。而加权聚类处理则是针对不同的样本赋予不同的聚类权重,这些聚类权重会导致样本的聚类中心发生变化。
具体而言,在本实施例中,需要将属于同一问题类型的样本问题文本与属于其它问题类型的样本问题文本进行区分,因此,在进行某个问题类型的聚类处理时,设置该问题类型的样本问题文本的聚类权重大于其它问题类型的样本问题文本的聚类权重,以体现出与不同问题序列模式的样本问题文本的差异性。具体的,可以将该问题类型的问题序列模式对应的第一支持度作为与问题序列模式相匹配的样本问题文本的聚类权重,进而使得对所有问题类型的样本问题文本进行加权聚类的结果更加符合客观实际,进而提高所确定的问题类型的聚类中心向量的准确度。在确定得到针对各问题类型进行加权聚类的结果后,可以根据属于同一问题类型的样本问题文本集合,计算得到其对应的聚类中心向量。
图8示出了本申请的一个实施例的问题分类方法的步骤S240的具体流程图,参照图8所示,步骤S240可以包括步骤S810至步骤S860,以下对这些步骤进行详细描述。
在步骤S810中,从各问题类型中选择进行加权聚类的一个问题类型,并为除所选择的问题类型之外的剩余问题类型的样本问题文本分配聚类权重,分配的聚类权重小于所选择的问题类型的样本问题文本的聚类权重。
在步骤S820中,基于所选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除所选择的问题类型之外的剩余问题类型的样本问题文本分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于所选择的问题类型的样本问题文本集合和不属于所选择的问题类型的样本问题文本集合。
在步骤S830中,基于属于所选择的问题类型的样本问题文本集合,生成所选择的问题类型的聚类中心向量。
在步骤S840中,在各问题类型中重新选择进行加权聚类的一个问题类型,并为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配聚类权重,重新分配的聚类权重小于重新选择的问题类型的样本问题文本的聚类权重。
在步骤S850中,基于重新选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于重新选择的问题类型的样本问题文本集合和不属于重新选择的问题类型的样本问题文本集合。
在步骤S860中,基于属于重新选择的问题类型的样本问题文本集合,生成重新选择的问题类型的聚类中心向量,继续在各问题类型中重新选择进行加权聚类的一个问题类型,直至生成各问题类型的聚类中心向量。
在一个实施例中,以下举例对步骤S810至步骤S860进行描述,如问题类型包括时间问题类型、地点问题类型和人物问题类型。时间问题类型的问题序列模式包括A和B两个问题序列模式,其中,时间问题类型的样本问题文本总数为100,与A问题序列模式相匹配的样本问题文本的文本条数为40,与B问题序列模式相匹配的样本问题文本的文本条数为60,与A问题序列模式相匹配的样本问题文本的聚类权重为0.4,与B问题序列模式相匹配的样本问题文本的聚类权重为0.6。地点问题类型的问题序列模式包括C和D两个问题序列模式,其中,地点问题类型的样本问题文本总数为100,与C问题序列模式相匹配的样本问题文本的文本条数为45,与D问题序列模式相匹配的样本问题文本的文本条数为55,与C问题序列模式相匹配的样本问题文本的聚类权重为0.45,与D问题序列模式相匹配的样本问题文本的聚类权重为0.55。人物问题类型的问题序列模式包括E和F两个问题序列模式,其中,人物问题类型的样本问题文本总数为100,与E问题序列模式相匹配的样本问题文本的文本条数为35,与F问题序列模式相匹配的样本问题文本的文本条数为65,与E问题序列模式相匹配的样本问题文本的聚类权重为0.35,与F问题序列模式相匹配的样本问题文本的聚类权重为0.65。
第一步,从三个问题类型中选择进行加权聚类的一个,如可以先选择时间问题类型来进行加权聚类,并为地点问题类型的样本问题文本和人物问题类型的样本问题文本分配一个小于0.4以及0.6的聚类权重,该聚类权重具体可以为0.05。
第二步,基于与A问题序列模式相匹配的样本问题文本的聚类权重为0.4,与B问题序列模式相匹配的样本问题文本的聚类权重为0.6,以及为地点问题类型的样本问题文本和人物问题类型的样本问题文本分配的聚类权重0.05,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于所选择的时间问题类型的样本问题文本集合和不属于所选择的时间问题类型的样本问题文本集合。
可选地,对所有问题类型的样本问题文本进行加权聚类处理时,可以选择
Figure DEST_PATH_IMAGE006
作为进行加权聚类的准则函数计算公式。在该公式中,
Figure DEST_PATH_IMAGE007
为类簇的总数目,由于本实施例中只聚成两个类,因此,
Figure 858502DEST_PATH_IMAGE007
为2。
Figure DEST_PATH_IMAGE008
是类簇
Figure DEST_PATH_IMAGE009
中的成员总数,
Figure DEST_PATH_IMAGE010
为类簇
Figure 447746DEST_PATH_IMAGE009
中的第
Figure DEST_PATH_IMAGE011
个成员,
Figure DEST_PATH_IMAGE012
为类簇
Figure 99920DEST_PATH_IMAGE009
加权后的聚类中心向量,
Figure DEST_PATH_IMAGE013
为样本问题文本
Figure 432812DEST_PATH_IMAGE010
与类簇
Figure DEST_PATH_IMAGE014
加权后的聚类中心向量之间的相似度,其计算公式为
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
为聚类样本问题文本
Figure 339195DEST_PATH_IMAGE009
的权重。
Figure 692816DEST_PATH_IMAGE011
为凝聚度,用来衡量进行加权聚类的效果,当
Figure 694270DEST_PATH_IMAGE011
符合预定条件时,则认为聚类结束。
第三步,基于属于时间问题类型的样本问题文本集合,生成时间问题类型的聚类中心向量。
第四步,在三个问题类型中选择进行加权聚类的一个,如重新选择地点问题类型来进行加权聚类,并为时间问题类型的样本问题文本和人物问题类型的样本问题文本重新分配一个小于0.45以及0.55的聚类权重,该聚类权重具体可以为0.05。
第五步,基于与C问题序列模式相匹配的样本问题文本的聚类权重为0.45,与D问题序列模式相匹配的样本问题文本的聚类权重为0.55,以及为时间问题类型的样本问题文本和人物问题类型的样本问题文本分配的聚类权重0.05,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于所选择的地点问题类型的样本问题文本集合和不属于所选择的地点问题类型的样本问题文本集合。
第六步,基于属于地点问题类型的样本问题文本集合,生成地点问题类型的聚类中心向量。
第七步,继续在各问题类型中重新选择进行加权聚类的一个问题类型,最后在选择人物问题类型进行加权聚类,生成人物问题类型的聚类中心向量可以参照前面的步骤,在此不再赘述。
通过以上流程,即可分别生成时间问题类型的聚类中心向量、地点问题类型的聚类中心向量和人物问题类型的聚类中心向量。
还请继续参考图2,在步骤S250中,获取待分类的问题文本,并生成待分类的问题文本对应的句向量。
在一个实施例中,对于待识别的问题文本,可以根据待分类的问题文本生成待分类的问题文本对应的句向量。
生成待识别的问题文本对应的句向量的方法具体可以采用预训练的机器学习模型来实现,该机器学习模型可以是Word2vec词向量计算模型,或者是GloVe词向量模型等,在此不作限定。
在步骤S260中,基于句向量以及各问题类型的聚类中心向量,确定待分类的问题文本所属的问题类型。
在一个实施例中,在确定待分类的问题文本所属的问题类型,可以分别根据句向量以及各问题类型的聚类中心向量之间的相似程度,来确定待分类的问题文本所属的问题类型,具体的,可以先确定与句向量相似程度最高的聚类中心向量,并将所确定的聚类中心向量对应的问题类型作为为待分类的问题文本所属的问题类型。
以上可以看出,通过各问题类型的样本问题文本进行序列模式挖掘,确定各问题类型的问题序列模式,并确定与问题序列模式相匹配的样本问题文本的文本条数以及各问题类型的样本问题文本的总条数,确定问题序列模式的第一支持度,作为与问题序列模式相匹配的样本问题文本的聚类权重,基于聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量,由于所确定问题类型的聚类中心向量考虑了样本问题文本所属的问题序列模式,因此可以提高所确定的各问题类型的聚类中心向量的准确度,进而提高对待分类的问题文本进行问题类型的准确度。
图9示出了本申请的一个实施例的问题分类方法的步骤S260的具体流程图,参照图9所示,步骤S260可以包括步骤S910至步骤S920,以下对这些步骤进行详细描述。
在步骤S910中,分别计算句向量与各问题类型的聚类中心向量之间的相似度。
在一个实施例中,在基于句向量以及各问题类型的聚类中心向量,确定待分类的问题文本所属的问题类型,可以分别计算句向量与各问题类型的聚类中心向量之间的相似度,具体的,可以是通过余弦相似度公式或者欧式距离公式来计算得到二者之间的相似度。
在步骤S920中,基于相似度,确定待分类的问题文本所属的问题类型。
在一个实施例中,在基于相似度确定待分类的问题文本所属的问题类型时,可以选择相似度最高的聚类中心向量所对应的问题类型,作为待分类的问题文本所属的问题类型。
图10示出了本申请的一个实施例的问题分类方法的步骤S260的具体流程图,参照图10所示,步骤S260可以包括步骤S1010至步骤S1020,以下对这些步骤进行详细描述。
在步骤S1010中,基于待分类的问题文本,从各问题类型的问题序列模式中确定与待分类的问题文本相匹配的目标问题序列模式。
在一个实施例中,在确定待分类的问题文本所属的问题类型时,还可以先将待分类的问题文本与各问题类型的问题序列模式进行匹配,在各问题类型的问题序列模式中确定与待分类的问题文本相匹配的目标问题序列模式。将样本问题文本与问题序列模式进行匹配时,是确定问题序列模式所包含的所有词汇是否在样本问题文本中出现,且这些词汇在样本问题文本中出现的先后位置顺序和在问题序列模式中出现的先后位置顺序是一致的,若满足以上条件,则认为该样本问题文本与问题序列模式相匹配。
在步骤S1020中,基于句向量以及目标问题序列模式所属的问题类型的聚类中心向量,确定待分类的问题文本所属的问题类型。
在一个实施例中,在确定与待分类的问题文本相匹配的目标问题序列模式后,则计算与待分类的问题文本相匹配的目标问题序列模式与句向量之间的相似度,当相似度高于预定阈值时,则将目标问题序列模式所属的问题类型确定为待分类的问题文本所属的问题类型。
图10所示实施例的技术方案中,通过先从各问题类型的问题序列模式中确定与待分类的问题文本相匹配的目标问题序列模式,然后再基于句向量以及目标问题序列模式所属的问题类型的聚类中心向量,确定待分类的问题文本所属的问题类型,不需要计算句向量与所有问题类型的聚类中心向量之间的相似度,在降低计算量的同时,还可以进一步提高所确定的待分类的问题文本所属的问题类型的准确度。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的问题分类方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的问题分类方法的实施例。
图11示出了根据本申请的一个实施例的问题分类装置的框图。
参照图11所示,根据本申请的一个实施例的问题分类装置1100,包括:挖掘单元1110、匹配单元1120、计算单元1130、聚类单元1140、第一生成单元1150以及分类单元1160。其中,挖掘单元1110,用于对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式;匹配单元1120,用于分别将各问题类型的样本问题文本与所述问题序列模式进行匹配,确定与所述问题序列模式相匹配的样本问题文本以及与所述问题序列模式相匹配的样本问题文本的文本条数;计算单元1130,用于基于所述文本条数以及各问题类型的样本问题文本的总条数,确定所述问题序列模式的第一支持度,作为与所述问题序列模式相匹配的样本问题文本的聚类权重;聚类单元1140,用于基于所述聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量;第一生成单元1150,用于获取待分类的问题文本,并生成所述待分类的问题文本对应的句向量;分类单元1160,用于基于所述句向量以及各问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
在本申请的一些实施例中,基于前述方案,所述挖掘单元1110被配置为:对各问题类型的样本问题文本进行分词处理,分别得到各问题类型的样本问题文本的分词结果;确定所述分词结果中的词汇在各问题类型的样本问题文本出现的第二支持度;在各问题类型的样本问题文本中,删除所述第二支持度小于第二支持度阈值的词汇,得到更新后的各问题类型的样本问题文本;对更新后的各问题类型的样本问题文本进行序列模式挖掘,分别生成各问题类型的频繁序列模式;基于各问题类型的频繁序列模式,生成各问题类型的问题序列模式。
在本申请的一些实施例中,基于前述方案,所述挖掘单元1110被配置为:从更新后的各问题类型的样本问题文本中选择词汇作为前缀,并确定与所述前缀对应的至少一个后缀,所述至少一个后缀包含有更新后的各问题类型的样本问题文本中位于所述前缀之后的词汇,且包含的词汇的位置顺序与在更新后的各问题类型的样本问题文本中的位置顺序一致;从所述至少一个后缀中选择在所述至少一个后缀中的第三支持度大于第三支持度阈值的一个词汇添加至所述前缀中,得到新的前缀,并继续确定与所述新的前缀对应的新的后缀,直至从确定出的新的后缀中无法选择出第三支持度大于第三支持度阈值的词汇为止;根据得到的多个前缀,分别生成各问题类型的频繁序列模式。
在本申请的一些实施例中,基于前述方案,所述匹配单元1120被配置为:基于预定的无意义词汇,从各问题类型的频繁序列模式中确定与所述无意义词汇相匹配的目标词汇;从所述频繁序列模式中删除所述目标词汇,得到删除后的各问题类型的频繁序列模式。
在本申请的一些实施例中,所述匹配单元1120被配置为:从各问题类型的问题序列模式中删除第一支持度小于预定第一支持度阈值的问题序列模式,得到删除后的各问题类型的问题序列模式;基于删除后的各问题类型的问题序列模式,生成各问题类型的问题序列模式。
在本申请的一些实施例中,基于前述方案,所述聚类单元1140被配置为:从各问题类型中选择进行加权聚类的一个问题类型,并为除所选择的问题类型之外的剩余问题类型的样本问题文本分配聚类权重,所述分配的聚类权重小于所选择的问题类型的样本问题文本的聚类权重;基于所选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除所选择的问题类型之外的剩余问题类型的样本问题文本分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于所选择的问题类型的样本问题文本集合和不属于所选择的问题类型的样本问题文本集合;基于所述属于所选择的问题类型的样本问题文本集合,生成所选择的问题类型的聚类中心向量;在各问题类型中重新选择进行加权聚类的一个问题类型,并为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配聚类权重,所述重新分配的聚类权重小于重新选择的问题类型的样本问题文本的聚类权重;基于重新选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于重新选择的问题类型的样本问题文本集合和不属于重新选择的问题类型的样本问题文本集合;基于所述属于重新选择的问题类型的样本问题文本集合,生成重新选择的问题类型的聚类中心向量,继续在各问题类型中重新选择进行加权聚类的一个问题类型,直至生成各问题类型的聚类中心向量。
在本申请的一些实施例中,基于前述方案,所述分类单元1160被配置为:基于待分类的问题文本,从各问题类型的问题序列模式中确定与所述待分类的问题文本相匹配的目标问题序列模式;基于所述句向量以及所述目标问题序列模式所属的问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
在本申请的一些实施例中,基于前述方案,所述分类单元1160被配置为:分别计算所述句向量与各问题类型的聚类中心向量之间的相似度;基于所述相似度,确定所述待分类的问题文本所属的问题类型。
在本申请的一些实施例中,基于前述方案,所述问题分类装置还包括:选取单元,用于从预定问题文本库中,分别选取与各问题类型对应的问题词汇相匹配的目标问题文本;第二生成单元,用于基于所述目标问题文本,生成各问题类型的样本问题文本。
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从储存部分1208加载到随机访问存储器(Random Access Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的储存部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入储存部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (20)

1.一种问题分类方法,其特征在于,包括:
对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式;
分别将各问题类型的样本问题文本与所述问题序列模式进行匹配,确定与所述问题序列模式相匹配的样本问题文本以及与所述问题序列模式相匹配的样本问题文本的文本条数;
基于所述文本条数以及各问题类型的样本问题文本的总条数,确定所述问题序列模式的第一支持度,作为与所述问题序列模式相匹配的样本问题文本的聚类权重,所述第一支持度等于所述问题序列模式相匹配的样本问题文本的文本条数和所述问题序列模式所属的问题类型的样本问题文本的总条数之间的比值;
基于所述聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量;
获取待分类的问题文本,并生成所述待分类的问题文本对应的句向量;
基于所述句向量以及各问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
2.根据权利要求1所述的问题分类方法,其特征在于,所述对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式,包括:
对各问题类型的样本问题文本进行分词处理,分别得到各问题类型的样本问题文本的分词结果;
确定所述分词结果中的词汇在各问题类型的样本问题文本出现的第二支持度,所述第二支持度是指问题类型的所有样本问题文本中出现所述分词结果中的词汇的文本条数与问题类型的所有样本问题文本的文本总条数之间的比值;
在各问题类型的样本问题文本中,删除所述第二支持度小于第二支持度阈值的词汇,得到更新后的各问题类型的样本问题文本;
对更新后的各问题类型的样本问题文本进行序列模式挖掘,分别生成各问题类型的频繁序列模式;
基于各问题类型的频繁序列模式,生成各问题类型的问题序列模式。
3.根据权利要求2所述的问题分类方法,其特征在于,所述对更新后的各问题类型的样本问题文本进行序列模式挖掘,分别生成各问题类型的频繁序列模式,包括:
从更新后的各问题类型的样本问题文本中选择词汇作为前缀,并确定与所述前缀对应的至少一个后缀,所述至少一个后缀包含有更新后的各问题类型的样本问题文本中位于所述前缀之后的词汇,且包含的词汇的位置顺序与在更新后的各问题类型的样本问题文本中的位置顺序一致;
从所述至少一个后缀中选择在所述至少一个后缀中的第三支持度大于第三支持度阈值的一个词汇添加至所述前缀中,得到新的前缀,并继续确定与所述新的前缀对应的新的后缀,直至从确定出的新的后缀中无法选择出第三支持度大于第三支持度阈值的词汇为止,所述第三支持度等于更新后的各问题类型的样本问题文本中包含所述至少一个后缀中的词汇的样本问题文本的文本条数与更新后的各问题类型的样本问题文本的文本总条数的比值;
根据得到的多个前缀,分别生成各问题类型的频繁序列模式。
4.根据权利要求2所述的问题分类方法,其特征在于,基于各问题类型的频繁序列模式,生成各问题类型的问题序列模式之前,还包括:
基于预定的无意义词汇,从各问题类型的频繁序列模式中确定与所述无意义词汇相匹配的目标词汇;
从所述频繁序列模式中删除所述目标词汇,得到删除后的各问题类型的频繁序列模式。
5.根据权利要求2所述的问题分类方法,其特征在于,所述基于各问题类型的频繁序列模式,生成各问题类型的问题序列模式,还包括:
从各问题类型的频繁序列模式中删除第一支持度小于预定第一支持度阈值的频繁序列模式,得到删除后的各问题类型的频繁序列模式;
基于删除后的各问题类型的频繁序列模式,生成各问题类型的问题序列模式。
6.根据权利要求1所述的问题分类方法,其特征在于,所述基于所述聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量,包括:
从各问题类型中选择进行加权聚类的一个问题类型,并为除所选择的问题类型之外的剩余问题类型的样本问题文本分配聚类权重,所述分配的聚类权重小于所选择的问题类型的样本问题文本的聚类权重;
基于所选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除所选择的问题类型之外的剩余问题类型的样本问题文本分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于所选择的问题类型的样本问题文本集合和不属于所选择的问题类型的样本问题文本集合;
基于所述属于所选择的问题类型的样本问题文本集合,生成所选择的问题类型的聚类中心向量;
在各问题类型中重新选择进行加权聚类的一个问题类型,并为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配聚类权重,所述重新分配的聚类权重小于重新选择的问题类型的样本问题文本的聚类权重;
基于重新选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于重新选择的问题类型的样本问题文本集合和不属于重新选择的问题类型的样本问题文本集合;
基于所述属于重新选择的问题类型的样本问题文本集合,生成重新选择的问题类型的聚类中心向量,继续在各问题类型中重新选择进行加权聚类的一个问题类型,直至生成各问题类型的聚类中心向量。
7.根据权利要求1所述的问题分类方法,其特征在于,所述基于所述句向量以及各问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型,包括:
基于待分类的问题文本,从各问题类型的问题序列模式中确定与所述待分类的问题文本相匹配的目标问题序列模式;
基于所述句向量以及所述目标问题序列模式所属的问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
8.根据权利要求1所述的问题分类方法,其特征在于,所述基于所述句向量以及各问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型,包括:
分别计算所述句向量与各问题类型的聚类中心向量之间的相似度;
基于所述相似度,确定所述待分类的问题文本所属的问题类型。
9.根据权利要求1所述的问题分类方法,其特征在于,所述问题分类方法,还包括:
从预定问题文本库中,分别选取与各问题类型对应的问题词汇相匹配的目标问题文本;
基于所述目标问题文本,生成各问题类型的样本问题文本。
10.一种问题分类装置,其特征在于,包括:
挖掘单元,用于对各问题类型的样本问题文本进行序列模式挖掘,分别确定各问题类型的问题序列模式;
匹配单元,用于分别将各问题类型的样本问题文本与所述问题序列模式进行匹配,确定与所述问题序列模式相匹配的样本问题文本以及与所述问题序列模式相匹配的样本问题文本的文本条数;
计算单元,用于基于所述文本条数以及各问题类型的样本问题文本的总条数,确定所述问题序列模式的第一支持度,作为与所述问题序列模式相匹配的样本问题文本的聚类权重,所述第一支持度等于所述问题序列模式相匹配的样本问题文本的文本条数和所述问题序列模式所属的问题类型的样本问题文本的总条数之间的比值;
聚类单元,用于基于所述聚类权重对所有问题类型的样本问题文本进行加权聚类处理,分别生成各问题类型的聚类中心向量;
生成单元,用于获取待分类的问题文本,并生成所述待分类的问题文本对应的句向量;
分类单元,用于基于所述句向量以及各问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
11.根据权利要求10所述的问题分类装置,其特征在于,所述挖掘单元被配置为:对各问题类型的样本问题文本进行分词处理,分别得到各问题类型的样本问题文本的分词结果;确定所述分词结果中的词汇在各问题类型的样本问题文本出现的第二支持度,所述第二支持度是指问题类型的所有样本问题文本中出现所述分词结果中的词汇的文本条数与问题类型的所有样本问题文本的文本总条数之间的比值;在各问题类型的样本问题文本中,删除所述第二支持度小于第二支持度阈值的词汇,得到更新后的各问题类型的样本问题文本;对更新后的各问题类型的样本问题文本进行序列模式挖掘,分别生成各问题类型的频繁序列模式;基于各问题类型的频繁序列模式,生成各问题类型的问题序列模式。
12.根据权利要求11所述的问题分类装置,其特征在于,所述挖掘单元被配置为:从更新后的各问题类型的样本问题文本中选择词汇作为前缀,并确定与所述前缀对应的至少一个后缀,所述至少一个后缀包含有更新后的各问题类型的样本问题文本中位于所述前缀之后的词汇,且包含的词汇的位置顺序与在更新后的各问题类型的样本问题文本中的位置顺序一致;从所述至少一个后缀中选择在所述至少一个后缀中的第三支持度大于第三支持度阈值的一个词汇添加至所述前缀中,得到新的前缀,并继续确定与所述新的前缀对应的新的后缀,直至从确定出的新的后缀中无法选择出第三支持度大于第三支持度阈值的词汇为止,所述第三支持度等于更新后的各问题类型的样本问题文本中包含所述至少一个后缀中的词汇的样本问题文本的文本条数与更新后的各问题类型的样本问题文本的文本总条数的比值;根据得到的多个前缀,分别生成各问题类型的频繁序列模式。
13.根据权利要求11所述的问题分类装置,其特征在于,所述匹配单元被配置为:基于预定的无意义词汇,从各问题类型的频繁序列模式中确定与所述无意义词汇相匹配的目标词汇;从所述频繁序列模式中删除所述目标词汇,得到删除后的各问题类型的频繁序列模式。
14.根据权利要求11所述的问题分类装置,其特征在于,所述匹配单元被配置为:从各问题类型的问题序列模式中删除第一支持度小于预定第一支持度阈值的问题序列模式,得到删除后的各问题类型的问题序列模式;基于删除后的各问题类型的问题序列模式,生成各问题类型的问题序列模式。
15.根据权利要求10所述的问题分类装置,其特征在于,所述聚类单元被配置为:从各问题类型中选择进行加权聚类的一个问题类型,并为除所选择的问题类型之外的剩余问题类型的样本问题文本分配聚类权重,所述分配的聚类权重小于所选择的问题类型的样本问题文本的聚类权重;基于所选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除所选择的问题类型之外的剩余问题类型的样本问题文本分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于所选择的问题类型的样本问题文本集合和不属于所选择的问题类型的样本问题文本集合;基于所述属于所选择的问题类型的样本问题文本集合,生成所选择的问题类型的聚类中心向量;在各问题类型中重新选择进行加权聚类的一个问题类型,并为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配聚类权重,所述重新分配的聚类权重小于重新选择的问题类型的样本问题文本的聚类权重;基于重新选择的问题类型的问题序列模式相匹配的样本问题文本的聚类权重,以及为除重新选择的问题类型之外的剩余问题类型的样本问题文本重新分配的聚类权重,对所有问题类型的样本问题文本进行加权聚类处理,聚成两个类,两个类包括属于重新选择的问题类型的样本问题文本集合和不属于重新选择的问题类型的样本问题文本集合;基于所述属于重新选择的问题类型的样本问题文本集合,生成重新选择的问题类型的聚类中心向量,继续在各问题类型中重新选择进行加权聚类的一个问题类型,直至生成各问题类型的聚类中心向量。
16.根据权利要求10所述的问题分类装置,其特征在于,所述分类单元被配置为:基于待分类的问题文本,从各问题类型的问题序列模式中确定与所述待分类的问题文本相匹配的目标问题序列模式;基于所述句向量以及所述目标问题序列模式所属的问题类型的聚类中心向量,确定所述待分类的问题文本所属的问题类型。
17.根据权利要求10所述的问题分类装置,其特征在于,所述分类单元被配置为:分别计算所述句向量与各问题类型的聚类中心向量之间的相似度;基于所述相似度,确定所述待分类的问题文本所属的问题类型。
18.根据权利要求10所述的问题分类装置,其特征在于,所述问题分类装置还包括:选取单元,用于从预定问题文本库中,分别选取与各问题类型对应的问题词汇相匹配的目标问题文本;第二生成单元,用于基于所述目标问题文本,生成各问题类型的样本问题文本。
19.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的问题分类方法。
20.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至9中任一项所述的问题分类方法。
CN202110010592.5A 2021-01-06 2021-01-06 问题分类方法和装置 Active CN112328799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110010592.5A CN112328799B (zh) 2021-01-06 2021-01-06 问题分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110010592.5A CN112328799B (zh) 2021-01-06 2021-01-06 问题分类方法和装置

Publications (2)

Publication Number Publication Date
CN112328799A CN112328799A (zh) 2021-02-05
CN112328799B true CN112328799B (zh) 2021-04-02

Family

ID=74302513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110010592.5A Active CN112328799B (zh) 2021-01-06 2021-01-06 问题分类方法和装置

Country Status (1)

Country Link
CN (1) CN112328799B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976339B (zh) * 2023-09-20 2023-12-22 山东高速信息集团有限公司 一种针对高速公路的特情分析方法、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861596B (zh) * 2019-04-04 2024-04-12 北京京东振世信息技术有限公司 一种文本分类方法和装置
CN110008343B (zh) * 2019-04-12 2024-08-02 深圳前海微众银行股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN111858917A (zh) * 2019-04-29 2020-10-30 京东数字科技控股有限公司 文本分类方法和装置
CN111831819B (zh) * 2019-06-06 2024-07-16 北京嘀嘀无限科技发展有限公司 一种文本更新方法及装置
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN111651574A (zh) * 2020-05-28 2020-09-11 腾讯科技(深圳)有限公司 事件类型识别方法、装置、计算机设备和存储介质
CN111708888B (zh) * 2020-06-16 2023-10-24 腾讯科技(深圳)有限公司 基于人工智能的分类方法、装置、终端和存储介质
CN111858885B (zh) * 2020-06-28 2022-08-23 西安工程大学 一种关键词分离的用户问题意图识别方法
CN111767403B (zh) * 2020-07-07 2023-10-31 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN112131379A (zh) * 2020-08-20 2020-12-25 彭涛 用于识别问题类别的方法、装置、电子设备及存储介质
CN112040076B (zh) * 2020-09-01 2022-11-04 中国平安财产保险股份有限公司 处理坐席上报文本的方法、装置、计算机设备和存储介质
CN112148862B (zh) * 2020-10-15 2024-01-30 腾讯科技(深圳)有限公司 一种问题意图识别方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112328799A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN111460221B (zh) 评论信息处理方法、装置及电子设备
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
US12020267B2 (en) Method, apparatus, storage medium, and device for generating user profile
CN112364937B (zh) 用户类别确定方法及装置、推荐内容确定方法、电子设备
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN110909222A (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN108304381B (zh) 基于人工智能的实体建边方法、装置、设备及存储介质
CN112685550A (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113032676A (zh) 基于微反馈的推荐方法和系统
CN113704393A (zh) 关键词提取方法、装置、设备及介质
Liu et al. [Retracted] Deep Learning and Collaborative Filtering‐Based Methods for Students’ Performance Prediction and Course Recommendation
CN112328799B (zh) 问题分类方法和装置
Dell Deep learning for economists
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN117609612A (zh) 资源推荐方法、装置、存储介质及电子设备
US20210271637A1 (en) Creating descriptors for business analytics applications
JP2023517518A (ja) ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル
CN112541069A (zh) 一种结合关键词的文本匹配方法、系统、终端及存储介质
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN111325578A (zh) 预测模型的样本确定方法及装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038314

Country of ref document: HK