CN108304530B - 知识库词条分类方法和装置、模型训练方法和装置 - Google Patents

知识库词条分类方法和装置、模型训练方法和装置 Download PDF

Info

Publication number
CN108304530B
CN108304530B CN201810077103.6A CN201810077103A CN108304530B CN 108304530 B CN108304530 B CN 108304530B CN 201810077103 A CN201810077103 A CN 201810077103A CN 108304530 B CN108304530 B CN 108304530B
Authority
CN
China
Prior art keywords
entry
knowledge base
word
version
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810077103.6A
Other languages
English (en)
Other versions
CN108304530A (zh
Inventor
刘树林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810077103.6A priority Critical patent/CN108304530B/zh
Publication of CN108304530A publication Critical patent/CN108304530A/zh
Application granted granted Critical
Publication of CN108304530B publication Critical patent/CN108304530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种知识库词条分类方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待分类的知识库词条;获取所述知识库词条所包括的多个词条版块的版块内容;转换所述版块内容为相应的词序列;将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;通过所述多通道卷积网络模型中的分类层,根据多个所述卷积层通道所输出的向量进行分类,输出所述知识库词条所属的类别。本申请提供的方案可以提高知识库词条的分类准确率。

Description

知识库词条分类方法和装置、模型训练方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种知识库词条分类方法和装置、模型训练方法和装置。
背景技术
随着计算机技术和人类文明的发展,各领域内的技术知识和各行业的词条也日益迭代更新,产生了越来越多的知识库词条,比如百科词条。知识库词条是词条的一种特定表现形式,通常包括:词条简介、词条属性、词条正文、参考资料和词条标签等。随着知识库词条的数量急剧增加,如何对知识库词条进行分类以方便管理和查阅,也变得越来越重要。
传统的知识库词条分类方法通常是采用关键词匹配法,比如,当知识库词条的词条标签中包含“小说”时,则该知识库词条就被分类为“小说”的类别。然而,基于传统的知识库词条分类方法,常常会因为知识库词条的词条属性或词条标签中的数据不准确或不完善而存在分类不准确的情况。
发明内容
基于此,有必要针对知识库词条分类不准确的技术问题,提供一种知识库词条分类方法和装置、模型训练方法和装置。
一种知识库词条分类方法,包括:
获取待分类的知识库词条;
获取所述知识库词条所包括的多个词条版块的版块内容;
转换所述版块内容为相应的词序列;
将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;
通过所述多通道卷积网络模型中的分类层,根据多个所述卷积层通道所输出的向量进行分类,输出所述知识库词条所属的类别。
一种知识库词条分类装置,所述装置包括:
获取模块,用于获取待分类的知识库词条;
所述获取模块还用于获取所述知识库词条所包括的多个词条版块的版块内容;
转换模块,用于转换所述版块内容为相应的词序列;
输入模块,用于将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;
输出模块,用于通过所述多通道卷积网络模型中的分类层,根据多个所述卷积层通道所输出的向量进行分类,输出所述知识库词条所属的类别。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述知识库词条分类方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述知识库词条分类方法的步骤。
上述知识库词条分类方法、装置、计算机可读存储介质和计算机设备,将待分类的知识库词条所包括的多个词条版块的版块内容转换为相应的词序列,通过将词序列分别输入已训练的多通道卷积网络模型中的,与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对待分类的知识库词条的多组词序列进行卷积处理。再通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。这样,可充分利用知识库词条中的多个词条版块的版块内容,使得各个词条版块的版块内容可以相互印证补充,避免了知识库词条各版块内容的质量参差不齐的问题,大大提高了知识库词条的分类准确率。
一种用于知识库词条分类的模型训练方法,包括:
获取知识库词条样本和相应的类别标签;
获取所述知识库词条样本所包括的多个词条版块的版块内容;
转换所述版块内容为相应的词序列;
将所述词序列输入多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;
通过所述多通道卷积网络模型中的分类层,根据多个所述卷积层通道所输出的向量进行分类,输出中间分类结果;
根据所述中间分类结果与所述类别标签的差异,调整所述多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
一种用于知识库词条分类的模型训练装置,所述装置包括:
获取模块,用于获取知识库词条样本和相应的类别标签;
所述获取模块还用于获取所述知识库词条样本所包括的多个词条版块的版块内容;
转换模块,用于转换所述版块内容为相应的词序列;
输入模块,用于将所述词序列输入多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;
输出模块,用于通过所述多通道卷积网络模型中的分类层,根据多个所述卷积层通道所输出的向量进行分类,输出中间分类结果;
调整模块,用于根据所述中间分类结果与所述类别标签的差异,调整所述多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述用于知识库词条分类的模型训练方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述用于知识库词条分类的模型训练方法的步骤。
上述用于知识库词条分类的模型训练方法、装置、计算机可读存储介质和计算机设备,通过将与知识库词条样本所包括的多个词条版块的版块内容相应的词序列,分别输入多通道卷积网络模型中的与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对知识库词条样本的多组词序列进行卷积处理。再通过分类层输出的中间分类结果与相应的类别标签的差异调整模型参数,来训练多通道卷积网络模型。这样,通过知识库词条样本中的多个词条版块的版块内容来训练多通道卷积网络模型,使得训练好的多通道卷积网络模型能对版块内容的质量参差不齐的各种知识库词条进行准确地分类,提高了用于知识库词条分类的模型的适用性。
附图说明
图1为一个实施例中知识库词条分类方法和/或用于知识库词条分类的模型训练方法的应用环境图;
图2为一个实施例中知识库词条分类方法的流程示意图;
图3为一个实施例中获取知识库词条所包括的多个词条版块的版块内容的步骤的流程示意图;
图4为一个实施例中通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别的步骤的流程示意图;
图5为一个实施例中通过已训练的多通道卷积网络模型对知识库词条进行分类的示意图;
图6为另一个实施例中知识库词条分类方法的流程示意图;
图7为一个实施例中用于知识库词条分类的模型训练方法的流程示意图;
图8为一个实施例中获取知识库词条样本和相应的类别标签的步骤的流程示意图;
图9为一个实施例中对知识库词条样本进行重采样的步骤的流程示意图;
图10为另一个实施例中用于知识库词条分类的模型训练方法的流程示意图;
图11为一个实施例中词条名称为“张三”的知识库词条的结构示意图;
图12为一个实施例中知识图谱的结构示意图;
图13为一个实施例中知识库词条分类装置的结构框图;
图14为一个实施例中用于知识库词条分类的模型训练装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中知识库词条分类方法和/或用于知识库词条分类的模型训练方法的应用环境图。如图1所示,该知识库词条分类方法和/或用于知识库词条分类的模型训练方法应用于一种计算机设备。该计算机设备可以是终端或者服务器。终端可以是台式设备或者移动终端。服务器可以是独立的物理服务器、物理服务器集群或者虚拟服务器。如图1所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器执行知识库词条分类方法和/或用于知识库词条分类的模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行知识库词条分类方法和/或用于知识库词条分类的模型训练方法。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图2所示,在一个实施例中,提供了一种知识库词条分类方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图2,该知识库词条方法具体包括如下步骤:
S202,获取待分类的知识库词条。
其中,知识库是知识的集合。词条是词语及其释文,可以是对各种事物、现象等概念的解释。知识库词条是知识库中的词条,是构成知识库的基本单元,比如百科词条。知识库词条也称知识库条目,是词条的一种特定表现形式,通常包括:词条名称、词条简介、词条属性、词条正文、参考资料和词条标签等。
具体地,计算机设备可获取待分类的知识库词条的词条名称,再根据词条名称通过无线网络或有线网络获取知识库中的待分类的知识库词条。在一个实施例中,计算机设备也可根据词条名称,从自身存储的知识库中获取知识库词条。
S204,获取知识库词条所包括的多个词条版块的版块内容。
其中,词条版块是词条中具有区域特征的连成一片的词条区域。比如,知识库词条包括词条简介版块、词条属性版块、词条正文版块、参考资料版块和词条标签版块等。词条版块的版块内容是词条不同区域内的文字、图片或表格等。其中,多个词条版块的版块内容可构成一个完整的知识库词条。
在一个实施例中,知识库词条中包含标题和标题内容等。不同标题下的标题内容属于不同的词条版块。计算机设备可从知识库词条的词条名称开始扫描,将当前扫描到的标题内容归属于前次扫描到的标题下的标题内容。计算机设备可通过获取知识库词条中的多个标题,来获取多个词条版块的版块内容。
在一个实施例中,知识库词条中不同词条版块中的版块内容的呈现格式不同。比如,词条简介版块的版块内容的呈现格式是自然段落格式,词条属性版块的版块内容的呈现格式是表格格式,词条标签版块的版块内容的呈现格式是词格式等。计算机设备可根据知识库词条中的版块内容的呈现格式的不同,来确定不同的词条版块,再获取多个词条版块中的版块内容。
在一个实施例中,相同的词条版块在知识库词条中的顺序和位置相同,比如词条简介版块紧邻词条名称并在词条名称的下面,词条标签版块在知识库词条的最后位置处等。计算机设备可获取多个词条版块各自对应的词条版块位置,按照词条版块位置,从知识库词条中定位相应的词条版块,并从定位的多个词条版块中获取版块内容。
S206,转换版块内容为相应的词序列。
其中,词序列是具有排列顺序的词集合。具体地,计算机设备可在获取到知识库词条所包括的多个词条版块的版块内容后,采用分词算法对版块内容进行分词。计算机设备对版块内容进行分词后,将分词得到的词进行词拼接,得到与版块内容相应的词序列。
其中,分词算法有多种,比如,基于字符串匹配的分词算法、基于语义分析的分词算法或者基于统计的分词算法等。基于字符串匹配的分词算法如正向最大匹配算法、逆向最大匹配算法、最少切分算法或者双向最大匹配算法。
在一个实施例中,计算机设备可将分词所得的词,按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列。在一个实施例中,计算机设备可将分词所得的词,以随机序列的方式进行词拼接,得到与版块内容相应的词序列。
S208,将词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列。
其中,卷积网络是卷积神经网络(Convolutional Neural Network,简称CNN),是一种人工神经网络。卷积神经网络包括卷积层(Convolutional Layer)和子采样层(Pooling Layer)。
在卷积神经网络的卷积层中,存在多个特征图(Feature Map),每个特征图包括多个神经元,同一个特征图的所有神经元共用一个卷积核。卷积核就是相应神经元的权值,卷积核代表一个特征。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中将学习得到合理的卷积核。卷积层可以减少神经网络中各层之间的连接,同时又降低了过拟合的风险。在本实施例中,卷积层可以有一层也可以有多层。
子采样也叫做池化(Pooling),通常有均值子采样(Mean Pooling)和最大值子采样(Max Pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了神经网络的复杂度,减少了神经网络的参数。
卷积网络模型是基于卷积神经网络的模型,可以用于分类。多通道卷积网络模型是多通道卷积神经网络(Multi-Channel Convolutional Neural Network,简称MCCNN)模型,由多个CNN组成。其中,标准的CNN只有一个卷积层通道,而MCCNN有多组卷积层通道,可以输入多组数据。从每一组卷积层通道输入的数据都有单独的卷积神经网络进行处理,最后,分类层将不同卷积层通道的输出拼接到一起作为分类层的输入。
本实施例所采用的多通道卷积网络模型中用于分类的分类层可包含全连接层(Fully Connected Layer)和回归层。其中,全连接层可将前置层输出的特征矩阵映射为对应于每一预设类别的数据,从而通过回归层输出输入的多组词序列所属的类别。
具体地,计算机设备可获取到与词序列相应的版块内容所属的词条版块相对应的卷积层通道,再将词序列输入已训练的多通道卷积网络模型中的对应卷积层通道。其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列。
在一个实施例中,计算机设备在训练多通道卷积网络模型时,可预先设置输入的词序列与卷积层通道的对应关系。比如,在词序列中添加与相应的词条版块对应的标识,再设置多通道卷积网络模型中不同的卷积层通道分别只能输入一个标识所对应的词序列。这样,可以保证在多通道卷积网络模型的训练过程中,对应的卷积层通道的训练算法可以正确地训练对应的数据。将词序列输入已训练的多通道卷积网络模型中的卷积层通道时,根据预先设置的输入的词序列与卷积层通道的对应关系,将词序列输入对应的卷积层通道。
S210,通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。
具体地,计算机设备可将多个卷积层通道所输出的向量进行拼接,得到拼接向量。将拼接向量作为已训练的多通道卷积网络模型中的分类层的输入,通过分类层输出知识库词条所属的类别。
在一个实施例中,计算机设备可通过已训练的多通道卷积网络模型中的分类层输出知识库词条所属的每个预设类别的概率,将待分类的知识库词条分类到最大概率所对应的类别。
上述知识库词条分类方法,将待分类的知识库词条所包括的多个词条版块的版块内容转换为相应的词序列,通过将词序列分别输入已训练的多通道卷积网络模型中的,与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对待分类的知识库词条的多组词序列进行卷积处理。再通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。这样,可充分利用知识库词条中的多个词条版块的版块内容,使得各个词条版块的版块内容可以相互印证补充,避免了知识库词条各版块内容的质量参差不齐的问题,大大提高了知识库词条的分类准确率。
在一个实施例中,步骤S204包括:
S302,获取多个词条版块各自对应的词条版块位置。
在一个实施例中,相同的词条版块在知识库词条中的顺序和位置相同,计算机设备可根据预设的知识库词条中的词条版块的位置,获取多个词条版块各自对应的词条版块位置。
在一个实施例中,不同标题下的标题内容属于不同的词条版块。计算机设备可获取知识库词条中的所有标题,根据获取的标题来获取多个词条版块各自对应的词条版块位置。
S304,按照词条版块位置,从知识库词条中定位相应的词条版块。
具体地,计算机设备可根据词条版块位置,从知识库词条中定位相应的词条版块。
S306,从定位的多个词条版块中获取版块内容。
具体地,计算机设备可通过扫描定位的多个词条版块,从词条版块中获取版块内容。
上述实施例中,按照词条版块各自对应的词条版块位置,从知识库词条中定位相应的词条版块,再从定位的多个词条版块中获取版块内容,可自动、准确地获取多个词条版块中的版块内容。
在一个实施例中,步骤S206包括:对版块内容进行分词;以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列。
具体地,计算机设备可对获取的版块内容,采用分词算法进行分词。将版块内容进行分词后,以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列。
上述实施例中,对版块内容进行分词,再以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,可以得到与版块内容相应的词序列。
在一个实施例中,以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列的步骤包括:以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列;当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应;当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
其中,自然段落内容是以自然段落格式呈现的版块内容。格式化文本是以特定的文本格式呈现的版块内容,特定的文本格式比如以短句格式排列,或者以词格式排列等。具体地,计算机设备对版块内容进行分词后,以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列。
在一个实施例中,版块内容为自然段落内容,比如词条简介版块中的版块内容由至少一个自然段落组成。在实际情况下,版块内容为自然段落内容时,有些版块内容的词多,有些版块内容的词少,甚至有时内容数量差异巨大。此时,计算机设备对版块内容为自然段落的版块内容进行分词得到候选词序列后,统计候选词序列的词数量,当候选词序列的词数量大于预设词数量时,只取候选词序列中的预设词数量的词,组成与版块内容相应的词序列;当候选词序列的词数量小于预设词数量时,在候选词序列的后面补充空白符,使得补充空白符后的候选词序列的词数量为预设词数量。
举例说明,假如,预设数量为200。当候选词序列的词数量大于200时,只取前200个词作为与版块内容相应的词序列。或者,当候选词序列的词数量大于200时,从候选词序列中随机抽取200个词,组成新的词序列,作为与版块内容相应的词序列。当候选词序列的词数量小于200时,在候选词序列的后面补充空白符,使得补充空白符后的候选词序列的词数量为200。
在一个实施例中,版块内容为格式化文本,候选词序列直接作为与版块内容相应的词序列。其中,格式化文本是具有特定格式的词的集合,比如词条标签版块中的版块内容是一系列的词集。
举例说明,词条名称为“周杰伦”的知识库词条中的词条标签版块的版块内容是“音乐作品,音乐人物,音乐,编剧,演员,歌手,导演,娱乐人物,制作人,人物”。当计算机设备对版块内容为格式化文本的版块内容进行分词后,可直接将候选词序列作为作为与版块内容相应的词序列。
上述实施例中,由于版块内容的呈现格式及版块内容的内容数量的差异,对不同呈现格式的版块内容进行分词得到候选词序列,采取不同的方式获取与版块内容相应的词序列。可避免由版块内容的呈现格式,或版块内容的数量差异等对待分类的知识库词条进行分类时产生的影响,进一步提高了知识库词条的分类准确率。
在一个实施例中,步骤S210包括:
S402,拼接多个卷积层通道所输出的向量,得到拼接向量。
具体地,计算机设备将多组词序列分别输入已训练的多通道卷积网络模型中的卷积层通道后,每个卷积层通道分别输出与输入的词序列相应的向量。输出的向量是已训练的多通道卷积网络模型中的卷积层对词向量进行卷积后输出的词序列的特征向量。按输出向量的顺序拼接多个卷积层通道所输出的向量,得到拼接向量。
S404,通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率。
具体地,计算机设备可将拼接的向量作为分类层的输入,通过已训练的多通道卷积网络模型中的分类层,对拼接向量进行降维后,再映射为对应于每个预设类别的概率。
举例说明,假如拼接向量是60维的向量,预设类别的数量为10个,则通过多通道卷积网络模型中的分类层,可将60维的拼接向量进行降维后,映射为对应于每个预设类别的概率,也就是,映射为一个10维的向量。其中,每一维的数据对应知识库词条属于该预设类别的概率。
S406,从映射的概率中选择最大的概率。
具体地,计算机设备可通过将待分类的知识库词条分类到每个预设类别的概率进行逐一比较,确定上述概率中的最大概率。
S408,将最大的概率所对应的预设类别,输出为知识库词条所属的类别。
具体地,计算机设备可将待分类的知识库词条分类到最大的概率所对应的预设类别。
图5示出了一个实施例中通过已训练的多通道卷积网络模型对知识库词条进行分类的示意图。参考图5,计算机设备可获取知识库词条中的词条简介版块、词条属性版块和词条标签版块的版块内容,将上述版块内容分别转换为相应的词序列,即,词条简介词序列、词条属性词序列和词条标签词序列。分别将词条简介词序列、词条属性词序列和词条标签词序列输入CNN-通道1、CNN-通道2和CNN-通道3中。拼接这卷积层通道所输出的向量,得到拼接向量,将拼接向量输入分类层,比如soft-max分类层。最后输出知识库词条所属的类别。
上述实施例中,拼接多个卷积层通道所输出的向量,得到拼接向量,通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率,再将最大的概率所对应的预设类别,输出为知识库词条所属的类别。可充分利用待分类的知识库词条中的各版块内容,使得各个词条版块的版块内容可以相互印证补充,提高了知识库词条的分类准确率。
在一个实施例中,每个卷积层通道包含预设的输入条件,每个词条版块相应的词序列包含有类型标识,步骤S208具体包括:读取所述词序列的类型标识;当读取的类型标识符合对应的卷积层通道的输入条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足输入条件。
其中,预设的输入条件是计算机设备预先设置的允许词序列输入的条件。每个卷积层通道包含预设的输入条件,具体可以是每个卷积层通道仅允许包含有特定的类型标识的词序列输入。类型标识是一种特定的标记,可以用来区分不同的类型。类型标识具体可以是字母、符号、图像以及汉字中的至少一种。在本实施例中,词序列的类型标识可以用来唯一标识相应的词条版块,比如词条版块的版块名称。
在一个实施例中,计算机设备将版块内容转换为相应的词序列后,可在词序列的首位插入类型标识,插入的类型标识用来唯一标识相应的词条版块,具体可以是数字、汉字或字母等,比如“1”、“词条简介”或“A”等。
具体地,计算机设备将词序列输入卷积层通道前,可读取待输入的词序列的类型标识,判断读取的类型标识是否符合对应的卷积层通道的输入条件。当读取的类型标识符合对应的卷积层通道的输入条件时,将词序列输入至对应的卷积层通道,否则提示词序列不满足输入条件。
举例说明,假设当前的一个卷积层通道的输入条件是仅允许包含有“词条简介”类型标识的词序列输入,当计算机设备提取的词序列的类型标识为“词条简介”时,计算机设备可将该词序列输入至对应的卷积层通道;当计算机设备提取的词序列的类型标识不是“词条简介”,比如是“词条属性”时,计算机设备则提示词序列不满足输入条件。
上述实施例中,根据每个卷积层通道包含的预设的输入条件,控制只有符合输入条件的类型标识所对应的词序列才可被输入,可保证输入至卷积层通道的词序列是正确的,避免了因词序列的误输入而影响多通道卷积网络模型的适用性,提高了知识库词条的分类准确率。
在一个实施例中,每个卷积层通道包含各自预设的词数量条件,步骤S208具体包括:确定所述词序列的词数量;当确定的词数量符合对应的卷积层通道的词数量条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足词数量条件。
其中,预设的词数量条件是计算机设备预先设置的输入卷积层通道的词序列的词数量所需满足的条件。每个卷积层通道包含各自预设的词数量条件,具体可以是每个卷积层通道仅允许词数量大于、小于或等于预设数量的词序列输入,或者是卷积层通道仅允许词数量在预设范围内的词序列输入。
具体地,计算机设备将词序列输入卷积层通道前,可统计词序列的词数量。判断统计的词数量是否符合对应的卷积层通道的词数量条件。当统计的词数量符合对应的卷积层通道的词数量条件时,将词序列输入至对应的卷积层通道,否则提示词序列不满足词数量条件。
在一个实施例中,计算机设备设置每个卷积层通道仅允许特定词数量的词序列输入。计算机将版块内容转换为相应的词序列时,将不同词条版块对应的词序列分别规整为与相应的卷积层通道所对应的特定词数量的词序列。再将词序列分别输入至已训练的多通道卷积网络模型中的对应卷积层通道。
上述实施例中,根据每个卷积层通道包含的各自预设的词数量条件,控制只有符合词数量条件的词序列才可被输入,可保证输入至卷积层通道的词序列是正确的,避免了因词序列的误输入而影响多通道卷积网络模型的适用性,提高了知识库词条的分类准确率。
如图6所示,在一个具体的实施例中,知识库词条分类方法包括以下步骤:
S602,获取待分类的知识库词条。
S604,获取待分类的知识库词条所包括的多个词条版块各自对应的词条版块位置。
S606,按照词条版块位置,从知识库词条中定位相应的词条版块。
S608,从定位的多个词条版块中获取版块内容。
S610,对版块内容进行分词。
S612,以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列。
S614,当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应。
S616,当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
S618,读取词序列的类型标识。
S620,当读取的类型标识符合对应的卷积层通道的输入条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足输入条件;每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列。
S622,拼接多个卷积层通道所输出的向量,得到拼接向量。
S624,通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率。
S626,从映射的概率中选择最大的概率。
S628,将最大的概率所对应的预设类别,输出为知识库词条所属的类别。
上述知识库词条分类方法,将待分类的知识库词条所包括的多个词条版块的版块内容转换为相应的词序列,通过将词序列分别输入已训练的多通道卷积网络模型中的,与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对待分类的知识库词条的多组词序列进行卷积处理。再通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。这样,可充分利用知识库词条中的多个词条版块的版块内容,使得各个词条版块的版块内容可以相互印证补充,避免了知识库词条各版块内容的质量参差不齐的问题,大大提高了知识库词条的分类准确率。
如图7所示,在一个实施例中,提供了一种用于知识库词条分类的模型训练方法。本实施例主要以该方法应用于上述图1中的计算机设备来举例说明。参照图7,该用于知识库词条分类的模型训练方法具体包括如下步骤:
S702,获取知识库词条样本和相应的类别标签。
其中,知识库词条样本是知识库词条的样本,知识库词条样本具有相应的类别标签,可以用来对多通道卷积网络模型进行训练。
在一个实施例中,计算机设备可获取知识库词条样本的词条名称,再根据词条名称通过无线网络或有线网络获取知识库中词条样本。或者,计算机设备也可根据词条名称,从自身存储的知识库中获取知识库词条样本。进一步地,计算机设备在获取了知识库词条样本后,可根据预设条件获取知识库词条样本所属的类别标签。预设条件,比如,当知识库词条样本中的词条版块的版块内容包含预设词集时,则将预设类别标签标注为该知识库词条样本相应的类别标签。
在一个实施例中,计算机设备可将多个预设条件分别与每个候选知识库词条的版块内容相匹配,当匹配成功时,将相应的候选知识库词条作为知识库词条样本。并且,将匹配成功的预设条件所对应的预设类别标签,标注为知识库词条样本相应的类别标签。
S704,获取知识库词条样本所包括的多个词条版块的版块内容。
在一个实施例中,知识库词条样本中包含标题和标题内容等。不同标题下的标题内容属于不同的版块内容。计算机设备可从知识库词条样本的词条名称开始扫描,将当前扫描到的标题内容归属于前次扫描到的标题。计算机设备可通过获取知识库词条样本中的多个标题,来获取多个词条版块的版块内容。
在一个实施例中,知识库词条样本中不同词条版块中的版块内容的呈现格式不同。比如,词条简介版块的版块内容的呈现格式是自然段落格式,词条属性版块的版块内容的呈现格式是表格格式,词条标签版块的版块内容的呈现格式是格式化词的格式等。计算机设备可根据知识库词条样本中的版块内容的呈现格式的不同,来确定不同的词条版块,再获取多个词条版块中的版块内容。
在一个实施例中,相同的词条版块在知识库词条样本中的顺序和位置相同,比如词条简介版块紧邻词条名称并在词条名称的下面,词条标签版块在知识库词条样本的最后位置处等。计算机设备可获取多个词条版块各自对应的词条版块位置,按照词条版块位置,从知识库词条样本中定位相应的词条版块,并从定位的多个词条版块中获取版块内容。
S706,转换版块内容为相应的词序列。
具体地,计算机设备可在获取到知识库词条样本所包括的多个词条版块的版块内容后,采用分词算法对版块内容进行分词。计算机设备对版块内容进行分词后,将分词得到的词进行词拼接,得到与版块内容相应的词序列。
在一个实施例中,计算机设备可将分词所得的词,按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列。在一个实施例中,计算机设备可将分词所得的词,以随机序列的方式进行词拼接,得到与版块内容相应的词序列。
S708,将词序列输入多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列。
具体地,计算机设备可获取到与词序列相应的版块内容所属的词条版块相对应的卷积层通道,再将知识库词条样本所对应的词序列分别输入多通道卷积网络模型中的对应的卷积层通道。其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列。
S710,通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出中间分类结果。
其中,中间分类结果是在训练过程中,向多通道卷积网络模型输入知识库词条样本后,由该多通道卷积网络模型所输出的分类结果。
具体地,计算机设备可将多个卷积层通道所输出的向量进行拼接,得到拼接向量。将拼接向量作为多通道卷积网络模型中的分类层的输入,通过分类层输出知识库词条样本所属的类别标签,将在模型训练过程中输出的类别标签作为中间分类结果。
在一个实施例中,在多通道卷积网络模型的训练过程中,计算机设备可通过多通道卷积网络模型中的分类层输出知识库词条样本所属的每个预设类别的概率,将知识库词条样本分类到最大概率所对应的类别,将该类别对应的类别标签作为中间分类结果。
S712,根据中间分类结果与类别标签的差异,调整多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
其中,训练停止条件是结束多通道卷积网络模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的多通道卷积网络模型的分类性能指标达到预设指标。调整多通道卷积网络模型的模型参数,是对多通道卷积网络模型的模型参数进行调整。
具体地,计算机设备可比较中间分类结果与预设类别标签的差异,从而朝减少差异的方向,调整多通道卷积网络模型的模型参数。如果调整模型参数后,不满足训练停止条件,则返回步骤S708继续训练,直到满足训练停止条件时结束训练。
在一个实施例中,中间分类结果与预设类别标签的差异可以用代价函数来衡量。代价函数是模型参数的函数,能够衡量多通道卷积网络模型的中间分类结果与预设类别标签之间的差异的函数。计算机设备可在代价函数的值小于预先设定的值时结束训练,得到用于对知识库词条进行分类的多通道卷积网络模型。可以选择交叉熵或均方误差等函数作为代价函数。
上述用于知识库词条分类的模型训练方法,通过将与知识库词条样本所包括的多个词条版块的版块内容相应的词序列,分别输入多通道卷积网络模型中的与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对知识库词条样本的多组词序列进行卷积处理。再通过分类层输出的中间分类结果与相应的类别标签的差异调整模型参数,来训练多通道卷积网络模型。这样,通过知识库词条样本中的多个词条版块的版块内容来训练多通道卷积网络模型,使得训练好的多通道卷积网络模型能对版块内容的质量参差不齐的各种知识库词条进行准确地分类,提高了用于知识库词条分类的模型的适用性。
在一个实施例中,步骤S702包括:
S802,获取候选知识库词条。
具体地,计算机设备可获取候选知识库词条的词条名称,再根据候选知识库词条的词条名称通过无线网络或有线网络获取知识库中的候选知识库词条。或者,计算机设备也可根据候选知识库词条的词条名称,从自身存储的知识库中获取候选知识库词条。
S804,确定候选知识库词条所包括的格式化文本。
其中,格式化文本是知识库词条中有特定呈现格式的词条内容。在一个实施例中,候选知识库词条中不同词条版块中的版块内容的呈现格式不同,比如,词条简介版块和词条正文版块等的版块内容是自然段落内容,词条属性版块和词条标签版块等的版块内容是格式化文本,例如以词格式呈现的格式化内容。计算机设备可根据候选知识库词条中的版块内容的不同呈现格式,来确定不同的词条版块,再获取候选知识库词条所包括的格式化文本
S806,将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配。
其中,标注强规则匹配条件是当候选知识库词条同时满足多个条件时,才能将预设类别标签标注为该候选知识库词条相应的类别标签。标注强规则匹配条件,是某个候选知识库词条属于某个标注强规则匹配条件所对应的类别的充分不必要条件。
关于标注强规则匹配条件,举例说明,对于“音乐”类别,可设置多个标注强规则匹配条件,比如,当候选知识库词条中词条标签版块的版块内容中必须同时包含“音乐作品”,“专辑”,“流行音乐”,“娱乐作品”和“单曲”中的三个及以上,才将该候选知识库词条标注为“音乐”类别。
具体地,计算机设备可预先设置多个标注强规则匹配条件,再通过多个标注强规则匹配条件对每个候选知识库词条的格式化文本进行自动匹配。
S808,当匹配成功时,将相应的候选知识库词条作为知识库词条样本。
具体地,当将预设的多条标注强规则匹配条件中有一条与候选知识库词条的格式化文本相匹配时,即可认为匹配成功,计算机设备将匹配成功的候选知识库词条作为知识库词条样本。
S810,获取匹配成功的标注强规则匹配条件所对应的预设类别标签。
具体地,计算机设备可在将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配时,将匹配成功的候选知识库词条及相应的标注强规则匹配条件所对应的预设类别标签记录下来,并获取标注强规则匹配条件所对应的预设类别标签。
S812,将预设类别标签标注为知识库词条样本相应的类别标签。
具体地,计算机设备可将与知识库词条样本匹配成功的标注强规则匹配条件所对应的预设类别标签,标注为该知识库词条样本的类别标签。
上述实施例中,计算机设备通过预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配,来获取知识库词条样本和相应的类别标签。这样通过多个标注强规则匹配条件,自动化地与候选知识库词条进行匹配,在保证了获取的知识库词条样本和相应的类别标签的准确性的前提下,提高了对候选知识库词条进行标注的效率。
在一个实施例中,用于知识库词条分类的模型训练方法还包括对知识库词条样本进行重采样的步骤,该步骤包括:
S902,获取对应相同类别标签的知识库词条样本的数量。
在一个实施例中,计算机设备在将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配时,分别通过计数器统计每个类别标签的匹配成功的候选知识库词条的数量。
在一个实施例中,计算机设备可通过扫描所有的知识库词条样本,来统计对应相同类别标签的知识库词条样本的数量。
S904,当数量大于预设数量时,将对应相同类别标签的知识库词条样本进行降采样,得到预设数量的知识库词条样本。
其中,降采样是通过抽样的方式保留部分预设数量的知识库词条样本。抽样是从对应相同类别标签的全部的知识库词条样本中抽取一部分的知识库词条样本。抽样的方式,比如,简单随机抽样、系统抽样或分层抽样等。
在一个实施例中,当对应相同类别标签的知识库词条样本的数量大于预设数量时,计算机设备可对对应该类别标签的知识库词条样本进行抽样,抽取预设数量的知识库词条样本。
在一个实施例中,当对应相同类别标签的知识库词条样本的数量大于预设数量时,计算机设备可对对应该类别标签的知识库词条样本进行抽样,抽取对应该类别标签的知识库词条样本的数量,与预设数量的差的数量的知识库词条样本,从对应相同类别标签的知识库词条样本中删除抽取的知识库词条样本,得到预设数量的知识库词条样本。
S906,当数量小于预设数量时,将对应相同类别标签的知识库词条样本进行过采样,得到预设数量的知识库词条样本。
其中,过采样是通过抽样的方式复制部分抽取的知识库词条样本。在一个实施例中,计算机设备可以对对应相同类别标签的知识库词条样本进行抽样,抽取预设数量与对应该类别标签的知识库词条样本的数量的差的数量的知识库词条样本。复制抽取的知识库词条样本。将原始的对应相同类别标签的知识库词条样本和复制的知识库词条样本一起,作为预设数量的知识库词条样本。
在一个实施例中,计算机设备可以对对应相同类别标签的知识库词条样本进行重复抽样,从对应相同类别标签的知识库词条样本中,重复抽取知识库词条样本,直至知识库词条样本的数量达到预设数量。
上述实施例中,为了避免不同类别标签对应的知识库词条样本的数量不均衡而导致的,在模型训练过程中对多通道卷积网络模型训练的影响,对知识库词条样本进行重采样。这样控制对应相同类别标签的知识库词条样本的数量为预设数量,可以提高对多通道卷积网络模型的模型训练效果和效率,使得训练好的多通道卷积网络模型能对知识库词条进行准确的分类。
在一个实施例中,步骤S704包括:获取多个词条版块各自对应的词条版块位置;按照词条版块位置,从知识库词条样本中定位相应的词条版块;从定位的多个词条版块中获取版块内容。
具体地,计算机设备可通过各个词条版块的格式或顺序的不同,获取多个词条版块各自对应的词条版块位置。再根据词条版块位置,从知识库词条样本中定位相应的词条版块,扫描定位的多个词条版块,从词条版块中获取版块内容。
上述实施例中,按照词条版块各自对应的词条版块位置,从知识库词条样本中定位相应的词条版块,再从定位的多个词条版块中获取版块内容,可自动、准确地获取多个词条版块中的版块内容。
在一个实施例中,转换版块内容为相应的词序列的步骤具体包括:对版块内容进行分词;以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列;当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应;当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
具体地,计算机设备可对获取的知识库词条样本的版块内容,采用分词算法进行分词。以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列。当版块内容为自然段落内容时,统计候选词序列的词数量,当候选词序列的词数量大于预设词数量时,只取候选词序列中的预设词数量的词,组成与版块内容相应的词序列;当候选词序列的词数量小于预设词数量时,在候选词序列的后面补充空白符,使得补充空白符后的候选词序列的词数量为预设词数量。当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
上述实施例中,由于版块内容的呈现格式及版块内容的内容数量的差异,对不同呈现格式的版块内容进行分词得到候选词序列,采取不同的方式获取与版块内容相应的词序列。在通过获取的词序列对多通道卷积网络模型进行模型训练时,可避免由版块内容的呈现格式,或版块内容的数量差异等对模型训练产生的影响,可以提高用于知识库词条分类的多通道卷积网络模型的分类准确率。
在一个实施例中,步骤710包括:拼接多个卷积层通道所输出的向量,得到拼接向量;通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将最大的概率所对应的预设类别,输出为中间分类结果。
具体地,计算机设备将知识库词条样本的多组词序列分别输入多通道卷积网络模型中的卷积层通道后,每个卷积层通道分别输出与输入的词序列相应的向量。按输出向量的顺序拼接多个卷积层通道所输出的向量,得到拼接向量。计算机设备将拼接的向量作为分类层的输入,通过多通道卷积网络模型中的分类层,对拼接向量进行降维后,再映射为对应于每个预设类别的概率。计算机设备将知识库词条样本分类到每个预设类别的概率进行逐一比较,确定上述概率中的最大概率,将最大的概率所对应的预设类别,输出为知识库词条样本所属的类别的中间分类结果。
上述实施例中,拼接多个卷积层通道所输出的向量,得到拼接向量,通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率,再将最大的概率所对应的预设类别,输出为知识库词条样本所属的类别的中间分类结果。可充分利用知识库词条样本中的各版块内容,使得各个词条版块的版块内容可以相互印证补充,提高了用于知识库词条分类的多通道卷积网络模型的分类准确率。
如图10所示,在一个具体的实施例中,用于知识库词条分类的模型训练方法包括以下步骤:
S1002,获取候选知识库词条。
S1004,确定候选知识库词条所包括的格式化文本。
S1006,将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配。
S1008,当匹配成功时,将相应的候选知识库词条作为知识库词条样本。
S1010,获取匹配成功的标注强规则匹配条件所对应的预设类别标签。
S1012,将预设类别标签标注为知识库词条样本相应的类别标签。
S1014,获取对应相同类别标签的知识库词条样本的数量。
S1016,当数量大于预设数量时,将对应相同类别标签的知识库词条样本进行降采样,得到预设数量的知识库词条样本。
S1018,当数量小于预设数量时,将对应相同类别标签的知识库词条样本进行过采样,得到预设数量的知识库词条样本。
S1020,获取多个词条版块各自对应的词条版块位置。
S1022,按照词条版块位置,从知识库词条样本中定位相应的词条版块。
S1024,从定位的多个词条版块中获取版块内容。
S1026,对版块内容进行分词。
S1028,以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列。
S1030,当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应。
S1032,当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
S1034,将词序列输入多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列。
S1036,拼接多个卷积层通道所输出的向量,得到拼接向量。
S1038,通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率。
S1040,从映射的概率中选择最大的概率。
S1042,将最大的概率所对应的预设类别,输出为中间分类结果。
S1044,根据中间分类结果与类别标签的差异,调整多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
上述用于知识库词条分类的模型训练方法,通过将与知识库词条样本所包括的多个词条版块的版块内容相应的词序列,分别输入多通道卷积网络模型中的与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对知识库词条样本的多组词序列进行卷积处理。再通过分类层输出的中间分类结果与相应的类别标签的差异调整模型参数,来训练多通道卷积网络模型。这样,通过知识库词条样本中的多个词条版块的版块内容来训练多通道卷积网络模型,使得训练好的多通道卷积网络模型能对版块内容的质量参差不齐的各种知识库词条进行准确地分类,提高了用于知识库词条分类的模型的适用性。
图6为一个实施例中知识库词条分类方法的流程示意图。应该理解的是,虽然图6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,知识库词条包括多个词条板块,比如词条简介版块、词条属性版块、词条正文版块、参考资料版块和词条标签版块等。举例说明,参照图11,图11中词条名称为“张三”的知识库词条包括:词条名称1101、词条简介版块1102、词条属性版块1103、词条正文版块1104、参考资料版块1105和词条标签版块1106。词条版块的版块内容为各个板块中的内容。通过上述知识库词条分类方法可对该词条进行分类,得到该词条所属的类别,比如对词条名称为“张三”的知识库词条进行分类,得到“虚拟人物”类别。
图12示出了一个实施例中知识图谱的结构示意图,参照图12,该知识图谱有多级类别,比如一级类别包括历史、艺术、人物、体育和科技类别等;二级类别比如,人物类别包括虚拟人物、组合人物和娱乐人物类别等;三级类别比如娱乐人物类别包括歌手和演员类别等。其中,知识图谱中结构化地存储有各种类别的知识,比如相应类别的知识库词条,或者从网络上获取的网页或文档等其他形式的知识。
在具体的应用场景中,用户在知识图谱中搜索某个词条,当知识图谱中存在该词条时,就会在知识图谱相应的类别下显示该词条的内容。当知识图谱中不存在该词条时,计算机设备可通过网络抓取维基百科或搜狗百科等知识库中的词条。计算机设备通过已训练的多通道卷积网络模型对抓取的知识库词条进行分类,得到知识库词条所属的类别。再将抓取的知识库词条存储至知识图谱中该类别所对应的存储地址。比如,当用户输入的是“张三”,但知识图谱中不存在“张三”的词条,计算机设备可抓取“张三”的搜狗百科词条,当“张三”的搜狗百科词条所属的类别为“虚拟人物”类别时,计算机设备可将该词条存储至知识图谱中“虚拟人物”的类别下,以丰富和更新知识图谱。
如图13所示,在一个实施例中,提供了一种知识库词条分类装置1300,包括:获取模块1301、转换模块1302、输入模块1303、输出模块1304。
获取模块1301,用于获取待分类的知识库词条。
获取模块1301还用于获取知识库词条所包括的多个词条版块的版块内容。
转换模块1302,用于转换版块内容为相应的词序列。
输入模块1303,用于将词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列。
输出模块1304,用于通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。
上述知识库词条分类装置,将待分类的知识库词条所包括的多个词条版块的版块内容转换为相应的词序列,通过将词序列分别输入已训练的多通道卷积网络模型中的,与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对待分类的知识库词条的多组词序列进行卷积处理。再通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。这样,可充分利用知识库词条中的多个词条版块的版块内容,使得各个词条版块的版块内容可以相互印证补充,避免了知识库词条各版块内容的质量参差不齐的问题,大大提高了知识库词条的分类准确率。
在一个实施例中,获取模块1301还用于获取多个词条版块各自对应的词条版块位置;按照词条版块位置,从知识库词条中定位相应的词条版块;从定位的多个词条版块中获取版块内容。
上述实施例中,按照词条版块各自对应的词条版块位置,从知识库词条中定位相应的词条版块,再从定位的多个词条版块中获取版块内容,可自动、准确地获取多个词条版块中的版块内容。
在一个实施例中,转换模块1302还用于对版块内容进行分词;以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列。
上述实施例中,对版块内容进行分词,再以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,可以得到与版块内容相应的词序列。
在一个实施例中,转换模块1302还用于以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列;当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应;当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
上述实施例中,由于版块内容的呈现格式及版块内容的内容数量的差异,对不同呈现格式的版块内容进行分词得到候选词序列,采取不同的方式获取与版块内容相应的词序列。可避免由版块内容的呈现格式,或版块内容的数量差异等对待分类的知识库词条进行分类时产生的影响,进一步提高了知识库词条的分类准确率。
在一个实施例中,输出模块1304还用于拼接多个卷积层通道所输出的向量,得到拼接向量;通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将最大的概率所对应的预设类别,输出为知识库词条所属的类别。
上述实施例中,拼接多个卷积层通道所输出的向量,得到拼接向量,通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率,再将最大的概率所对应的预设类别,输出为知识库词条所属的类别。可充分利用待分类的知识库词条中的各版块内容,使得各个词条版块的版块内容可以相互印证补充,提高了知识库词条的分类准确率。
在一个实施例中,每个卷积层通道包含预设的输入条件,每个词条版块相应的词序列包含有类型标识,输入模块1303还用于读取所述词序列的类型标识;当读取的类型标识符合对应的卷积层通道的输入条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足输入条件。
上述实施例中,根据每个卷积层通道包含的预设的输入条件,控制只有符合输入条件的类型标识所对应的词序列才可被输入,可保证输入至卷积层通道的词序列是正确的,避免了因词序列的误输入而影响多通道卷积网络模型的适用性,提高了知识库词条的分类准确率。
在一个实施例中,每个卷积层通道包含各自预设的词数量条件,输入模块1303还用于确定所述词序列的词数量;当确定的词数量符合对应的卷积层通道的词数量条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足词数量条件。
上述实施例中,根据每个卷积层通道包含的各自预设的词数量条件,控制只有符合词数量条件的词序列才可被输入,可保证输入至卷积层通道的词序列是正确的,避免了因词序列的误输入而影响多通道卷积网络模型的适用性,提高了知识库词条的分类准确率。
如图14所示,在一个实施例中,提供了一种用于知识库词条分类的模型训练装置1400,包括获取模块1401、转换模块1402、输入模块1403、输出模块1404、调整模块1405。
获取模块1401,用于获取知识库词条样本和相应的类别标签。
获取模块1401还用于获取知识库词条样本所包括的多个词条版块的版块内容。
转换模块1402,用于转换版块内容为相应的词序列。
输入模块1403,用于将词序列输入多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列。
输出模块1404,用于通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出中间分类结果。
调整模块1405,用于根据中间分类结果与类别标签的差异,调整多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
上述用于知识库词条分类的模型训练方法,通过将与知识库词条样本所包括的多个词条版块的版块内容相应的词序列,分别输入多通道卷积网络模型中的与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对知识库词条样本的多组词序列进行卷积处理。再通过分类层输出的中间分类结果与相应的类别标签的差异调整模型参数,来训练多通道卷积网络模型。这样,通过知识库词条样本中的多个词条版块的版块内容来训练多通道卷积网络模型,使得训练好的多通道卷积网络模型能对版块内容的质量参差不齐的各种知识库词条进行准确地分类,提高了用于知识库词条分类的模型的适用性。
在一个实施例中,获取模块1401还用于获取候选知识库词条;确定候选知识库词条所包括的格式化文本;将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配;当匹配成功时,将相应的候选知识库词条作为知识库词条样本;获取匹配成功的标注强规则匹配条件所对应的预设类别标签;将预设类别标签标注为知识库词条样本相应的类别标签。
上述实施例中,计算机设备通过预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配,来获取知识库词条样本和相应的类别标签。这样通过多个标注强规则匹配条件,自动化地与候选知识库词条进行匹配,在保证了获取的知识库词条样本和相应的类别标签的准确性的前提下,提高了对候选知识库词条进行标注的效率。
在一个实施例中,获取模块1401还用于获取对应相同类别标签的知识库词条样本的数量;当数量大于预设数量时,将对应相同类别标签的知识库词条样本进行降采样,得到预设数量的知识库词条样本;当数量小于预设数量时,将对应相同类别标签的知识库词条样本进行过采样,得到预设数量的知识库词条样本。
上述实施例中,为了避免不同类别标签对应的知识库词条样本的数量不均衡而导致的,在模型训练过程中对多通道卷积网络模型训练的影响,对知识库词条样本进行重采样。这样控制对应相同类别标签的知识库词条样本的数量为预设数量,可以提高对多通道卷积网络模型的模型训练效果和效率,使得训练好的多通道卷积网络模型能对知识库词条进行准确的分类。
在一个实施例中,获取模块1401还用于获取多个词条版块各自对应的词条版块位置;按照词条版块位置,从知识库词条样本中定位相应的词条版块;从定位的多个词条版块中获取版块内容。
上述实施例中,按照词条版块各自对应的词条版块位置,从知识库词条样本中定位相应的词条版块,再从定位的多个词条版块中获取版块内容,可自动、准确地获取多个词条版块中的版块内容。
在一个实施例中,转换模块1402还用于对版块内容进行分词;以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列;当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应;当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
上述实施例中,由于版块内容的呈现格式及版块内容的内容数量的差异,对不同呈现格式的版块内容进行分词得到候选词序列,采取不同的方式获取与版块内容相应的词序列。在通过获取的词序列对多通道卷积网络模型进行模型训练时,可避免由版块内容的呈现格式,或版块内容的数量差异等对模型训练产生的影响,可以提高用于知识库词条分类的多通道卷积网络模型的分类准确率。
在一个实施例中,输出模块1404还用于拼接多个卷积层通道所输出的向量,得到拼接向量;通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将最大的概率所对应的预设类别,输出为中间分类结果。
上述实施例中,拼接多个卷积层通道所输出的向量,得到拼接向量,通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率,再将最大的概率所对应的预设类别,输出为知识库词条样本所属的类别的中间分类结果。可充分利用知识库词条样本中的各版块内容,使得各个词条版块的版块内容可以相互印证补充,提高了用于知识库词条分类的多通道卷积网络模型的分类准确率。
在一个实施例中,本申请提供的知识库词条分类装置和/或用于知识库词条分类的模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图1所示的计算机设备上运行。计算机设备的存储器中可存储组成该知识库词条分类装置和/或用于知识库词条分类的模型训练装置的各个程序模块。比如,图13所示的获取模块、转换模块、输入和输出模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的知识库词条分类方法中的步骤。
例如,图13所示的计算机设备可以通过如图1所示的知识库词条分类装置中的获取模块执行步骤S202和步骤S204。计算机设备可通过转换模块执行步骤S206。计算机设备可通过输入模块执行步骤S208。计算机设备可通过输出模块执行步骤S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待分类的知识库词条;获取知识库词条所包括的多个词条版块的版块内容;转换版块内容为相应的词序列;将词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。
在一个实施例中,计算机程序使得处理器在执行获取知识库词条所包括的多个词条版块的版块内容的步骤时具体执行以下步骤:获取多个词条版块各自对应的词条版块位置;按照词条版块位置,从知识库词条中定位相应的词条版块;从定位的多个词条版块中获取版块内容。
在一个实施例中,计算机程序使得处理器在执行转换版块内容为相应的词序列的步骤时具体执行以下步骤:对版块内容进行分词;以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列。
在一个实施例中,计算机程序使得处理器在执行以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列的步骤时具体执行以下步骤:以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列;当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应;当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
在一个实施例中,计算机程序使得处理器在执行通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别的步骤时具体执行以下步骤:拼接多个卷积层通道所输出的向量,得到拼接向量;通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将最大的概率所对应的预设类别,输出为知识库词条所属的类别。
在一个实施例中,每个卷积层通道包含预设的输入条件,每个词条版块相应的词序列包含有类型标识,计算机程序使得处理器在执行将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道的步骤时具体执行以下步骤:读取所述词序列的类型标识;当读取的类型标识符合对应的卷积层通道的输入条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足输入条件。
在一个实施例中,每个卷积层通道包含各自预设的词数量条件,计算机程序使得处理器在执行将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道的步骤时具体执行以下步骤:确定所述词序列的词数量;当确定的词数量符合对应的卷积层通道的词数量条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足词数量条件。
上述计算机设备,将待分类的知识库词条所包括的多个词条版块的版块内容转换为相应的词序列,通过将词序列分别输入已训练的多通道卷积网络模型中的,与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对待分类的知识库词条的多组词序列进行卷积处理。再通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。这样,可充分利用知识库词条中的多个词条版块的版块内容,使得各个词条版块的版块内容可以相互印证补充,避免了知识库词条各版块内容的质量参差不齐的问题,大大提高了知识库词条的分类准确率。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取知识库词条样本和相应的类别标签;获取知识库词条样本所包括的多个词条版块的版块内容;转换版块内容为相应的词序列;将词序列输入多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出中间分类结果;根据中间分类结果与类别标签的差异,调整多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,计算机程序使得处理器在执行获取知识库词条样本和相应的类别标签的步骤时具体执行以下步骤:获取候选知识库词条;确定候选知识库词条所包括的格式化文本;将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配;当匹配成功时,将相应的候选知识库词条作为知识库词条样本;获取匹配成功的标注强规则匹配条件所对应的预设类别标签;将预设类别标签标注为知识库词条样本相应的类别标签。
在一个实施例中,计算机程序使得还处理器执行以下步骤:获取对应相同类别标签的知识库词条样本的数量;当数量大于预设数量时,将对应相同类别标签的知识库词条样本进行降采样,得到预设数量的知识库词条样本;当数量小于预设数量时,将对应相同类别标签的知识库词条样本进行过采样,得到预设数量的知识库词条样本。
在一个实施例中,计算机程序使得处理器在执行获取知识库词条样本所包括的多个词条版块的版块内容的步骤时具体执行以下步骤:获取多个词条版块各自对应的词条版块位置;按照词条版块位置,从知识库词条样本中定位相应的词条版块;从定位的多个词条版块中获取版块内容。
在一个实施例中,计算机程序使得处理器在执行转换版块内容为相应的词序列的步骤时具体执行以下步骤:对版块内容进行分词;以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列;当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应;当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
在一个实施例中,计算机程序使得处理器在执行通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出中间分类结果的步骤时具体执行以下步骤:拼接多个卷积层通道所输出的向量,得到拼接向量;通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将最大的概率所对应的预设类别,输出为中间分类结果。
上述计算机设备,通过将与知识库词条样本所包括的多个词条版块的版块内容相应的词序列,分别输入多通道卷积网络模型中的与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对知识库词条样本的多组词序列进行卷积处理。再通过分类层输出的中间分类结果与相应的类别标签的差异调整模型参数,来训练多通道卷积网络模型。这样,通过知识库词条样本中的多个词条版块的版块内容来训练多通道卷积网络模型,使得训练好的多通道卷积网络模型能对版块内容的质量参差不齐的各种知识库词条进行准确地分类,提高了用于知识库词条分类的模型的适用性。
一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:获取待分类的知识库词条;获取知识库词条所包括的多个词条版块的版块内容;转换版块内容为相应的词序列;将词序列输入已训练的多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。
在一个实施例中,计算机程序使得处理器在执行获取知识库词条所包括的多个词条版块的版块内容的步骤时具体执行以下步骤:获取多个词条版块各自对应的词条版块位置;按照词条版块位置,从知识库词条中定位相应的词条版块;从定位的多个词条版块中获取版块内容。
在一个实施例中,计算机程序使得处理器在执行转换版块内容为相应的词序列的步骤时具体执行以下步骤:对版块内容进行分词;以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列。
在一个实施例中,计算机程序使得处理器在执行以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到与版块内容相应的词序列的步骤时具体执行以下步骤:以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列;当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应;当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
在一个实施例中,计算机程序使得处理器在执行通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别的步骤时具体执行以下步骤:拼接多个卷积层通道所输出的向量,得到拼接向量;通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将最大的概率所对应的预设类别,输出为知识库词条所属的类别。
在一个实施例中,每个卷积层通道包含预设的输入条件,每个词条版块相应的词序列包含有类型标识,计算机程序使得处理器在执行将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道的步骤时具体执行以下步骤:读取所述词序列的类型标识;当读取的类型标识符合对应的卷积层通道的输入条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足输入条件。
在一个实施例中,每个卷积层通道包含各自预设的词数量条件,计算机程序使得处理器在执行将所述词序列输入已训练的多通道卷积网络模型中的对应卷积层通道的步骤时具体执行以下步骤:确定所述词序列的词数量;当确定的词数量符合对应的卷积层通道的词数量条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足词数量条件。
上述计算机可读存储介质,将待分类的知识库词条所包括的多个词条版块的版块内容转换为相应的词序列,通过将词序列分别输入已训练的多通道卷积网络模型中的,与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对待分类的知识库词条的多组词序列进行卷积处理。再通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出知识库词条所属的类别。这样,可充分利用知识库词条中的多个词条版块的版块内容,使得各个词条版块的版块内容可以相互印证补充,避免了知识库词条各版块内容的质量参差不齐的问题,大大提高了知识库词条的分类准确率。
一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:获取知识库词条样本和相应的类别标签;获取知识库词条样本所包括的多个词条版块的版块内容;转换版块内容为相应的词序列;将词序列输入多通道卷积网络模型中的对应卷积层通道;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出中间分类结果;根据中间分类结果与类别标签的差异,调整多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
在一个实施例中,计算机程序使得处理器在执行获取知识库词条样本和相应的类别标签的步骤时具体执行以下步骤:获取候选知识库词条;确定候选知识库词条所包括的格式化文本;将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配;当匹配成功时,将相应的候选知识库词条作为知识库词条样本;获取匹配成功的标注强规则匹配条件所对应的预设类别标签;将预设类别标签标注为知识库词条样本相应的类别标签。
在一个实施例中,计算机程序使得还处理器执行以下步骤:获取对应相同类别标签的知识库词条样本的数量;当数量大于预设数量时,将对应相同类别标签的知识库词条样本进行降采样,得到预设数量的知识库词条样本;当数量小于预设数量时,将对应相同类别标签的知识库词条样本进行过采样,得到预设数量的知识库词条样本。
在一个实施例中,计算机程序使得处理器在执行获取知识库词条样本所包括的多个词条版块的版块内容的步骤时具体执行以下步骤:获取多个词条版块各自对应的词条版块位置;按照词条版块位置,从知识库词条样本中定位相应的词条版块;从定位的多个词条版块中获取版块内容。
在一个实施例中,计算机程序使得处理器在执行转换版块内容为相应的词序列的步骤时具体执行以下步骤:对版块内容进行分词;以词为单位,将分词所得的词按照在版块内容中的位置进行词拼接,得到候选词序列;当版块内容为自然段落内容时,将候选词序列规整为预设词数量的词序列,且规整后得到的词序列与版块内容相应;当版块内容为格式化文本时,将候选词序列直接作为与版块内容相应的词序列。
在一个实施例中,计算机程序使得处理器在执行通过多通道卷积网络模型中的分类层,根据多个卷积层通道所输出的向量进行分类,输出中间分类结果的步骤时具体执行以下步骤:拼接多个卷积层通道所输出的向量,得到拼接向量;通过多通道卷积网络模型中的分类层,将拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将最大的概率所对应的预设类别,输出为中间分类结果。
上述计算机可读存储介质,通过将与知识库词条样本所包括的多个词条版块的版块内容相应的词序列,分别输入多通道卷积网络模型中的与词序列所属的词条版块相对应的卷积层通道,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列,可对知识库词条样本的多组词序列进行卷积处理。再通过分类层输出的中间分类结果与相应的类别标签的差异调整模型参数,来训练多通道卷积网络模型。这样,通过知识库词条样本中的多个词条版块的版块内容来训练多通道卷积网络模型,使得训练好的多通道卷积网络模型能对版块内容的质量参差不齐的各种知识库词条进行准确地分类,提高了用于知识库词条分类的模型的适用性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (24)

1.一种知识库词条分类方法,包括:
获取待分类的知识库词条;
获取所述知识库词条所包括的多个词条版块的版块内容,其中,所述词条版块是知识库词条中具有区域特征的连成一片的词条区域,至少包括词条简介版块、词条属性版块、词条正文版块、参考资料版块和词条标签版块中的一种,多个词条版块的版块内容用于构成一个完整的知识库词条;
转换每个所述版块内容为相应的词序列,所述词序列是从板块内容中获取的具有一定排列顺序的词集合;
在词序列符合对应的卷积层通道的预设的输入条件时,将不同词条版块对应的所述词序列分别输入已训练的多通道卷积网络模型中,与词序列所属的词条板块相对应的卷积层通道进行卷积处理;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;
按输出向量的顺序拼接多个所述卷积层通道所输出的向量,得到拼接向量,通过所述多通道卷积网络模型中的分类层,根据所述拼接向量进行分类,输出所述知识库词条所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述获取所述知识库词条所包括的多个词条版块的版块内容,包括:
获取多个词条版块各自对应的词条版块位置;
按照所述词条版块位置,从所述知识库词条中定位相应的词条版块;
从定位的多个词条版块中获取版块内容。
3.根据权利要求1所述的方法,其特征在于,所述转换每个所述版块内容为相应的词序列,包括:
对每个所述版块内容进行分词;
以词为单位,将分词所得的词按照在所述版块内容中的位置进行词拼接,得到与所述版块内容相应的词序列。
4.根据权利要求3所述的方法,其特征在于,所述以词为单位,将分词所得的词按照在所述版块内容中的位置进行词拼接,得到与所述版块内容相应的词序列,包括:
以词为单位,将分词所得的词按照在所述版块内容中的位置进行词拼接,得到候选词序列;
当所述版块内容为自然段落内容时,将所述候选词序列规整为预设词数量的词序列,且规整后得到的所述词序列与所述版块内容相对应;
当所述版块内容为格式化文本时,将所述候选词序列直接作为与所述版块内容相应的词序列。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述通过所述多通道卷积网络模型中的分类层,根据所述拼接向量进行分类,输出所述知识库词条所属的类别,包括:
通过所述多通道卷积网络模型中的分类层,将所述拼接向量映射为对应于每个预设类别的概率;
从映射的概率中选择最大的概率;
将所述最大的概率所对应的预设类别,输出为所述知识库词条所属的类别。
6.根据权利要求1所述的方法,其特征在于,每个卷积层通道包含预设的输入条件,每个词条版块相应的词序列包含有类型标识,所述在词序列符合对应的卷积层通道的预设的输入条件时,将不同词条版块对应的所述词序列分别输入已训练的多通道卷积网络模型中,与词序列所属的词条板块相对应的卷积层通道的步骤包括:
读取所述词序列的类型标识;
当读取的类型标识符合对应的卷积层通道的输入条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足输入条件。
7.根据权利要求1所述的方法,其特征在于,每个卷积层通道包含各自预设的词数量条件,所述在词序列符合对应的卷积层通道的预设的输入条件时,将不同词条版块对应的所述词序列分别输入已训练的多通道卷积网络模型中,与词序列所属的词条板块相对应的卷积层通道的步骤包括:
确定所述词序列的词数量;
当确定的词数量符合对应的卷积层通道的词数量条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足词数量条件。
8.一种用于知识库词条分类的模型训练方法,包括:
获取知识库词条样本和相应的类别标签;
获取所述知识库词条样本所包括的多个词条版块的版块内容,其中,所述词条版块是知识库词条中具有区域特征的连成一片的词条区域,包括词条简介版块、词条属性版块、词条正文版块、参考资料版块和词条标签版块中的至少一种,多个词条版块的版块内容用于构成一个完整的知识库词条;
转换每个所述版块内容为相应的词序列,所述词序列是从板块内容中获取的具有一定排列顺序的词集合;
在词序列符合对应的卷积层通道的预设的输入条件时,将不同词条版块对应的所述词序列分别输入多通道卷积网络模型中,与词序列所属的词条板块相对应的卷积层通道进行卷积处理;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;
按输出向量的顺序拼接多个所述卷积层通道所输出的向量,得到拼接向量,通过所述多通道卷积网络模型中的分类层,根据所述拼接向量进行分类,输出中间分类结果;
根据所述中间分类结果与所述类别标签的差异,调整所述多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
9.根据权利要求8所述的方法,其特征在于,所述获取知识库词条样本和相应的类别标签,包括:
获取候选知识库词条;
确定所述候选知识库词条所包括的格式化文本;
将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配;
当匹配成功时,将相应的候选知识库词条作为知识库词条样本;
获取匹配成功的标注强规则匹配条件所对应的预设类别标签;
将所述预设类别标签标注为所述知识库词条样本相应的类别标签。
10.根据权利要求8所述的方法,所述方法还包括:
获取对应相同类别标签的知识库词条样本的数量;
当所述数量大于预设数量时,将所述对应相同类别标签的知识库词条样本进行降采样,得到预设数量的知识库词条样本;
当所述数量小于所述预设数量时,将所述对应相同类别标签的知识库词条样本进行过采样,得到预设数量的知识库词条样本。
11.根据权利要求8至10中任一项所述的方法,其特征在于,所述通过所述多通道卷积网络模型中的分类层,根据所述拼接向量进行分类,输出中间分类结果,包括:
通过所述多通道卷积网络模型中的分类层,将所述拼接向量映射为对应于每个预设类别的概率;
从映射的概率中选择最大的概率;
将所述最大的概率所对应的预设类别,输出为中间分类结果。
12.一种知识库词条分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类的知识库词条;
所述获取模块还用于获取所述知识库词条所包括的多个词条版块的版块内容,其中,所述词条版块是知识库词条中具有区域特征的连成一片的词条区域,包括词条简介版块、词条属性版块、词条正文版块、参考资料版块和词条标签版块中的至少一种,多个词条版块的版块内容用于构成一个完整的知识库词条;
转换模块,用于转换每个所述版块内容为相应的词序列,所述词序列是从板块内容中获取的具有一定排列顺序的词集合;
输入模块,用于在词序列符合对应的卷积层通道的预设的输入条件时,将不同词条版块对应的所述词序列分别输入已训练的多通道卷积网络模型中,与词序列所属的词条板块相对应的卷积层通道进行卷积处理;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;
输出模块,用于按输出向量的顺序拼接多个所述卷积层通道所输出的向量,得到拼接向量,通过所述多通道卷积网络模型中的分类层,根据所述拼接向量进行分类,输出所述知识库词条所属的类别。
13.根据权利要求12所述的装置,其特征在于,所述获取模块,还用于获取多个词条版块各自对应的词条版块位置;按照所述词条版块位置,从所述知识库词条中定位相应的词条版块;从定位的多个词条版块中获取版块内容。
14.根据权利要求12所述的装置,其特征在于,所述转换模块,还用于对每个所述版块内容进行分词;以词为单位,将分词所得的词按照在所述版块内容中的位置进行词拼接,得到与所述版块内容相应的词序列。
15.根据权利要求14所述的装置,其特征在于,所述转换模块,还用于以词为单位,将分词所得的词按照在所述版块内容中的位置进行词拼接,得到候选词序列;当所述版块内容为自然段落内容时,将所述候选词序列规整为预设词数量的词序列,且规整后得到的所述词序列与所述版块内容相对应;当所述版块内容为格式化文本时,将所述候选词序列直接作为与所述版块内容相应的词序列。
16.根据权利要求12至15中任一项所述的装置,其特征在于,所述输出模块,还用于通过所述多通道卷积网络模型中的分类层,将所述拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将所述最大的概率所对应的预设类别,输出为所述知识库词条所属的类别。
17.根据权利要求12所述的装置,其特征在于,每个卷积层通道包含预设的输入条件,每个词条版块相应的词序列包含有类型标识,所述输入模块,还用于:读取所述词序列的类型标识;当读取的类型标识符合对应的卷积层通道的输入条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足输入条件。
18.根据权利要求12所述的装置,其特征在于,每个卷积层通道包含各自预设的词数量条件,所述输入模块,还用于确定所述词序列的词数量;当确定的词数量符合对应的卷积层通道的词数量条件时,将所述词序列输入至对应的卷积层通道,否则提示所述词序列不满足词数量条件。
19.一种用于知识库词条分类的模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取知识库词条样本和相应的类别标签;
所述获取模块还用于获取所述知识库词条样本所包括的多个词条版块的版块内容,其中,所述词条版块是知识库词条中具有区域特征的连成一片的词条区域,包括词条简介版块、词条属性版块、词条正文版块、参考资料版块和词条标签版块中的至少一种,多个词条版块的版块内容用于构成一个完整的知识库词条;
转换模块,用于转换每个所述版块内容为相应的词序列,所述词序列是从板块内容中获取的具有一定排列顺序的词集合;
输入模块,用于在词序列符合对应的卷积层通道的预设的输入条件时,将不同词条版块对应的所述词序列分别输入多通道卷积网络模型中,与词序列所属的词条板块相对应的卷积层通道进行卷积处理;其中,每个卷积层通道至少包含一个卷积神经网络,每个卷积层通道的卷积神经网络处理一个词条版块相应的词序列;
输出模块,用于按输出向量的顺序拼接多个所述卷积层通道所输出的向量,得到拼接向量,通过所述多通道卷积网络模型中的分类层,根据所述拼接向量进行分类,输出中间分类结果;
调整模块,用于根据所述中间分类结果与所述类别标签的差异,调整所述多通道卷积网络模型的模型参数,并继续训练,直至满足训练停止条件时结束训练。
20.根据权利要求19所述的装置,其特征在于,所述获取模块,还用于获取候选知识库词条;确定所述候选知识库词条所包括的格式化文本;将预设的标注强规则匹配条件分别与每个候选知识库词条的格式化文本匹配;当匹配成功时,将相应的候选知识库词条作为知识库词条样本;获取匹配成功的标注强规则匹配条件所对应的预设类别标签;将所述预设类别标签标注为所述知识库词条样本相应的类别标签。
21.根据权利要求19所述的装置,其特征在于,所述获取模块,还用于获取对应相同类别标签的知识库词条样本的数量;当所述数量大于预设数量时,将所述对应相同类别标签的知识库词条样本进行降采样,得到预设数量的知识库词条样本;当所述数量小于所述预设数量时,将所述对应相同类别标签的知识库词条样本进行过采样,得到预设数量的知识库词条样本。
22.根据权利要求19至21中任一项所述的装置,其特征在于,所述输出模块,还用于通过所述多通道卷积网络模型中的分类层,将所述拼接向量映射为对应于每个预设类别的概率;从映射的概率中选择最大的概率;将所述最大的概率所对应的预设类别,输出为中间分类结果。
23.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
24.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201810077103.6A 2018-01-26 2018-01-26 知识库词条分类方法和装置、模型训练方法和装置 Active CN108304530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810077103.6A CN108304530B (zh) 2018-01-26 2018-01-26 知识库词条分类方法和装置、模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810077103.6A CN108304530B (zh) 2018-01-26 2018-01-26 知识库词条分类方法和装置、模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN108304530A CN108304530A (zh) 2018-07-20
CN108304530B true CN108304530B (zh) 2022-03-18

Family

ID=62866618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810077103.6A Active CN108304530B (zh) 2018-01-26 2018-01-26 知识库词条分类方法和装置、模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN108304530B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255128B (zh) * 2018-10-11 2023-11-28 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
CN109684096A (zh) * 2018-12-29 2019-04-26 北京超图软件股份有限公司 一种软件程序资源化处理方法及装置
CN110647745A (zh) * 2019-07-24 2020-01-03 浙江工业大学 基于深度学习的恶意软件汇编格式的检测方法
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110866099B (zh) * 2019-10-30 2023-05-09 上海益商网络科技有限公司 一种基于智能音箱语音交互的智能管家服务方法及系统
CN110990627A (zh) * 2019-12-05 2020-04-10 北京奇艺世纪科技有限公司 一种知识图谱构建的方法、装置、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN105893556A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN106570148A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于卷积神经网络的属性抽取方法
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN107291822A (zh) * 2017-05-24 2017-10-24 北京邮电大学 基于深度学习的问题分类模型训练方法、分类方法及装置
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107392147A (zh) * 2017-07-20 2017-11-24 北京工商大学 一种基于改进的生成式对抗网络的图像语句转换方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6308149B1 (en) * 1998-12-16 2001-10-23 Xerox Corporation Grouping words with equivalent substrings by automatic clustering based on suffix relationships
US20100161701A1 (en) * 2008-12-18 2010-06-24 Microsoft Corporation Polynomial representation for symbolic computation
CN101430680B (zh) * 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US8745099B2 (en) * 2011-11-11 2014-06-03 Håkan Wolgé Dimension limits in information mining and analysis
CN103309857B (zh) * 2012-03-06 2018-11-09 深圳市世纪光速信息技术有限公司 一种分类语料确定方法和设备
CN104281649B (zh) * 2014-09-09 2017-04-19 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
US20160225030A1 (en) * 2015-02-02 2016-08-04 Adobe Systems Incorporated Social data collection and automated social replies
JP6623774B2 (ja) * 2016-01-14 2019-12-25 富士通株式会社 パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
CN106570181B (zh) * 2016-11-09 2020-07-28 武汉泰迪智慧科技有限公司 基于上下文管理的智能交互方法及系统
CN106855853A (zh) * 2016-12-28 2017-06-16 成都数联铭品科技有限公司 基于深度神经网络的实体关系抽取系统
CN106709478A (zh) * 2017-02-22 2017-05-24 桂林电子科技大学 一种行人图像特征分类方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404632A (zh) * 2014-09-15 2016-03-16 深港产学研基地 基于深度神经网络对生物医学文本序列化标注的系统和方法
CN105893556A (zh) * 2016-03-31 2016-08-24 北京奇虎科技有限公司 基于百科内容的词条分类方法及装置
CN106570148A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于卷积神经网络的属性抽取方法
CN107291822A (zh) * 2017-05-24 2017-10-24 北京邮电大学 基于深度学习的问题分类模型训练方法、分类方法及装置
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107392147A (zh) * 2017-07-20 2017-11-24 北京工商大学 一种基于改进的生成式对抗网络的图像语句转换方法

Also Published As

Publication number Publication date
CN108304530A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304530B (zh) 知识库词条分类方法和装置、模型训练方法和装置
CN112711660A (zh) 文本分类样本的构建方法和文本分类模型的训练方法
US11966455B2 (en) Text partitioning method, text classifying method, apparatus, device and storage medium
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN114297439A (zh) 一种短视频标签确定方法、系统、装置及存储介质
CN115129959A (zh) 一种档案智能鉴定方法、装置及系统
US11868714B2 (en) Facilitating generation of fillable document templates
CN111357015B (zh) 文本转换方法、装置、计算机设备和计算机可读存储介质
CN114357206A (zh) 基于语义分析的教育类视频彩色字幕生成方法及系统
US20230138491A1 (en) Continuous learning for document processing and analysis
CN115661846A (zh) 数据处理方法、装置、电子设备和存储介质
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
US20230134218A1 (en) Continuous learning for document processing and analysis
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
US11763094B2 (en) Cascade pooling for natural language processing
CN115017267A (zh) 无监督的语义检索方法、装置及计算机可读存储介质
CN114168715A (zh) 生成目标数据集的方法、装置、设备及存储介质
CN114283429A (zh) 素材工单数据处理方法、装置、设备及存储介质
CN113962196A (zh) 一种简历处理方法、装置、电子设备及存储介质
CN110968691B (zh) 司法热点确定方法及装置
CN111310473A (zh) 文本纠错方法及其模型训练的方法、装置
CN116303909B (zh) 一种电子投标文件与条款的匹配方法、设备及介质
WO2022213864A1 (zh) 一种语料标注方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant