CN113221967B - 特征抽取方法、装置、电子设备及存储介质 - Google Patents
特征抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113221967B CN113221967B CN202110442555.1A CN202110442555A CN113221967B CN 113221967 B CN113221967 B CN 113221967B CN 202110442555 A CN202110442555 A CN 202110442555A CN 113221967 B CN113221967 B CN 113221967B
- Authority
- CN
- China
- Prior art keywords
- sentences
- feature
- topics
- target
- candidate sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 91
- 239000013598 vector Substances 0.000 claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种特征抽取方法、装置、电子设备及存储介质,涉及数据挖掘技术领域,可以提高主题与句子间相关度评分的准确性。该方法包括:确定语料库文本的M个主题,并根据所述语料库文本确定与M个主题对应的M个候选句集合,一个主题对应一个候选句集合;对M个主题和M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量;根据M个第一连续特征向量和(M*N)个第二连续特征向量,采用目标特征抽取器确定M个候选句集合中的(M*N)个句子的单头特征,并根据(M*N)个句子的单头特征确定(M*N)个句子抽取特征。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种特征抽取方法、装置、电子设备及存储介质。
背景技术
潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型是一种能够有效挖掘和发现文本数据中潜在语义主题的非监督学习方法。LDA模型的发现结果通常是主题词列表,一般用户很难通过阅读主题词表来了解主题的发现结果,因此通常会采用从语料库文本中抽取句子的方法来对主题进行摘要标记。在此过程中,需要对候选句子根据给定主题进行相关度评分,继而选取评分较高的句子组成摘要文本,作为主题的标记内容,以帮助用户了解主题的发现结果。然而,现有技术中的评分方法,评分的准确率较低,不能满足用户的需求。
发明内容
本发明提供一种特征抽取方法、装置、电子设备及存储介质,用以解决现有技术中评分方法的准确率较低的缺陷。
本发明提供一种特征抽取方法,包括:确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。
根据本发明提供的一种特征抽取方法,所述根据所述语料库文本确定与所述M个主题对应的M个候选句集合,包括:将所述语料库文本分割为多个句子;分别对所述M个主题和所述多个句子执行第二操作,得到所述M个候选句集合;所述第二操作包括:分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值,得到一个KLD向量;按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。
根据本发明提供的一种特征抽取方法,所述将目标主题转化为第一连续特征向量,包括:将所述M个主题对应的主题词中主题词的类别数量确定为所述第一连续特征向量的维度;根据一个类别的主题词在所述目标主题中的边缘分布概率,确定所述一个类别的主题词对应维度的初始值;对所有维度的初始值进行归一化处理;根据所述一个类别的主题词的边缘分布概率,对所述一个类别的主题词对应维度上的权重进行加权处理,得到所述第一连续特征向量的维度值。
根据本发明提供的一种特征抽取方法,所述将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,包括:通过预训练语言模型对所述N个句子进行上下文嵌入编码,得到所述N个第二连续特征向量。
根据本发明提供的一种特征抽取方法,所述方法还包括:采用线性分类器对所述句子抽取特征进行处理,得到所述目标主题与所述目标主题对应的N个句子间的相关度预测值。
本发明还提供一种特征抽取装置,包括:确定模块、转化模块和抽取模块。所述确定模块,用于确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;所述转化模块,用于对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;所述抽取模块,用于根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。
根据本发明提供的一种特征抽取装置,所述确定模块,具体用于将所述语料库文本分割为多个句子;分别对所述M个主题和所述多个句子执行第二操作,得到所述M个候选句集合;所述第二操作包括:分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值,得到一个KLD向量;按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。
根据本发明提供的一种特征抽取装置,所述转化模块,具体用于:将所述M个主题对应的主题词中主题词的类别数量确定为所述第一连续特征向量的维度;根据一个类别的主题词在所述目标主题中的边缘分布概率,确定所述一个类别的主题词对应维度的初始值;对所有维度的初始值进行归一化处理;根据所述一个类别的主题词的边缘分布概率,对所述一个类别的主题词对应维度上的权重进行加权处理,得到所述第一连续特征向量的维度值。
根据本发明提供的一种特征抽取装置,所述转化模块,具体用于:通过预训练语言模型对所述N个句子进行上下文嵌入编码,得到所述N个第二连续特征向量。
根据本发明提供的一种特征抽取装置,所述装置还包括预测单元;所述预测单元,用于采用线性分类器对所述句子抽取特征进行处理,得到所述目标主题与所述目标主题对应的N个句子间的相关度预测值。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述特征抽取方法中的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述特征抽取方法中的步骤。
本发明提供的一种特征抽取方法、装置、电子设备及存储介质,可以确定语料库文本的M个主题,并根据语料库文本确定与该M个主题对应的M个候选句集合,再将M个主题转化为M个第一连续特征向量,将M个候选句集合中的句子转化为(M*N)个第二连续特征向量,然后通过目标特征抽取器得到(M*N)个句子的单头特征,最后,根据该(M*N)个句子的单头特征得到(M*N)个句子抽取特征。通过该方案,由于可以确定与每个主题相关的候选句集合,还可以通过不同的特征抽取器对句子的特征进行抽取,因此可以提高句子抽取特征与主题之间的紧密性,从而提高主题与句子间相关度评分的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的特征抽取方法的流程示意图之一;
图2是本发明提供的第一特征抽取器的处理流程图;
图3是本发明提供的第二特征抽取器的处理流程图;
图4是本发明提供的特征抽取方法的流程示意图之二;
图5是本发明提供的特征抽取装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本发明实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
为了便于清楚描述本发明实施例的技术方案,在本发明实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
本发明实施例为了阐释的目的而描述了一些示例性实施例,需要理解的是,本发明可通过附图中没有具体示出的其他方式来实现。
下面结合具体实施例和附图对上述实现方式进行详细的阐述。
如图1所示,本发明实施例提供一种特征抽取方法,该特征抽取方法可以应用于特征抽取装置。该特征抽取方法可以包括S101-S103:
S101、特征抽取装置确定语料库文本的M个主题,并根据语料库文本确定与该M个主题对应的M个候选句集合。
其中,一个主题可以对应一个候选句集合,M为正整数。
可选的,特征抽取装置可以通过LDA模型从语料库文本中发现上述M个主题。该语料库文本包括语料库中的所有文本。
可选的,特征抽取装置可以根据语料库文本确定与上述M个主题对应的M个候选句集合。具体的,该过程包括:特征抽取装置将语料库文本分割为多个句子,并分别对该M个主题和该多个句子执行以下操作,从而得到该M个候选句集合。该操作可以包括:分别计算目标主题与该多个句子中的每个句子之间的KL散度值,得到一个KLD向量,该KLD向量的维度为该多个句子的句子数量,一个维度上的维度值为一个句子的KL散度值,之后,特征抽取装置可以将该KLD向量中KL散度值进行升序排列处理,然后,再按照该KLD向量中KL散度值从小到大的顺序选取N个句子作为该目标主题对应的候选句集合。例如,N可以为500。
需要说明的是,本发明实施例中所描述的目标主题均为M个主题中的任一个。
可选的,在对语料库文本进行句子分割之前,特征抽取装置可以先对该语料库文本进行预处理操作,该预处理操作可以包括停用词处理,分句,分词等。
S102、特征抽取装置对M个主题和M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量。
其中,上述第一操作可以包括:将目标主题转化为第一连续特征向量,将与该目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,N为正整数,且M小于N。
可选的,特征抽取装置将目标主题转化为第一连续特征向量的过程可以包括:首先,将M个主题对应的主题词中主题词的类别数量确定为第一连续特征向量的维度,例如,第一连续特征向量的维度可以为若M为2,且在主题1的主题词列表中取前500个主题词,在主题2的主题词列表中取前500个主题词,则第一连续特征向量的维度为这1000个主题词中不重复的主题词的个数,即主题词的类别数。然后,根据一个类别的主题词在目标主题中的边缘分布概率,确定该个类别的主题词对应维度的初始值。之后,对所有维度的初始值进行归一化处理。最后,根据该个类别的主题词的边缘分布概率,对该类别的主题词对应维度上的权重进行加权处理,从而得到第一连续特征向量的维度值。即第i个维度上的维度值ti为:
其中,为全部主题T的集合,PT(wi)为主题T中主题词wi的边缘概率分布。
进一步的,特征抽取装置将与上述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量的过程可以包括:通过预训练语言模型对该N个句子进行上下文嵌入编码,从而得到N个第二连续特征向量,一个句子对应一个第二连续特征向量。该预训练语言模型可以为BERT模型或GPT模型。
S103、特征抽取装置根据M个第一连续特征向量和(M*N)个第二连续特征向量,采用目标特征抽取器确定M个候选句集合中的(M*N)个句子的单头特征,并根据(M*N)个句子的单头特征确定(M*N)个句子抽取特征。
其中,上述目标特征抽取器可以为第一特征抽取器和第二特征抽取器中的一个,该第一特征抽取器中一个主题对应一个多头自注意力编码器,该第二特征抽取器中所有主题对应一个多头自注意力编码器。
第二连续特征向量经过多头自注意力中的每个head处理后,可以输出各自的单头特征。本发明实施例可以采用第一特征抽取器或第二特征抽取器抽取第二连续特征向量的单头特征。如图2所示,为第一特征抽取器的处理流程图,对于第一特征抽取器,由于一个主题对应一个多头自注意力编码器,因此只需要输入第二连续特征向量,主题特征保存在独立的非共享参数中,主题的区分度较好。如图3所示,为第二特征抽取器的处理流程图,对于第二特征抽取器,由于所有主题对应一个多头自注意力编码器,只需要保留一套参数,因此在获取对应主题特征时,需要在输入第二连续特征向量的情况下,同时输入第一连续特征向量。对于不同语料库中的主题,由于第一连续特征向量的维度不同,因此需要经过一个线性层将所有主题的第一连续特征向量转化为固定维度的向量。
可选的,上述第一特征抽取器A的计算公式为:
fA(S|T)=FFN(Dropout(MHAtt(emb(S),emb(S),emb(S)|T))+emb(S))。
上述第二特征抽取器B的计算公式为:
fB(S|T)=FFN(Dropout(MHAtt(TopicEmb(T),emb(S),emb(S)|T))+emb(S))。
其中,S表示一个句子,T表示一个主题,emb(S)表示第二连续特征向量,emb(T)表示第一连续特征向量。第一特征抽取器A的输入参数包括向量Q、向量K和向量V,第一特征抽取器中的向量Q、向量K和向量V均采用第一连续特征向量emb(S)。第二特征抽取器B的输入参数包括向量Q、向量K和向量V,第二特征抽取器中向量Q采用第一连续特征向量emb(T),第二特征抽取器中向量K和向量V均采用第二连续特征向量emb(S)。
需要注意的是,目标特征抽取器head的数量通常可以设置为8。
可选的,特征抽取装置可以根据(M*N)个句子的单头特征确定(M*N)个句子抽取特征。具体的,特征抽取装置可以将目标特征抽取器抽取的单头特征进行向量拼接,得到一个组合特征,并通过丢弃法(Dropout)随即丢弃一部分神经元来避免过拟合,之后将其与对应的第二连续特征向量进行拼接,输入到位置感知前馈层(Positionwise Feed ForwardLayer)进行处理,最终得到(M*N)个句子抽取特征。
本发明提供的一种特征抽取方法,可以确定语料库文本的M个主题,并根据语料库文本确定与该M个主题对应的M个候选句集合,再将M个主题转化为M个第一连续特征向量,将M个候选句集合中的句子转化为(M*N)个第二连续特征向量,然后通过目标特征抽取器得到(M*N)个句子的单头特征,最后,根据该(M*N)个句子的单头特征得到(M*N)个句子抽取特征。通过该方案,由于可以确定与每个主题相关的候选句集合,还可以通过不同的特征抽取器对句子的特征进行抽取,因此可以提高句子抽取特征与主题之间的紧密性,从而提高主题与句子间相关度评分的准确性。
可选的,如图4所示,上述特征抽取方法还可以包括S104。
S104、特征抽取装置采用线性分类器对句子抽取特征进行处理,得到目标主题与该目标主题对应的N个句子间的相关度预测值。
特征抽取装置可以根据抽取出的(M*N)个句子抽取特征,通过线性分类器进行处理,得到主题与句子间的相关度预测值,该线性分类器的计算过程为:
其中,KLDscore(S|T)表示线性分类器的预测值,ds为句子S的维度值,在给定主题T时,由一个线性分类器计算句子S和主题T二者间的KL散度值,WKL和bKL分别为权重(weights)和偏差向量(bias vector)。在训练抽取层时,损失函数可以选用均方误差(MeanSquare Error,MSE),金标准(gold standard)可以选用预处理过程中生成的KLD向量。
上述主要从方法的角度对本发明实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例提供的特征抽取方法,执行主体可以为特征抽取装置,或者该特征抽取装置中的用于特征抽取的控制模块。本发明实施例中以特征抽取装置执行特征抽取方法为例,说明本发明实施例提供的特征抽取装置。
需要说明的是,本发明实施例可以根据上述方法示例对特征抽取装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图5所示,本发明实施例提供一种特征抽取装置500。该特征抽取装置500包括:确定模块501、转化模块502和抽取模块503。所述确定模块501,用于确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;所述转化模块502,用于对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;所述抽取模块503,用于根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。
可选的,上述确定模块501,具体用于将所述语料库文本分割为多个句子;分别对所述M个主题和所述多个句子执行第二操作,得到所述M个候选句集合;所述第二操作包括:分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值,得到一个KLD向量;按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。
可选的,上述述转化模块502,具体用于:将所述M个主题对应的主题词中主题词的类别数量确定为所述第一连续特征向量的维度;根据一个类别的主题词在所述目标主题中的边缘分布概率,确定所述一个类别的主题词对应维度的初始值;对所有维度的初始值进行归一化处理;根据所述一个类别的主题词的边缘分布概率,对所述一个类别的主题词对应维度上的权重进行加权处理,得到所述第一连续特征向量的维度值。
可选的,上述述转化模块502,具体用于:通过预训练语言模型对所述N个句子进行上下文嵌入编码,得到所述N个第二连续特征向量。
可选的,上述特征抽取装置还可以包括预测单元504。该预测单元504,用于采用线性分类器对所述句子抽取特征进行处理,得到所述目标主题与所述目标主题对应的N个句子间的相关度预测值。
本发明提供的一种特征抽取装置,可以确定语料库文本的M个主题,并根据语料库文本确定与该M个主题对应的M个候选句集合,再将M个主题转化为M个第一连续特征向量,将M个候选句集合中的句子转化为(M*N)个第二连续特征向量,然后通过目标特征抽取器得到(M*N)个句子的单头特征,最后,根据该(M*N)个句子的单头特征得到(M*N)个句子抽取特征。通过该方案,由于可以确定与每个主题相关的候选句集合,还可以通过不同的特征抽取器对句子的特征进行抽取,因此可以提高句子抽取特征与主题之间的紧密性,从而提高主题与句子间相关度评分的准确性。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行特征抽取方法,该方法包括:确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的特征抽取方法,该方法包括:确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的特征抽取方法,该方法包括:确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种特征抽取方法,其特征在于,包括:
确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;
对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;
根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;
其中,M、N为正整数,且M小于N。
2.根据权利要求1所述的特征抽取方法,其特征在于,所述根据所述语料库文本确定与所述M个主题对应的M个候选句集合,包括:
将所述语料库文本分割为多个句子;
分别对所述M个主题和所述多个句子执行第二操作,得到所述M个候选句集合;
所述第二操作包括:分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值,得到一个KLD向量;按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。
3.根据权利要求1所述的特征抽取方法,其特征在于,所述将目标主题转化为第一连续特征向量,包括:
将所述M个主题对应的主题词中主题词的类别数量确定为所述第一连续特征向量的维度;
根据一个类别的主题词在所述目标主题中的边缘分布概率,确定所述一个类别的主题词对应维度的初始值;
对所有维度的初始值进行归一化处理;
根据所述一个类别的主题词的边缘分布概率,对所述一个类别的主题词对应维度上的权重进行加权处理,得到所述第一连续特征向量的维度值。
4.根据权利要求1所述的特征抽取方法,其特征在于,所述将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,包括:
通过预训练语言模型对所述N个句子进行上下文嵌入编码,得到所述N个第二连续特征向量。
5.根据权利要求1所述的特征抽取方法,其特征在于,所述方法还包括:
采用线性分类器对所述句子抽取特征进行处理,得到所述目标主题与所述目标主题对应的N个句子间的相关度预测值。
6.一种特征抽取装置,其特征在于,包括:确定模块、转化模块和抽取模块;
所述确定模块,用于确定语料库文本的M个主题,并根据所述语料库文本确定与所述M个主题对应的M个候选句集合,一个主题对应一个候选句集合;
所述转化模块,用于对所述M个主题和所述M个候选句集合进行第一操作,得到M个第一连续特征向量和(M*N)个第二连续特征向量,所述第一操作包括:将目标主题转化为第一连续特征向量,将与所述目标主题对应的候选句集合中的N个句子转化为N个第二连续特征向量,所述目标主题为所述M个主题中的任一个;
所述抽取模块,用于根据所述M个第一连续特征向量和所述(M*N)个第二连续特征向量,采用目标特征抽取器确定所述M个候选句集合中的(M*N)个句子的单头特征,并根据所述(M*N)个句子的单头特征确定(M*N)个句子抽取特征,所述目标特征抽取器为第一特征抽取器和第二特征抽取器中的一个,所述第一特征抽取器中一个主题对应一个多头自注意力编码器,所述第二特征抽取器中所有主题对应一个多头自注意力编码器;其中,M、N为正整数,且M小于N。
7.根据权利要求6所述的特征抽取装置,其特征在于,所述确定模块,具体用于将所述语料库文本分割为多个句子;分别对所述M个主题和所述多个句子执行第二操作,得到所述M个候选句集合;所述第二操作包括:分别计算所述目标主题与所述多个句子中每个句子之间的KL散度值,得到一个KLD向量;按照KL散度值从小到大的顺序选取N个句子作为所述目标主题对应的候选句集合。
8.根据权利要求6所述的特征抽取装置,其特征在于,所述装置还包括预测单元;所述预测单元,用于采用线性分类器对所述句子抽取特征进行处理,得到所述目标主题与所述目标主题对应的N个句子间的相关度预测值。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的特征抽取方法中的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的特征抽取方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110442555.1A CN113221967B (zh) | 2021-04-23 | 2021-04-23 | 特征抽取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110442555.1A CN113221967B (zh) | 2021-04-23 | 2021-04-23 | 特征抽取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113221967A CN113221967A (zh) | 2021-08-06 |
CN113221967B true CN113221967B (zh) | 2023-11-24 |
Family
ID=77089094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110442555.1A Active CN113221967B (zh) | 2021-04-23 | 2021-04-23 | 特征抽取方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221967B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018214486A1 (zh) * | 2017-05-23 | 2018-11-29 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN109657054A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
CN111061862A (zh) * | 2019-12-16 | 2020-04-24 | 湖南大学 | 一种基于注意力机制生成摘要的方法 |
-
2021
- 2021-04-23 CN CN202110442555.1A patent/CN113221967B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018214486A1 (zh) * | 2017-05-23 | 2018-11-29 | 华为技术有限公司 | 一种多文档摘要生成的方法、装置和终端 |
CN109657054A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、服务器及存储介质 |
CN111061862A (zh) * | 2019-12-16 | 2020-04-24 | 湖南大学 | 一种基于注意力机制生成摘要的方法 |
Non-Patent Citations (2)
Title |
---|
A Fast RFID Tag Anticollision Algorithm for Dynamic Arrival Scenarios Based on First-Come-First-Serve;Guofeng Zhang;《Hindawi》;1-18 * |
一种基于 TextRank 的中文自动摘要方法;石元兵;《通信技术》;2233-2239 * |
Also Published As
Publication number | Publication date |
---|---|
CN113221967A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
KR101715118B1 (ko) | 문서 감정 분류용 딥러닝 인코딩 장치 및 방법. | |
CN110163181B (zh) | 手语识别方法及装置 | |
US10540547B2 (en) | Apparatus and method for detecting debatable document | |
CN110619034A (zh) | 基于Transformer模型的文本关键词生成方法 | |
US20240005093A1 (en) | Device, method and program for natural language processing | |
CN111445898B (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN110909144A (zh) | 问答对话方法、装置、电子设备及计算机可读存储介质 | |
CN114153971B (zh) | 一种含错中文文本纠错识别分类设备 | |
CN112052331A (zh) | 一种处理文本信息的方法及终端 | |
CN112115702A (zh) | 意图识别方法、装置、对话机器人和计算机可读存储介质 | |
Sifa et al. | Towards contradiction detection in german: a translation-driven approach | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN114742047A (zh) | 基于最大概率填充和多头注意力机制的文本情感识别方法 | |
CN117332788A (zh) | 一种基于英语口语文本的语义分析方法 | |
CN113221967B (zh) | 特征抽取方法、装置、电子设备及存储介质 | |
CN114254622B (zh) | 一种意图识别方法和装置 | |
CN113836892B (zh) | 样本量数据提取方法、装置、电子设备及存储介质 | |
CN114722818A (zh) | 一种基于对抗迁移学习的命名实体识别模型 | |
CN113378553A (zh) | 文本处理方法、装置、电子设备和存储介质 | |
CN113362815A (zh) | 语音交互方法、系统、电子设备及存储介质 | |
CN112686059A (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
CN113283240B (zh) | 共指消解方法及电子设备 | |
KR102466428B1 (ko) | 뉴스 긍정도 분석을 위한 인공신경망 학습 모델 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |