CN116127981A - 语义向量表示方法、装置、计算机设备和存储介质 - Google Patents

语义向量表示方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116127981A
CN116127981A CN202111341274.3A CN202111341274A CN116127981A CN 116127981 A CN116127981 A CN 116127981A CN 202111341274 A CN202111341274 A CN 202111341274A CN 116127981 A CN116127981 A CN 116127981A
Authority
CN
China
Prior art keywords
text
matrix
text data
semantic vector
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111341274.3A
Other languages
English (en)
Inventor
丘文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd, Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN202111341274.3A priority Critical patent/CN116127981A/zh
Publication of CN116127981A publication Critical patent/CN116127981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能领域,提供了一种语义向量表示方法、装置、计算机设备和存储介质,获取文本数据,并对所述文本数据进行分类,确定所述文本数据对应的类别;对所述文本数据进行分词处理,得到多个特征词和对应的文本序列;计算各个所述特征词在对应的类别中的权重值;根据所述权重值构建所述文本数据对应的权重矩阵;构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量。通过本申请提供的语义向量表示方法、装置、计算机设备和存储介质,能够准确的得到文本数据的语义向量。

Description

语义向量表示方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能的技术领域,特别涉及一种语义向量表示方法、装置、计算机设备和存储介质。
背景技术
在智能问答或信息检索场景中,经常需要对句子进行表征,得到句子的语义向量。目前通常是使用带有自注意力(self-attention)机制的深度神经网络对句子进行表征,自注意力机制能够让一句话中的词向量由上下文词的向量加权获得。但是自注意力机制有一个不足,如果一个句子中不重要的词占比较大就会影响语义表征,从而影响后续的相似度计算。举个例子,假如在粤港澳大湾区城市的游玩攻略问答系统中,“粤港澳大湾区城市”这个词在该系统中是不那么重要的,因为问答系统的问题都是围绕着“粤港澳大湾区城市”的。如,买去粤港澳大湾区重点城市车票;找个粤港澳大湾区重点城市酒店;购买火车票;三个句子中,第一个句子和第三个句子语义更加相似,但是使用带有自注意力机制的深度网络语义表征模型得到三个句子向量中,第一个句子的向量和第二个句子的向量更相近。因此,导致句子的语义向量的准确性较低。
发明内容
本申请的主要目的为提供一种语义向量表示方法、装置、计算机设备和存储介质,旨在解决通过自注意力机制进行语义表征时,得到的语义向量准确性较低的技术问题。
为实现上述目的,本申请提供了一种语义向量表示方法,包括以下步骤:
获取文本数据,并对所述文本数据进行分类,确定所述文本数据对应的类别;
对所述文本数据进行分词处理,得到多个特征词和对应的文本序列;
计算各个所述特征词在对应的类别中的权重值;
根据所述权重值构建所述文本数据对应的权重矩阵;
构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量。
进一步地,所述计算各个所述特征词在对应的类别中的权重值的步骤,包括:
获取所述文本数据对应的类别的样本数据;
在所述样本数据中计算各个所述特征词的逆文本频率值,并将对应的逆文本频率值作为各个所述特征词对应的权重值。
进一步地,所述根据所述权重值构建所述文本数据对应的权重矩阵的步骤,包括:
将所述文本数据中的各个字对应的权重值按照各个字在所述文本数据中的顺序构建对应的权重矩阵。
进一步地,所述构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量的步骤,包括:
根据所述文本序列构建所述嵌入矩阵;
将所述嵌入矩阵输入自注意力机制得到对应的Q矩阵、K矩阵和V矩阵;
将Q矩阵、K矩阵相乘的结果与权重矩阵进行位乘,得到目标矩阵;
将目标矩阵通过归一化指数函数计算后与V矩阵进行相乘后输入文本表示模型的前馈神经网络部分进行处理,得到所述文本数据对应的语义向量。
进一步地,所述计算各个所述特征词的权重值的步骤,包括:
获取对应类别的权重预测模型;
将所述文本序列输入对应类别的权重预测模型计算各个所述特征词的权重值;其中,所述权重预测模型基于极端梯度提升模型训练而成。
进一步地,所述得到所述文本数据对应的语义向量的步骤之后,包括:
将所述文本数据加入到对应类别中,作为其他文本数据的样本数据。
本申请还提供一种语义向量表示装置,包括:
获取单元,用于获取文本数据,并对所述文本数据进行分类,确定所述文本数据对应的类别;
分词处理单元,用于对所述文本数据进行分词处理,得到多个特征词和对应的文本序列;
计算单元,用于计算各个所述特征词在对应的类别中的权重值;
第一构建单元,用于根据所述权重值构建所述文本数据对应的权重矩阵;
第二侯建单元,用于构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量。
进一步地,所述计算单元,包括:
第一获取子单元,用于获取所述文本数据对应的类别的样本数据;第一计算子单元,用于在所述样本数据中计算各个所述特征词的逆文本频率值,并将对应的逆文本频率值作为各个所述特征词对应的权重值。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的语义向量表示方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的语义向量表示方法的步骤。
本申请提供的语义向量表示方法、装置、计算机设备和存储介质,在语义表征过程中引入了通过特定类别统计的特征词的权重信息,将文本数据的权重矩阵加入到自注意力机制中,能够使得句子的语义表征更加关注重要的词汇,减少关注不重要的词汇,提高文本数据的相似度计算的效果,提高得到的语义向量的准确性。
附图说明
图1是本申请一实施例中语义向量表示方法步骤示意图;
图2是本申请一实施例中自注意力机制的网络结构示意图;
图3是本申请一实施例中语义向量表示装置结构框图;
图4为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例提供了一种语义向量表示方法,包括以下步骤:
步骤S1,获取文本数据,并对所述文本数据进行分类,确定所述文本数据对应的类别;
步骤S2,对所述文本数据进行分词处理,得到多个特征词和对应的文本序列;
步骤S3,计算各个所述特征词在对应的类别中的权重值;
步骤S4,根据所述权重值构建所述文本数据对应的权重矩阵;
步骤S5,构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量。
本实施例中,如上述步骤S1所述,获取文本数据,文本数据可以是用户输入的,或者通过语音数据转换为文本数据。通过预设的分类方法对文本数据进行分类,确定文本数据对应的类别,具体的,预先设置有多个类别,每个类别中具有多个样本数据,可通过提取文本数据的关键词,确定其对应属于哪一个类别。
如上述步骤S2所述,在中文文本中,词与词之间是连续的,可通过结巴分词,HanLP等对文本数据进行分词处理,得到多个特征词,如“如何购买产品”这个文本数据,经过分词处理,得到“如何”、“购买”、“产品”三个特征词。
如上述步骤S3所述,在对应的类别中,每一个特征词都计算有一个权重值,在不同的类别中,重要的词汇和不重要的词汇是不同的,因此,分词后的特征词所述计算得到的权重值在不同的类别也是不同的,当得到特征词的权重词后,构建文本数据的权重矩阵。
如上述步骤S4所述,文本表示模型是基于BERT(BidirectionalEncoderRepresentations from Transformers)模型训练得到的,文本表示模型的网络结构主要有四个部分,分别是输入、自注意力机制、前馈神经网络(feedforward)部分和向量输出。
在输入部分,若文本数据总共的字有L个,这L个字传到输入部分,给每一个字转换一个一维的字向量,向量维度为dk,模型在训练过程中自动学习,会根据字向量得到一个用于刻画文本的全局语义信息,并与单字/词的语义信息相融合的文本向量。由于出现在文本不同位置的字/词所携带的语义信息存在差异(比如:“我爱你”和“你爱我”),因此,对不同位置的字/词分别附加一个不同的位置向量以作区分,最后,将字向量、文本向量和位置向量的加和作为模型输入。将所有字的向量组合成一个嵌入矩阵X(其形状是:L*dk),该矩阵的每一行是表示文本数据的每一个字的向量。
将文本数据的权重矩阵加入到自注意力机制中,使得自注意力机制在进行句子表征的过程中能够更关注一些重要词汇,减少关注非重要词汇。通过自注意力机制对嵌入矩阵进行处理后,输入到前馈神经网络部分进行前向传播,前馈神经网络部分可以细分为有两层,第一层是一个线性激活函数,第二层是激活函数是ReLU。经过前馈神经网络部分处理后,输出得到文本数据中各个字/词融合了全文语义信息后的语义向量。
本实施例中在语义表征过程中引入了通过特定类别统计的特征词的权重信息,能够使得句子的语义表征更加关注重要的词汇,减少关注不重要的词汇,提高文本数据的相似度计算的效果,提高得到的语义向量的准确性,同时,通过该方法不需要重新训练文本表示模型,只需要将统计好的权重矩阵引入到模型推理过程中去,没有增加数据标注成本和模型重新训练成本。
在一实施例中,所述计算各个所述特征词在对应的类别中的权重值的步骤S3,包括:
步骤S31,获取所述文本数据对应的类别的样本数据;
步骤S32,在所述样本数据中计算各个所述特征词的逆文本频率值,并将对应的逆文本频率值作为各个所述特征词对应的权重值。
本实施例中,首先对某一个类别内的样本数据进行统计,然后对所有的样本数据进行分词,统计所有的词,然后计算每一个样本特征词的逆文本频率(InverseDocumentFrequency,IDF)值,其中IDF值就代表对应的样本特征词的重要程度。统计样本特征词的IDF值,基于IDF值来表示样本数据中的样本特征词的重要程度,如果某些样本特征词在样本数据中出现的频率非常大,往往认为这些样本特征词是不重要的,比如“的”、“啊”、“怎么”这类词经常在样本数据中出现,表示这些样本特征词的重要性是比较低的,不同类别中,不重要的样本特征词是不一样的,不重要的样本特征词还可以通过人工来进行设定给出。
本实施例使用逆文档频来表示特征词的权重。获取对应类别的样本数据,在样本数据中计算各个特征词的IDF值,一个特征词w的IDF值计算公式为:
Figure BDA0003352133820000061
其中α为调节因子,N为该类别的样本数据数量,Nw为包含特征词W的样本数据数量。
具体的,如文本数据“如何购买产品”对应的类别的样本数据有以下四个:“如何购买设备”、“如何购买火车票”、“如何维修”“如何申报产品”,第一个样本数据经过分词处理后,得到“如何”、“购买”、“设备”3个样本特征词,第二个样本数据经过分词处理得到“如何”、“购买”、“火车票”3个样本特征词,第三个样本数据经过分词处理得到“如何”、“维修”2个样本特征词,第四个样本数据经过分词处理得到“如何”、“申报”、“产品”。其中,上述4个样本数据中含“如何”这个词的样本数据有3个,那么“如何”这个特征词的重要性权重是IDF('如何')=log(4/3),其中包含“产品”这个词的样本数据有1个,那么“产品”这个特征词的IDF('如何')=log(4/1),在上面的类别中“产品”的重要性比词“如何”大,因此“如何购买产品”的三个特征词的IDF值分别为log(4/3),log(4/2),log(4/1)。
在一实施例中,所述根据所述权重值构建所述文本数据对应的权重矩阵的步骤S4,包括:
步骤S41,将所述文本数据中的各个字对应的权重值按照各个字在所述文本数据中的顺序构建对应的权重矩阵。
本实施例中,通过计算得到每个特征词的权重值,再根据权重值构建权重矩阵,如“如何购买产品”这个文本数据构建权重矩阵[如何,购买,产品]-[log(4/3),log(4/2),log(4/1)],每个字按照其在文本数据中的顺序构建权重矩阵,即w=[log(4/3),log(4/3),log(4/2),log(4/2),log(4/1),log(4/1)];计算的具体的数值为w=[0.125,0.125,0.3,0.3,0.6,0.6];最后转换为一个权重矩阵W:
Figure BDA0003352133820000071
其中,l表示文本数据中字的个数。
在一实施例中,所述构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量的步骤S5,包括:
步骤S51,根据所述文本序列构建所述嵌入矩阵;
步骤S52,将所述嵌入矩阵输入自注意力机制得到对应的Q矩阵、K矩阵和V矩阵;
步骤S53,将Q矩阵、K矩阵相乘的结果与权重矩阵进行位乘,得到目标矩阵;
步骤S54,将目标矩阵通过归一化指数函数计算后与V矩阵进行相乘后输入文本表示模型的前馈神经网络部分进行处理,得到所述文本数据对应的语义向量。
本实施例中,构建有嵌入矩阵X,将嵌入矩阵X输入到自注意力机制中,得到Q(Query)、K(Key)、V(Value)三个矩阵,在现有的自注意力矩阵中,令矩阵X=Q=K=V,可通过公式
Figure BDA0003352133820000072
对文本数据中的字的表征进行修改,使得字的向量变得与上下文相关的,该公式能表示是文本数据中某一个位置的字的向量是由上下文的向量加权求和得到的,这个权重是通过当前字的向量与其他位置的字的向量点积运算得到的。X′为经过调整后的能够获取到上下文关联的字向量,然后文本数据的全部字向量传入到一个全连接层,即前馈神经网络部分,最后得到文本数据的语义向量。
在实际的应用场景中,一句话的上下文的字是具有不同重要性程度的。有些字是不需要过多关注的,因为该部分字对于对应类别的语义表征并不重要。上述过程中的自注意力机制,某个位置的字的向量是由上下文的字向量加权得到的,该操作并不会去忽略对于最终语义理解作用不大的字。
参见图2,本实施例将文本数据的权重矩阵加入到自注意力机制,在句子表征过程中更多关注重要词汇,减少关注重要词汇,降低不重要词汇对最终语义的影响。将Q矩阵、K矩阵相乘的结果与权重矩阵W进行位乘,得到目标矩阵,位乘是将相同维度的向量或矩阵,逐位做乘积;将目标矩阵通过softmax计算后与V矩阵进行相乘再输入到前馈神经网络部分中进行处理,最终得到语义向量。在自注意力机制中的处理可表示为:
Figure BDA0003352133820000081
其中⊙表示Hadamardproduct(哈达马积),即位乘。
经过上述的修改,在获取字的基于上下文向量的时候,某一个位置的字的向量是由上下文的向量加权求和得到的,而不重要的字对应的权重就会被降低,从而使得最终的句子的语义向量能够保留更多重要的语义信息。经过上述的这种修改方式,相当于根据对应类别的无监督样本数据引入了一个先验知识,利用这个先验知识来知道句子表征过程中忽略那些不重要的语义,减少不重要词语对于整句话语义的影响。
在一实施例中,所述计算各个所述特征词的权重值的步骤,包括:
获取对应类别的权重预测模型;
将所述文本序列输入对应类别的权重预测模型计算各个所述特征词的权重值;其中,所述权重预测模型基于极端梯度提升模型训练而成。
本实施例中,每个类别都预先训练好一个权重预测矩阵,对训练样本可通过人工利用有效特征进行标注的方式标注标签,人工来标记出一句话中重要词汇的权重,然后通过Xgboost(eXtremegradient boosting,极端梯度提升)模型来根据这些标注后的训练样本进行训练,使得训练完成后的能够准确的预测出关键词的权重。有效特征可包括:IDF值、TF(TermFrequency,词频)值、term长度、term词性、词位置、是否停用词、是否语气词、是否专有名词(人名/地名)等等。
在另一实施例中,可通过YAKE(Yet Another Keyword Extractor)算法提取样本数据中的特征词,从而计算各个特征词的权重,YAKE算法能够从大写term(Tcase)、词的位置(TPosition)、词频(TF)、上下文关系(TRel)、词在句子中出现的频率(Tsentence)五个方面综合提取关键词,进而通过公式
Figure BDA0003352133820000091
计算各个特征词的分值,分值越低,代表重要性越高,再将分组输入以0.5为底的对数函数中计算得到各个特征词的权重。
在一实施例中,所述得到所述文本数据对应的语义向量的步骤之后,包括:
将所述文本数据加入到对应类别中,作为其他文本数据的样本数据。
本实施例中,当文本数据得到对应的语义向量后,将文本数据加入到对应的类别中,然后在一定程度上会调整各个特征词的权重,使得后续表示文本向量时,能够更多的学习到重要的词汇。
参见图3,本申请一实施例提供了一种语义向量表示装置,包括:
获取单元,用于获取文本数据,并对所述文本数据进行分类,确定所述文本数据对应的类别;
分词处理单元,用于对所述文本数据进行分词处理,得到多个特征词和对应的文本序列;
计算单元,用于计算各个所述特征词在对应的类别中的权重值;
第一构建单元,用于根据所述权重值构建所述文本数据对应的权重矩阵;
第二侯建单元,用于构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量。
在一实施例中,所述计算单元30,包括:
第一获取子单元,用于获取所述文本数据对应的类别的样本数据;
第一计算子单元,用于在所述样本数据中计算各个所述特征词的逆文本频率值,并将对应的逆文本频率值作为各个所述特征词对应的权重值。
在一实施例中,所述第一构建单元40,包括:
第一构建子单元,用于将所述文本数据中的各个字对应的权重值按照各个字在所述文本数据中的顺序构建对应的权重矩阵。
在一实施例中,所述第二构建单元50,包括:
第二构建子单元,用于根据所述文本序列构建所述嵌入矩阵;
第一输入子单元,用于将所述嵌入矩阵输入自注意力机制得到对应的Q矩阵、K矩阵和V矩阵;
位乘子单元,用于将Q矩阵、K矩阵相乘的结果与权重矩阵进行位乘,得到目标矩阵;
第二输入子单元,用于将目标矩阵通过归一化指数函数计算后与V矩阵进行相乘后输入文本表示模型的前馈神经网络部分进行处理,得到所述文本数据对应的语义向量。
在一实施例中,所述计算单元30,包括:
第二获取子单元,用于获取对应类别的权重预测模型;
第二计算子单元,用于将所述文本序列输入对应类别的权重预测模型计算各个所述特征词的权重值;其中,所述权重预测模型基于极端梯度提升模型训练而成。
在一实施例中,所述语义向量表示装置,还包括:
加入单元,用于将所述文本数据加入到对应类别中,作为其他文本数据的样本数据。
在本实施例中,上述各个单元、子单元的具体实现请参照上述方法实施例中所述,在此不再进行赘述。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语义向量表示方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语义向量表示方法。
综上所述,为本申请实施例中提供的语义向量表示方法、装置、计算机设备和存储介质,获取文本数据,并对所述文本数据进行分类,确定所述文本数据对应的类别;对所述文本数据进行分词处理,得到多个特征词和对应的文本序列;计算各个所述特征词在对应的类别中的权重值;根据所述权重值构建所述文本数据对应的权重矩阵;构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量。通过本申请提供的语义向量表示方法、装置、计算机设备和存储介质,在语义表征过程中引入了通过特定类别统计的特征词的权重信息,能够使得句子的语义表征更加关注重要的词汇,减少关注不重要的词汇,提高文本数据的相似度计算的效果,提高得到的语义向量的准确性,同时,通过该方法不需要重新训练文本表示模型,只需要将统计好的权重矩阵引入到模型推理过程中去,没有增加数据标注成本和模型重新训练成本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种语义向量表示方法,其特征在于,包括以下步骤:
获取文本数据,并对所述文本数据进行分类,确定所述文本数据对应的类别;
对所述文本数据进行分词处理,得到多个特征词和对应的文本序列;
计算各个所述特征词在对应的类别中的权重值;
根据所述权重值构建所述文本数据对应的权重矩阵;
构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量。
2.根据权利要求1所述的语义向量表示方法,其特征在于,所述计算各个所述特征词在对应的类别中的权重值的步骤,包括:
获取所述文本数据对应的类别的样本数据;
在所述样本数据中计算各个所述特征词的逆文本频率值,并将对应的逆文本频率值作为各个所述特征词对应的权重值。
3.根据权利要求1所述的语义向量表示方法,其特征在于,所述根据所述权重值构建所述文本数据对应的权重矩阵的步骤,包括:
将所述文本数据中的各个字对应的权重值按照各个字在所述文本数据中的顺序构建对应的权重矩阵。
4.根据权利要求1所述的语义向量表示方法,其特征在于,所述构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量的步骤,包括:
根据所述文本序列构建所述嵌入矩阵;
将所述嵌入矩阵输入自注意力机制得到对应的Q矩阵、K矩阵和V矩阵;
将Q矩阵、K矩阵相乘的结果与权重矩阵进行位乘,得到目标矩阵;
将目标矩阵通过归一化指数函数计算后与V矩阵进行相乘后输入文本表示模型的前馈神经网络部分进行处理,得到所述文本数据对应的语义向量。
5.根据权利要求1所述的语义向量表示方法,其特征在于,所述计算各个所述特征词的权重值的步骤,包括:
获取对应类别的权重预测模型;
将所述文本序列输入对应类别的权重预测模型计算各个所述特征词的权重值;其中,所述权重预测模型基于极端梯度提升模型训练而成。
6.根据权利要求2所述的语义向量表示方法,其特征在于,所述得到所述文本数据对应的语义向量的步骤之后,包括:
将所述文本数据加入到对应类别中,作为其他文本数据的样本数据。
7.一种语义向量表示装置,其特征在于,包括:
获取单元,用于获取文本数据,并对所述文本数据进行分类,确定所述文本数据对应的类别;
分词处理单元,用于对所述文本数据进行分词处理,得到多个特征词和对应的文本序列;
计算单元,用于计算各个所述特征词在对应的类别中的权重值;
第一构建单元,用于根据所述权重值构建所述文本数据对应的权重矩阵;
第二侯建单元,用于构建所述文本序列的嵌入矩阵,将所述权重矩阵加入预设的文本表示模型的自注意力机制中,通过预设的文本表示模型对所述嵌入矩阵进行处理,得到所述文本数据对应的语义向量。
8.根据权利要求7所述的语义向量表示装置,其特征在于,所述计算单元,包括:
第一获取子单元,用于获取所述文本数据对应的类别的样本数据;
第一计算子单元,用于在所述样本数据中计算各个所述特征词的逆文本频率值,并将对应的逆文本频率值作为各个所述特征词对应的权重值。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的语义向量表示方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的语义向量表示方法的步骤。
CN202111341274.3A 2021-11-12 2021-11-12 语义向量表示方法、装置、计算机设备和存储介质 Pending CN116127981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111341274.3A CN116127981A (zh) 2021-11-12 2021-11-12 语义向量表示方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111341274.3A CN116127981A (zh) 2021-11-12 2021-11-12 语义向量表示方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN116127981A true CN116127981A (zh) 2023-05-16

Family

ID=86301401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111341274.3A Pending CN116127981A (zh) 2021-11-12 2021-11-12 语义向量表示方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116127981A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611425A (zh) * 2023-05-31 2023-08-18 广东技术师范大学 一种基于Transformer模型的文本数据处理方法、系统、介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116611425A (zh) * 2023-05-31 2023-08-18 广东技术师范大学 一种基于Transformer模型的文本数据处理方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
CN111160017B (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN110110062B (zh) 机器智能问答方法、装置与电子设备
CN111144127B (zh) 文本语义识别方法及其模型的获取方法及相关装置
CN110517693B (zh) 语音识别方法、装置、电子设备和计算机可读存储介质
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN107180084B (zh) 词库更新方法及装置
CN111259625A (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN111382573A (zh) 用于答案质量评估的方法、装置、设备和存储介质
CN111090719B (zh) 文本分类方法、装置、计算机设备及存储介质
CN112395412B (zh) 文本分类的方法、装置以及计算机可读介质
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN110597968A (zh) 一种回复选择方法及装置
CN111291565A (zh) 一种用于命名实体识别的方法与装置
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN110347833B (zh) 一种多轮对话的分类方法
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN116127981A (zh) 语义向量表示方法、装置、计算机设备和存储介质
CN115146021A (zh) 文本检索匹配模型的训练方法、装置、电子设备及介质
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination