CN114077841A - 基于人工智能的语义提取方法、装置、电子设备及介质 - Google Patents

基于人工智能的语义提取方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN114077841A
CN114077841A CN202111372096.0A CN202111372096A CN114077841A CN 114077841 A CN114077841 A CN 114077841A CN 202111372096 A CN202111372096 A CN 202111372096A CN 114077841 A CN114077841 A CN 114077841A
Authority
CN
China
Prior art keywords
text
initial
enhanced
similarity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111372096.0A
Other languages
English (en)
Inventor
刘欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202111372096.0A priority Critical patent/CN114077841A/zh
Publication of CN114077841A publication Critical patent/CN114077841A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种基于人工智能的语义提取方法、装置、电子设备及介质,通过对初始文本进行增强处理得到增强文本,增强处理后的文本较初始文本更易贴合业务场景,使得基于增强文本训练得到的语义提取模型更具实用价值,将预训练模型对增强文本进行编码得到的多个字编码向量输入平均池化层得到多个句向量,将多个句向量分布变换成标准高斯分布得到多个标准句向量,标准句向量能够很好地代表语义相关性,从而在根据多个标准句向量计算第一相似度和第二相似度后,根据第一相似度和第二相似度计算损失函数值并基于损失函数值迭代训练得到训练效果较佳的语义提取模型,最后使用语义提取模型能够准确的提取待处理文本的语义向量。

Description

基于人工智能的语义提取方法、装置、电子设备及介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的语义提取方法、装置、电子设备及介质。
背景技术
目前在自然语言处理领域,无需大量的打标数据,基于预训练模型(bert、albert)就能快速搭建一个不错的base模型。但是要想提高模型的效果达到上线的目的,可操作空间也是很小的。因为预训练模型是基于海量的语料训练的,得到的句向量很难贴合先有的业务场景。
发明人在实现本发明的过程中发现,目前的预训练模型得到的句向量受到词频的影响很大,导致高频词编码的句向量距离更近,更集中在原点附近。这会导致即使一个高频词和一个低频词的语义是等价的,但词频的差异也会带来很大的距离偏差,从而词向量的距离就不能很好地代表语义相关性,从而导致对自然语言的处理效果较差。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的语义提取方法、装置、电子设备及介质,能够准确的提取出文本的语义向量。
本发明的第一方面提供一种基于人工智能的语义提取方法,所述方法包括:
对初始文本集中的每个初始文本进行分词处理,得到多个分词;
根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本;
将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量;
将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量;
根据多个所述标准句向量计算第一相似度和第二相似度;
根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型;
使用所述语义提取模型提取待处理文本的语义向量。
在一个可选的实施方式中,所述根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本包括:
计算所述初始文本中的多个分词的数量;
循环遍历所述初始文本中的多个分词,在每次遍历中根据所述数量产生一个随机数;
将每次循环当前位置的分词和所述随机数对应的位置的分词进行交换;
在循环遍历的次数达到预设次数阈值时,得到所述第一增强文本。
在一个可选的实施方式中,所述根据多个所述标准句向量计算第一相似度和第二相似度包括:
从所述初始文本集中获取多个文本对,其中,每个所述文本对包括第一初始文本和第二初始文本;
计算所述第一初始文本对应的第一增强文本的标准句向量和第二增强文本的标准句向量之间的相似度,得到第一相似度;
计算所述第一初始文本对应的第一增强文本的标准句向量和所述第二初始文本对应的第一增强文本的标准句向量之间的相似度,得到第二相似度;
计算所述第一初始文本对应的第二增强文本的标准句向量和所述第二初始文本对应的第二增强文本的标准句向量之间的相似度,得到第二相似度。
在一个可选的实施方式中,所述根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本包括:
提取所述初始文本中每个分词的词嵌入向量;
计算每个分词在所述初始文本集中的TF-IDF;
获取所述TF-IDF中小于预设TF-IDF阈值的第一目标TF-IDF;
将所述第一目标IF-IDF对应分词的词嵌入向量进行置换处理;
根据置换处理后的分词生成新的文本,作为所述第二增强文本。
在一个可选的实施方式中,所述计算每个分词在所述初始文本集中的TF-IDF之后,所述方法还包括:
获取所述TF-IDF中大于所述预设TF-IDF阈值的第二目标TF-IDF;
将所述第二目标TF-IDF对应的分词作为重点词;
基于所述重点词构建重点词字典;
对所述待处理文本进行分词处理得到多个分词;
将所述多个分词中的每个分词与所述重点词字典进行匹配并计算匹配度;
判断所述匹配度是否大于预设匹配度阈值;
当所述匹配度小于所述预设匹配度阈值时,识别所述待处理文本为噪声文本。
在一个可选的实施方式中,所述使用所述语义提取模型提取待处理文本的语义向量之后,所述方法还包括:
获取本地数据库中存储的多个存储文本的语义向量;
根据所述待处理文本的语义向量与每个所述存储文本的语义向量计算所述待处理文本与所述存储文本之间的距离;
根据所述距离确定所述待处理文本的领域类型。
在一个可选的实施方式中,所述将所述多个句向量分布变换成标准高斯分布包括:
通过标准化流将每个所述句向量分布变换成一个光滑的、各向同性的标准高斯分布。
本发明的第二方面提供一种基于人工智能的语义提取装置,所述装置包括:
分词模块,用于对初始文本集中的每个初始文本进行分词处理,得到多个分词;
增强模块,用于根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本;
编码模块,用于将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量;
变换模块,用于将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量;
计算模块,用于根据多个所述标准句向量计算第一相似度和第二相似度;
训练模块,用于根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型;
提取模块,用于使用所述语义提取模型提取待处理文本的语义向量。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于人工智能的语义提取方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的语义提取方法。
综上所述,本发明所述的基于人工智能的语义提取方法、装置、电子设备及介质,在获取到初始文本集之后,通过对初始文本集中的每个初始文本进行分词处理,得到多个分词,然后根据所述分词对所述每个初始文本进行第一增强处理和第二增强处理,得到两个增强文本,增强处理后的文本较初始文本更易贴合业务场景,从而使得基于增强文本训练得到的语义提取模型更具实用价值,接着通过预训练模型对增强文本进行编码,得到多个字编码向量,将多个字编码向量输入平均池化层得到多个句向量,为了解决句向量易受到词频的影响的问题,通过将多个句向量分布变换成标准高斯分布,得到多个标准句向量,标准句向量能够很好地代表语义相关性,从而在根据多个所述标准句向量计算第一相似度和第二相似度之后,根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到训练效果较佳的语义提取模型,最后使用所述语义提取模型能够准确的提取待处理文本的语义向量。
附图说明
图1是本发明实施例一提供的基于人工智能的语义提取方法的流程图。
图2是本发明实施例二提供的基于人工智能的语义提取装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的基于人工智能的语义提取方法由电子设备执行,相应地,基于人工智能的语义提取装置运行于电子设备中。
实施例一
图1是本发明实施例一提供的基于人工智能的语义提取方法的流程图。所述基于人工智能的语义提取方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,对初始文本集中的每个初始文本进行分词处理,得到多个分词。
电子设备可以通过网络爬虫的方式获取多个初始文本,也可以采用公开的语料数据库中的文本作为初始文本,从而将多个初始文本作为初始文本集,并将初始文本集存储在本地。其中,初始文本为一个句子、一个段落或者一篇文章等类型的长文本。
电子设备可以采用结巴分词工具对每个初始文本进行分词处理,每个初始文本进行分词处理后,得到多个分词。对初始文本进行分词处理就是将句子、段落、文章这类型的长文本,分解为以字词(token)为单位的数据结构。示例性的,假设初始文本为“我很开心”,进行分词处理后得到的是分词“我”,分词“很”及分词“开心”,每个分词代表一个token。
S12,根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本。
由于获取的初始文本很难贴合各种类型的业务场景,导致基于获取的初始文本集训练得到的BERT模型在训练集上有较佳的效果,但是应用于实际业务场景,则性能较差,因此,通过对初始文本进行增强处理,并基于增强处理后的文本进行模型的训练,能够应用于实际的业务场景。
在一个可选的实施方式中,所述根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本包括:
计算所述初始文本中的多个分词的数量;
循环遍历所述初始文本中的多个分词,在每次遍历中根据所述数量产生一个随机数;
将每次循环当前位置的分词和所述随机数对应的位置的分词进行交换;
在循环遍历的次数达到预设次数阈值时,得到所述第一增强文本。
假设某个初始文本中包括10个分词:W1,W2,…,W10,则从W1到W10进行循环遍历时,产生一个0-9的随机数,该随机数代表本次循环要随机交换的位置。当某次遍历到分词W3,产生的随机数为7,则将分词W3与随机数7对应的分词W7进行交换。
从W1遍历到W10,称之为一次循环,循环预设次数阈值后,则结束对所述初始文本的第一增强处理的过程,从而得到第一增强文本。
该可选的实施方式,通过循环遍历初始文本中的分词,并通过产生随机数的方式进行分词的交换,实现了初始文本中分词的词序打乱。
在一个可选的实施方式中,所述根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本包括:
提取所述初始文本中每个分词的词嵌入向量;
计算每个分词在所述初始文本集中的TF-IDF;
获取所述TF-IDF中小于预设TF-IDF阈值的第一目标TF-IDF;
将所述第一目标IF-IDF对应分词的词嵌入向量进行置换处理;
根据置换处理后的分词生成新的文本,作为所述第二增强文本。
电子设备可以通过word2web来提取初始文本中每个分词的词嵌入向量。
词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术,用以评估一个分词对于初始文本集的重要程度。分词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在初始文本集中出现的频率成反比下降。词频(TF)是一个分词出现的次数除以该文本的总词语数。假如一篇文本的总分词数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文本中的词频就是3/100=0.03。逆文本频率指数(IDF)是初始文本集中包含的文本总数除以有多少份初始文本集出现过“母牛”一词。如果“母牛”一词在1000份文本中出现过,而初始文本集中文本的总数是10,000,000份的话,则逆向文件频率就是lg(10,000,000/1,000)=4。最后的TF-IDF为0.03*4=0.12。
TF-IDF越小,表明分词的重要程度越低,TF-IDF越大,表明分词的重要程度越高。电子设备预先设置有TF-IDF阈值,对于TF-IDF小于预设TF-IDF阈值的分词,由于其对文本的重要性较弱,则可以认为该分词的存在与否对于文本语义的理解并没有多少影响,因而,将对文本的重要性较弱的分词的词嵌入向量进行置换处理得到新的词嵌入向量,例如,设置为零向量,最后根据文本中分词的新的词嵌入向量得到新的文本,作为第二增强文本。
该可选的实施方式中,通过计算分词的TF-IDF,确定分词的重要性,对于重要性较低的分词的词嵌入向量进行置换处理,能够去除无意义词对文本的影响。
上述实施方式中,通过将初始文本集中的每个初始文本进行第一增强处理和第二增强处理,使得每个初始文本对应两个增强文本,不仅增加了初始文本集文本的数量,而且基于增强文本能够提高BERT模型的性能。每个初始文本X经过2次增强处理得到2个样本X1和X2,X1表示第一增强文本,X2表示第二增强文本。
S13,将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量。
电子设备将初始文本输入预训练模型中进行编码,得到初始文本中每个字的第一字编码向量。
电子设备将初始文本对应的第一增强文本输入预训练模型中进行编码,得到第一增强文本中每个字的第二字编码向量。
电子设备将初始文本对应的第二增强文本输入预训练模型中进行编码,得到第二增强文本中每个字的第三字编码向量。
预训练模型可以是BERT模型,也可以是RoBERTa模型(Robustlyoptimized BERTPretraining approach,稳健优化的BERT预训练方法)。
计算机设备输入所述初始文本至所述预训练模型的输入层,所述输入层将所述初始文本输入至子词编码器层进行编码,通过所述子词编码器层输出所述初始文本中的多个子词(subword)。子词编码器层输入所述多个子词至双向表征编码器层进行进一步编码,通过双向表征编码器层输出每个子词的表征向量,所述表征向量用于唯一表示所述子词,其中,所述双向表征编码器层采用字节对编码(Byte-Pair Encoding,BPE)技术进行编码。
第一增强文本中每个字的第二字编码向量及第二增强文本中每个字的第三字编码向量的编码过程同初始文本中每个字的第一字编码向量。
所述双向表征编码器层不仅能够高效捕捉更长距离的语义依赖关系,而且能够获取双向的上下文信息来生成语义信息更丰富的向量表示。
S14,将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量。
在所述预训练模型后面连接一个average pooling层,将初始文本中所有字的第一字编码向量输入至average pooling层中进行平均得到该初始文本的第一句向量,将第一增强文本中所有字的第二字编码向量输入至average pooling层中进行平均得到该第一增强文本的第二句向量,将第二增强文本中所有字的第三字编码向量输入至averagepooling层中进行平均得到该第二增强文本的第三句向量。
电子设备可以通过标准化流对句向量分布进行变换成一个光滑的、各向同性的标准高斯分布。标准化流即定义一个从潜在空间z和观测空间u的可逆变换,具体的生成过程为:z~p(z),u=f(z),其中,p(z)为先验分布,z->u是可逆变换。
S15,根据多个所述标准句向量计算第一相似度和第二相似度。
在一个可选的实施方式中,所述根据多个所述标准句向量计算第一相似度和第二相似度包括:
从所述初始文本集中获取多个文本对,其中,每个所述文本对包括第一初始文本和第二初始文本;
计算所述第一初始文本对应的第一增强文本的标准句向量和第二增强文本的标准句向量之间的相似度,得到第一相似度;
计算所述第一初始文本对应的第一增强文本的标准句向量和所述第二初始文本对应的第一增强文本的标准句向量之间的相似度,得到第二相似度;
计算所述第一初始文本对应的第二增强文本的标准句向量和所述第二初始文本对应的第二增强文本的标准句向量之间的相似度,得到第二相似度。
从所述初始文本集中获取的文本对的数量取决于初始文本集中初始文本的数量,例如,初始文本集中包括M个初始文本,则文本对的数量为M*(M-1)/2。
原先有N个初始文本,经过2次增强处理得到了2N个增强文本,计算两两增强文本之间的相似度。同一个初始文本Xi增强得到的两个增强文本计算第一相似度,即初始文本Xi的第一增强文本Xi 1和第二增强文本Xi 2之间的相似度。不同初始文本Xi和Xj增强得到的增强文本Xi 1,Xi 2和Xj 1,Xj 2,两两之间计算第二相似度,即初始文本Xi的增强文本Xi r和初始文本Xj的增强文本Xj r之间的相似度,其中r=1,2。
由于词频的差异会带来较大的距离偏差,从而字向量的距离就不能很好地代表语义相关性,通过句向量则能有效的表达语义相关性。
S16,根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型。
可以使用infoNCE的变种NT-Xent损失函数作为目标损失函数。
将所述第一相似度及所述第二相似度输入至目标损失函数中计算损失函数值,当损失函数值小于或等于预设损失函数阈值时,结束预训练模型的训练过程,并更新所述预训练模型中的参数,得到语义提取模型。
S17,使用所述语义提取模型提取待处理文本的语义向量。
待处理文本是指需要进行语义向量提取的文本。
将待处理文本输入语义提取模型中,即可提取待处理文本的语义向量。具体实施时,对待处理文本进行分词处理,得到多个分词,根据所述多个分词对所述待处理文本进行第一增强处理,得到第一待处理增强文本,及根据所述多个分词对所述待处理文本进行第二增强处理,得到第二待处理增强文本。将所述第一待处理增强文本及所述第二待处理增强文本分别输入预语义提取模型中,通过语义提取模型输出待处理文本的语义向量。
在一个可选的实施方式中,所述使用所述语义提取模型提取待处理文本的语义向量之后,所述方法还包括:
获取本地数据库中存储的多个存储文本的语义向量;
根据所述待处理文本的语义向量与每个所述存储文本的语义向量计算所述待处理文本与所述存储文本之间的距离;
根据所述距离确定所述待处理文本的领域类型。
其中,本地数据库中存储了多个存储文本,每个存储文本可以采用本发明所述的方法提取语义向量,每个存储文本还对应有类型标签,用以标识对应的存储文本所属的领域类型,例如,医疗领域,美术领域等。
通过计算语义向量之间的欧式距离可以得到待处理文本与每个存储文本之间的距离,距离越大,则表明待处理文本与存储文本越可能属于不同的领域类型,距离越小,则表明待处理文本与存储文本越可能属于同一个领域类型。
电子设备可以确定最大的距离对应的目标存储文本,将目标存储文本的领域类型确定为待处理文本的领域类型。
电子设备还可以将距离按照从小到大进行排序,选取排序在前K个的距离对应的目标存储文本,计算K个目标存储文本中相同领域类型的数量,将数量最多的领域类型确定为待处理文本的领域类型。
在一个可选的实施方式中,在计算每个分词在所述初始文本集中的TF-IDF之后,所述方法还包括:
获取所述TF-IDF中大于所述预设TF-IDF阈值的第二目标TF-IDF;
将所述第二目标TF-IDF对应的分词作为重点词;
基于所述重点词构建重点词字典;
对所述待处理文本进行分词处理得到多个分词;
将所述多个分词中的每个分词与所述重点词字典进行匹配并计算匹配度;
判断所述匹配度是否大于预设匹配度阈值;
当所述匹配度小于所述预设匹配度阈值时,识别所述待处理文本为噪声文本。
计算机设备可以采用分词工具,例如,结巴分词,对所述待处理文本进行分词,得到多个分词,将每个分词与重点词字典中的每个重点词进行匹配,计算分词中与重点词匹配成功的分词的第一分词数量,计算多个分词的第二分词数量,计算第一分词数量与第二分词数量之间的比值得到匹配度,根据所述匹配度确定所述待处理文本是否为噪声文本。当匹配度大于或者等于所述预设匹配度阈值时,识别所述待处理文本为专业领域中的文本;当匹配度小于所述预设匹配度阈值时,识别所述待处理文本为噪声文本。
本发明所述的基于人工智能的语义提取方法,在获取到初始文本集之后,通过对初始文本集中的每个初始文本进行分词处理,得到多个分词,然后根据所述分词对所述每个初始文本进行第一增强处理和第二增强处理,得到两个增强文本,增强处理后的文本较初始文本更易贴合业务场景,从而使得基于增强文本训练得到的语义提取模型更具实用价值,接着通过预训练模型对增强文本进行编码,得到多个字编码向量,将多个字编码向量输入平均池化层得到多个句向量,为了解决句向量易受到词频的影响的问题,通过将多个句向量分布变换成标准高斯分布,得到多个标准句向量,标准句向量能够很好地代表语义相关性,从而在根据多个所述标准句向量计算第一相似度和第二相似度之后,根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到训练效果较佳的语义提取模型,最后使用所述语义提取模型能够准确的提取待处理文本的语义向量。
实施例二
图2是本发明实施例二提供的基于人工智能的语义提取装置的结构图。
在一些实施例中,所述基于人工智能的语义提取装置20可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的语义提取装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的语义提取的功能。
本实施例中,所述基于人工智能的语义提取装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:分词模块201、增强模块202、编码模块203、变换模块204、计算模块205、训练模块206、提取模块207及分类模块208。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述分词模块201,用于对初始文本集中的每个初始文本进行分词处理,得到多个分词。
电子设备可以通过网络爬虫的方式获取多个初始文本,也可以采用公开的语料数据库中的文本作为初始文本,从而将多个初始文本作为初始文本集,并将初始文本集存储在本地。其中,初始文本为一个句子、一个段落或者一篇文章等类型的长文本。
电子设备可以采用结巴分词工具对每个初始文本进行分词处理,每个初始文本进行分词处理后,得到多个分词。对初始文本进行分词处理就是将句子、段落、文章这类型的长文本,分解为以字词(token)为单位的数据结构。示例性的,假设初始文本为“我很开心”,进行分词处理后得到的是分词“我”,分词“很”及分词“开心”,每个分词代表一个token。
所述增强模块202,用于根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本。
由于获取的初始文本很难贴合各种类型的业务场景,导致基于获取的初始文本集训练得到的BERT模型在训练集上有较佳的效果,但是应用于实际业务场景,则性能较差,因此,通过对初始文本进行增强处理,并基于增强处理后的文本进行模型的训练,能够应用于实际的业务场景。
在一个可选的实施方式中,所述增强模块202根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本包括:
计算所述初始文本中的多个分词的数量;
循环遍历所述初始文本中的多个分词,在每次遍历中根据所述数量产生一个随机数;
将每次循环当前位置的分词和所述随机数对应的位置的分词进行交换;
在循环遍历的次数达到预设次数阈值时,得到所述第一增强文本。
假设某个初始文本中包括10个分词:W1,W2,…,W10,则从W1到W10进行循环遍历时,产生一个0-9的随机数,该随机数代表本次循环要随机交换的位置。当某次遍历到分词W3,产生的随机数为7,则将分词W3与随机数7对应的分词W7进行交换。
从W1遍历到W10,称之为一次循环,循环预设次数阈值后,则结束对所述初始文本的第一增强处理的过程,从而得到第一增强文本。
该可选的实施方式,通过循环遍历初始文本中的分词,并通过产生随机数的方式进行分词的交换,实现了初始文本中分词的词序打乱。
在一个可选的实施方式中,所述增强模块202根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本包括:
提取所述初始文本中每个分词的词嵌入向量;
计算每个分词在所述初始文本集中的TF-IDF;
获取所述TF-IDF中小于预设TF-IDF阈值的第一目标TF-IDF;
将所述第一目标IF-IDF对应分词的词嵌入向量进行置换处理;
根据置换处理后的分词生成新的文本,作为所述第二增强文本。
电子设备可以通过word2web来提取初始文本中每个分词的词嵌入向量。
词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术,用以评估一个分词对于初始文本集的重要程度。分词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在初始文本集中出现的频率成反比下降。词频(TF)是一个分词出现的次数除以该文本的总词语数。假如一篇文本的总分词数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文本中的词频就是3/100=0.03。逆文本频率指数(IDF)是初始文本集中包含的文本总数除以有多少份初始文本集出现过“母牛”一词。如果“母牛”一词在1000份文本中出现过,而初始文本集中文本的总数是10,000,000份的话,则逆向文件频率就是lg(10,000,000/1,000)=4。最后的TF-IDF为0.03*4=0.12。
TF-IDF越小,表明分词的重要程度越低,TF-IDF越大,表明分词的重要程度越高。电子设备预先设置有TF-IDF阈值,对于TF-IDF小于预设TF-IDF阈值的分词,由于其对文本的重要性较弱,则可以认为该分词的存在与否对于文本语义的理解并没有多少影响,因而,将对文本的重要性较弱的分词的词嵌入向量进行置换处理得到新的词嵌入向量,例如,设置为零向量,最后根据文本中分词的新的词嵌入向量得到新的文本,作为第二增强文本。
该可选的实施方式中,通过计算分词的TF-IDF,确定分词的重要性,对于重要性较低的分词的词嵌入向量进行置换处理,能够去除无意义词对文本的影响。
上述实施方式中,通过将初始文本集中的每个初始文本进行第一增强处理和第二增强处理,使得每个初始文本对应两个增强文本,不仅增加了初始文本集文本的数量,而且基于增强文本能够提高BERT模型的性能。每个初始文本X经过2次增强处理得到2个样本X1和X2,X1表示第一增强文本,X2表示第二增强文本。
所述编码模块203,用于将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量。
电子设备将初始文本输入预训练模型中进行编码,得到初始文本中每个字的第一字编码向量。
电子设备将初始文本对应的第一增强文本输入预训练模型中进行编码,得到第一增强文本中每个字的第二字编码向量。
电子设备将初始文本对应的第二增强文本输入预训练模型中进行编码,得到第二增强文本中每个字的第三字编码向量。
预训练模型可以是BERT模型,也可以是RoBERTa模型(Robustlyoptimized BERTPretraining approach,稳健优化的BERT预训练方法)。
计算机设备输入所述初始文本至所述预训练模型的输入层,所述输入层将所述初始文本输入至子词编码器层进行编码,通过所述子词编码器层输出所述初始文本中的多个子词(subword)。子词编码器层输入所述多个子词至双向表征编码器层进行进一步编码,通过双向表征编码器层输出每个子词的表征向量,所述表征向量用于唯一表示所述子词,其中,所述双向表征编码器层采用字节对编码(Byte-Pair Encoding,BPE)技术进行编码。
第一增强文本中每个字的第二字编码向量及第二增强文本中每个字的第三字编码向量的编码过程同初始文本中每个字的第一字编码向量。
所述双向表征编码器层不仅能够高效捕捉更长距离的语义依赖关系,而且能够获取双向的上下文信息来生成语义信息更丰富的向量表示。
所述变换模块204,用于将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量。
在所述预训练模型后面连接一个average pooling层,将初始文本中所有字的第一字编码向量输入至average pooling层中进行平均得到该初始文本的第一句向量,将第一增强文本中所有字的第二字编码向量输入至average pooling层中进行平均得到该第一增强文本的第二句向量,将第二增强文本中所有字的第三字编码向量输入至averagepooling层中进行平均得到该第二增强文本的第三句向量。
电子设备可以通过标准化流对句向量分布进行变换成一个光滑的、各向同性的标准高斯分布。标准化流即定义一个从潜在空间z和观测空间u的可逆变换,具体的生成过程为:z~p(z),u=f(z),其中,p(z)为先验分布,z->u是可逆变换。
所述计算模块205,用于根据多个所述标准句向量计算第一相似度和第二相似度。
在一个可选的实施方式中,所述计算模块205根据多个所述标准句向量计算第一相似度和第二相似度包括:
从所述初始文本集中获取多个文本对,其中,每个所述文本对包括第一初始文本和第二初始文本;
计算所述第一初始文本对应的第一增强文本的标准句向量和第二增强文本的标准句向量之间的相似度,得到第一相似度;
计算所述第一初始文本对应的第一增强文本的标准句向量和所述第二初始文本对应的第一增强文本的标准句向量之间的相似度,得到第二相似度;
计算所述第一初始文本对应的第二增强文本的标准句向量和所述第二初始文本对应的第二增强文本的标准句向量之间的相似度,得到第二相似度。
从所述初始文本集中获取的文本对的数量取决于初始文本集中初始文本的数量,例如,初始文本集中包括N个初始文本,则文本对的数量为N*(N-1)/2。
原先有N个初始文本,经过2次增强处理得到了2N个增强文本,计算两两增强文本之间的相似度。同一个初始文本Xi增强得到的两个增强文本计算第一相似度,即初始文本Xi的第一增强文本Xi 1和第二增强文本Xi 2之间的相似度。不同初始文本Xi和Xj增强得到的增强文本Xi 1,Xi 2和Xj 1,Xj 2,两两之间计算第二相似度,即初始文本Xi的增强文本Xi r和初始文本Xj的增强文本Xj r之间的相似度,其中r=1,2。
由于词频的差异会带来较大的距离偏差,从而字向量的距离就不能很好地代表语义相关性,通过句向量则能有效的表达语义相关性。
所述训练模块206,用于根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型。
可以使用infoNCE的变种NT-Xent损失函数作为目标损失函数。
将所述第一相似度及所述第二相似度输入至目标损失函数中计算损失函数值,当损失函数值小于或等于预设损失函数阈值时,结束预训练模型的训练过程,并更新所述预训练模型中的参数,得到语义提取模型。
所述提取模块207,用于使用所述语义提取模型提取待处理文本的语义向量。
待处理文本是指需要进行语义向量提取的文本。
将待处理文本输入语义提取模型中,即可提取待处理文本的语义向量。具体实施时,对待处理文本进行分词处理,得到多个分词,根据所述多个分词对所述待处理文本进行第一增强处理,得到第一待处理增强文本,及根据所述多个分词对所述待处理文本进行第二增强处理,得到第二待处理增强文本。将所述第一待处理增强文本及所述第二待处理增强文本分别输入预语义提取模型中,通过语义提取模型输出待处理文本的语义向量。
所述分类模块208,用于在所述使用所述语义提取模型提取待处理文本的语义向量之后,对所述待处理文本进行分类,得到所述待处理文本的领域类型。
在一个可选的实施方式中,所述分类模块208对所述待处理文本进行分类,得到所述待处理文本的领域类型包括:
获取本地数据库中存储的多个存储文本的语义向量;
根据所述待处理文本的语义向量与每个所述存储文本的语义向量计算所述待处理文本与所述存储文本之间的距离;
根据所述距离确定所述待处理文本的领域类型。
其中,本地数据库中存储了多个存储文本,每个存储文本可以采用本发明所述的方法提取语义向量,每个存储文本还对应有类型标签,用以标识对应的存储文本所属的领域类型,例如,医疗领域,美术领域等。
通过计算语义向量之间的欧式距离可以得到待处理文本与每个存储文本之间的距离,距离越大,则表明待处理文本与存储文本越可能属于不同的领域类型,距离越小,则表明待处理文本与存储文本越可能属于同一个领域类型。
电子设备可以确定最大的距离对应的目标存储文本,将目标存储文本的领域类型确定为待处理文本的领域类型。
电子设备还可以将距离按照从小到大进行排序,选取排序在前K个的距离对应的目标存储文本,计算K个目标存储文本中相同领域类型的数量,将数量最多的领域类型确定为待处理文本的领域类型。
在一个可选的实施方式中,在计算每个分词在所述初始文本集中的TF-IDF之后,所述分类模块208还用于:
获取所述TF-IDF中大于所述预设TF-IDF阈值的第二目标TF-IDF;
将所述第二目标TF-IDF对应的分词作为重点词;
基于所述重点词构建重点词字典;
对所述待处理文本进行分词处理得到多个分词;
将所述多个分词中的每个分词与所述重点词字典进行匹配并计算匹配度;
判断所述匹配度是否大于预设匹配度阈值;
当所述匹配度小于所述预设匹配度阈值时,识别所述待处理文本为噪声文本。
计算机设备可以采用分词工具,例如,结巴分词,对所述待处理文本进行分词,得到多个分词,将每个分词与重点词字典中的每个重点词进行匹配,计算分词中与重点词匹配成功的分词的第一分词数量,计算多个分词的第二分词数量,计算第一分词数量与第二分词数量之间的比值得到匹配度,根据所述匹配度确定所述待处理文本是否为噪声文本。当匹配度大于或者等于所述预设匹配度阈值时,识别所述待处理文本为专业领域中的文本;当匹配度小于所述预设匹配度阈值时,识别所述待处理文本为噪声文本。
本发明所述的基于人工智能的语义提取装置,在获取到初始文本集之后,通过对初始文本集中的每个初始文本进行分词处理,得到多个分词,然后根据所述分词对所述每个初始文本进行第一增强处理和第二增强处理,得到两个增强文本,增强处理后的文本较初始文本更易贴合业务场景,从而使得基于增强文本训练得到的语义提取模型更具实用价值,接着通过预训练模型对增强文本进行编码,得到多个字编码向量,将多个字编码向量输入平均池化层得到多个句向量,为了解决句向量易受到词频的影响的问题,通过将多个句向量分布变换成标准高斯分布,得到多个标准句向量,标准句向量能够很好地代表语义相关性,从而在根据多个所述标准句向量计算第一相似度和第二相似度之后,根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到训练效果较佳的语义提取模型,最后使用所述语义提取模型能够准确的提取待处理文本的语义向量。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于人工智能的语义提取方法实施例中的步骤,例如图1所示的S11-S15:
S11,对初始文本集中的每个初始文本进行分词处理,得到多个分词;
S12,根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本;
S13,将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量;
S14,将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量;
S15,根据多个所述标准句向量计算第一相似度和第二相似度;
S16,根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型;
S17,使用所述语义提取模型提取待处理文本的语义向量。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-207:
所述分词模块201,用于对初始文本集中的每个初始文本进行分词处理,得到多个分词;
所述增强模块202,用于根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本;
所述编码模块203,用于将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量;
所述变换模块204,用于将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量;
所述计算模块205,用于根据多个所述标准句向量计算第一相似度和第二相似度;
所述训练模块206,用于根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型;
所述提取模块207,用于使用所述语义提取模型提取待处理文本的语义向量。
该计算机程序被处理器执行时还实现上述装置实施例中各模块/单元的功能,例如图2中的分类模块208,具体请参见实施例二及其相关描述。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的语义提取方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的语义提取方法的全部或者部分步骤;或者实现基于人工智能的语义提取装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于人工智能的语义提取方法,其特征在于,所述方法包括:
对初始文本集中的每个初始文本进行分词处理,得到多个分词;
根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本;
将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量;
将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量;
根据多个所述标准句向量计算第一相似度和第二相似度;
根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型;
使用所述语义提取模型提取待处理文本的语义向量。
2.如权利要求1所述的基于人工智能的语义提取方法,其特征在于,所述根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本包括:
计算所述初始文本中的多个分词的数量;
循环遍历所述初始文本中的多个分词,在每次遍历中根据所述数量产生一个随机数;
将每次循环当前位置的分词和所述随机数对应的位置的分词进行交换;
在循环遍历的次数达到预设次数阈值时,得到所述第一增强文本。
3.如权利要求1所述的基于人工智能的语义提取方法,其特征在于,所述根据多个所述标准句向量计算第一相似度和第二相似度包括:
从所述初始文本集中获取多个文本对,其中,每个所述文本对包括第一初始文本和第二初始文本;
计算所述第一初始文本对应的第一增强文本的标准句向量和第二增强文本的标准句向量之间的相似度,得到第一相似度;
计算所述第一初始文本对应的第一增强文本的标准句向量和所述第二初始文本对应的第一增强文本的标准句向量之间的相似度,得到第二相似度;
计算所述第一初始文本对应的第二增强文本的标准句向量和所述第二初始文本对应的第二增强文本的标准句向量之间的相似度,得到第二相似度。
4.如权利要求1至3中任意一项所述的基于人工智能的语义提取方法,其特征在于,所述根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本包括:
提取所述初始文本中每个分词的词嵌入向量;
计算每个分词在所述初始文本集中的TF-IDF;
获取所述TF-IDF中小于预设TF-IDF阈值的第一目标TF-IDF;
将所述第一目标IF-IDF对应分词的词嵌入向量进行置换处理;
根据置换处理后的分词生成新的文本,作为所述第二增强文本。
5.如权利要求4所述的基于人工智能的语义提取方法,其特征在于,所述计算每个分词在所述初始文本集中的TF-IDF之后,所述方法还包括:
获取所述TF-IDF中大于所述预设TF-IDF阈值的第二目标TF-IDF;
将所述第二目标TF-IDF对应的分词作为重点词;
基于所述重点词构建重点词字典;
对所述待处理文本进行分词处理得到多个分词;
将所述多个分词中的每个分词与所述重点词字典进行匹配并计算匹配度;
判断所述匹配度是否大于预设匹配度阈值;
当所述匹配度小于所述预设匹配度阈值时,识别所述待处理文本为噪声文本。
6.如权利要求5所述的基于人工智能的语义提取方法,其特征在于,所述使用所述语义提取模型提取待处理文本的语义向量之后,所述方法还包括:
获取本地数据库中存储的多个存储文本的语义向量;
根据所述待处理文本的语义向量与每个所述存储文本的语义向量计算所述待处理文本与所述存储文本之间的距离;
根据所述距离确定所述待处理文本的领域类型。
7.如权利要求1至3中任意一项所述的基于人工智能的语义提取方法,其特征在于,所述将所述多个句向量分布变换成标准高斯分布包括:
通过标准化流将每个所述句向量分布变换成一个光滑的、各向同性的标准高斯分布。
8.一种基于人工智能的语义提取装置,其特征在于,所述装置包括:
分词模块,用于对初始文本集中的每个初始文本进行分词处理,得到多个分词;
增强模块,用于根据所述分词对所述每个初始文本进行第一增强处理,得到第一增强文本,及根据所述分词对所述每个初始文本进行第二增强处理,得到第二增强文本;
编码模块,用于将所述每个初始文本及所述每个初始文本对应的所述第一增强文本及所述第二增强文本分别输入预训练模型中进行编码,得到多个字编码向量;
变换模块,用于将所述多个字编码向量输入平均池化层得到多个句向量,并将多个所述句向量分布变换成标准高斯分布,得到多个标准句向量;
计算模块,用于根据多个所述标准句向量计算第一相似度和第二相似度;
训练模块,用于根据所述第一相似度和所述第二相似度计算损失函数值,并基于所述损失函数值迭代训练所述预训练模型,得到语义提取模型;
提取模块,用于使用所述语义提取模型提取待处理文本的语义向量。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于人工智能的语义提取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于人工智能的语义提取方法。
CN202111372096.0A 2021-11-18 2021-11-18 基于人工智能的语义提取方法、装置、电子设备及介质 Pending CN114077841A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111372096.0A CN114077841A (zh) 2021-11-18 2021-11-18 基于人工智能的语义提取方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111372096.0A CN114077841A (zh) 2021-11-18 2021-11-18 基于人工智能的语义提取方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN114077841A true CN114077841A (zh) 2022-02-22

Family

ID=80283983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111372096.0A Pending CN114077841A (zh) 2021-11-18 2021-11-18 基于人工智能的语义提取方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN114077841A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017915A (zh) * 2022-05-30 2022-09-06 北京三快在线科技有限公司 一种模型训练、任务执行的方法及装置
CN115017264A (zh) * 2022-06-13 2022-09-06 特赞(上海)信息科技有限公司 模型效果验证方法及装置
CN115358213A (zh) * 2022-10-20 2022-11-18 阿里巴巴(中国)有限公司 模型数据处理及模型预训练方法、电子设备及存储介质
CN116150380A (zh) * 2023-04-18 2023-05-23 之江实验室 一种文本匹配方法、装置、存储介质及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017915A (zh) * 2022-05-30 2022-09-06 北京三快在线科技有限公司 一种模型训练、任务执行的方法及装置
CN115017264A (zh) * 2022-06-13 2022-09-06 特赞(上海)信息科技有限公司 模型效果验证方法及装置
CN115358213A (zh) * 2022-10-20 2022-11-18 阿里巴巴(中国)有限公司 模型数据处理及模型预训练方法、电子设备及存储介质
CN116150380A (zh) * 2023-04-18 2023-05-23 之江实验室 一种文本匹配方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN113822494A (zh) 风险预测方法、装置、设备及存储介质
CN114077841A (zh) 基于人工智能的语义提取方法、装置、电子设备及介质
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN113761218A (zh) 一种实体链接的方法、装置、设备及存储介质
CN111460797B (zh) 关键字抽取方法、装置、电子设备及可读存储介质
CN113821622B (zh) 基于人工智能的答案检索方法、装置、电子设备及介质
CN113157739B (zh) 跨模态检索方法、装置、电子设备及存储介质
CN114398557B (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
CN113706322A (zh) 基于数据分析的服务分发方法、装置、设备及存储介质
CN114880449B (zh) 智能问答的答复生成方法、装置、电子设备及存储介质
CN114626731A (zh) 风险识别方法、装置、电子设备及计算机可读存储介质
CN116821373A (zh) 基于图谱的prompt推荐方法、装置、设备及介质
WO2023272862A1 (zh) 基于网络行为数据的风控识别方法、装置、电子设备及介质
CN115221276A (zh) 基于clip的中文图文检索模型训练方法、装置、设备及介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN115309865A (zh) 基于双塔模型的交互式检索方法、装置、设备及存储介质
CN113658002B (zh) 基于决策树的交易结果生成方法、装置、电子设备及介质
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN112395432B (zh) 课程推送方法、装置、计算机设备及存储介质
Xu et al. Short text classification of chinese with label information assisting
CN112347739A (zh) 适用规则分析方法、装置、电子设备及存储介质
CN116741358A (zh) 问诊挂号推荐方法、装置、设备及存储介质
CN116306656A (zh) 实体关系抽取方法、装置、设备及存储介质
CN113706207B (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
WO2022142019A1 (zh) 基于智能机器人的问题分发方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination