CN113064997A - 基于bert模型的意图分析方法、装置、设备及介质 - Google Patents
基于bert模型的意图分析方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113064997A CN113064997A CN202110435237.2A CN202110435237A CN113064997A CN 113064997 A CN113064997 A CN 113064997A CN 202110435237 A CN202110435237 A CN 202110435237A CN 113064997 A CN113064997 A CN 113064997A
- Authority
- CN
- China
- Prior art keywords
- information
- sentence
- vector
- sentence vector
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 241
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000003860 storage Methods 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 230000004044 response Effects 0.000 claims description 44
- 238000003062 neural network model Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能,公开了一种基于BERT模型的意图分析方法,包括:获取到语句信息时,利用BERT模型将所述语句信息转换为字向量序列;利用条件随机场算法生成所述字向量序列对应的标注向量序列;将所述字向量序列与所述标注向量序列进行融合,得到第一句向量;以及,利用自注意力机制对所述字向量序列进行处理,得到第二句向量;将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量;对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息。本申请还涉及区块链技术。本申请还公开了一种基于BERT模型的意图分析装置、计算机设备以及计算机可读存储介质。本申请提高了识别用户意图的准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于BERT模型的意图分析方法、基于BERT模型的意图分析装置、计算机设备以及计算机可读存储介质。
背景技术
人工智能作为一项重要技术,已经广泛的运用到我们的生活和生产中,随着人工智能技术的发展和运用领域的逐渐深入,人们对意图识别环境的复杂性和准确率提出了更高的要求。
目前,意图识别的主要技术手段基本都是将语句信息切成字或词,分别获取字或词的向量,然后累加求和,从而进行意图类别的判断,但这样存在的弊端在于噪音数据的字向量或词向量在对句向量累加求和的过程中,会对句向量的语义表达带来干扰,最终影响到对用户意图的判断,即对用户意图判断的准确率低下。
上述内容仅用于辅助理解本申请的技术方案,并不代表承认上述内容是现有技术。
发明内容
本申请的主要目的在于提供一种基于BERT模型的意图分析方法、基于BERT模型的意图分析装置、计算机设备以及计算机可读存储介质,旨在解决如何在对用户意图分析的过程中,减少语句中的噪音数据,以提高对用户意图分析的准确率的问题。
为实现上述目的,本申请提供一种基于BERT模型的意图分析方法,包括以下步骤:
获取到语句信息时,利用BERT模型将所述语句信息转换为字向量序列;
利用条件随机场算法生成所述字向量序列对应的标注向量序列;
将所述字向量序列与所述标注向量序列进行融合,得到第一句向量;以及,
利用自注意力机制对所述字向量序列进行处理,得到第二句向量;
将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量;
对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息。
进一步地,所述利用条件随机场算法生成所述字向量序列对应的标注向量序列的步骤包括:
利用条件随机场算法计算所述字向量序列对应的预测概率;
根据所述预测概率生成所述字向量序列对应的标注向量序列。
进一步地,所述将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量的步骤包括:
根据所述第一句向量对应的第一准确率和所述第二句向量对应的第二准确率,确定所述第一句向量对应的第一权重和所述第二句向量对应的第二权重,其中,所述第一准确率根据历史第一句向量和历史意图信息之间的相似度确定,所述第二准确率根据历史第二句向量和历史意图信息之间的相似度确定;
基于所述第一权重和所述第二权重,对所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量。
进一步地,所述对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息的步骤之后,还包括:
获取所述意图信息对应的响应信息;
根据所述响应信息对所述语句信息对应的业务进行处理。
进一步地,所述获取所述意图信息对应的响应信息的步骤包括:
将所述意图信息输入到神经网络模型进行分析,以获取所述意图信息对应的响应信息,其中,所述神经网络模型基于多个意图信息样本,以及所述意图信息样本对应的响应信息训练得到。
进一步地,所述根据所述响应信息对所述语句信息对应的业务进行处理的步骤之后,还包括:
检测到所述业务处理成功时,根据所述意图信息和所述字向量序列更新所述BERT模型。
进一步地,所述对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息的步骤之后,还包括:
根据所述语句信息和所述意图信息生成数据组;
将所述数据组发送至存储服务端以块链式账本进行存储。
为实现上述目的,本申请还提供一种基于BERT模型的意图分析装置,所述基于BERT模型的意图分析装置包括:
转换模块,用于获取到语句信息时,利用BERT模型将所述语句信息转换为字向量序列;
生成模块,用于利用条件随机场算法生成所述字向量序列对应的标注向量序列;
融合模块,用于将所述字向量序列与所述标注向量序列进行融合,得到第一句向量;以及,
第一处理模块,用于利用自注意力机制对所述字向量序列进行处理,得到第二句向量;
第二处理模块,用于将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量;
第三处理模块,用于对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息。
为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括:
所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述基于BERT模型的意图分析方法的步骤。
为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于BERT模型的意图分析方法的步骤。
本申请提供的基于BERT模型的意图分析方法、基于BERT模型的意图分析装置、计算机设备以及计算机可读存储介质,通过对语句信息进行关键信息的提取,以剔除噪音数据,并将提取得到的关键信息与利用自注意力机制对语句信息分析得到的句向量进行融合,避免了关键信息提取时可能产生的偏差,从而提高了最终得到的意图信息的准确率。
附图说明
图1为本申请一实施例中基于BERT模型的意图分析方法步骤示意图;
图2为本申请一实施例的基于BERT模型的意图分析装置示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,在一实施例中,所述基于BERT模型的意图分析方法包括:
步骤S10、获取到语句信息时,利用BERT模型将所述语句信息转换为字向量序列;
步骤S20、利用条件随机场算法生成所述字向量序列对应的标注向量序列;
步骤S30、将所述字向量序列与所述标注向量序列进行融合,得到第一句向量;以及,
步骤S40、利用自注意力机制对所述字向量序列进行处理,得到第二句向量;
步骤S50、将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量;
步骤S60、对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息。
本实施例中,实施例终端可以是计算机设备,也可以是基于BERT模型的意图分析装置。
如步骤S10所述:所述语句信息可以是终端从接收到的语音信息或文字内容信息中获取得到的,该语句信息即为待终端对其中的语句进行意图分析的信息。
可选的,终端预先基于人工智能和语义解析技术,训练有字向量级别的分类模型:BERT(Bidirectional Encoder Representations fromTransformers,双向注意力神经网络模型)模型。其中,BERT模型可以是基于数量足够多的语句信息及语句信息对应的意图信息所组成的样本训练得到。
可选的,终端在获取到语句信息时,则将一整段语句信息逐句逐字切分为单个的“字”,然后将所有的“字”进行one-hot编码后得到向量序列A=(A1,A2,…,An),再将向量序列A输入到BERT模型中进行转换(即将An转换为BERT模型所能识别的字向量),以得到字向量序列M=(M1,M2,…,Mn);其中n即为语句信息中的字数。字向量序列的表达式可以是:M=BERT(A),其中BERT()即表示为BERT模型在进行向量转换时所采用的处理函数。
如步骤S20所述:BERT模型中融合有CRF(Conditional Random Fields,条件随机场)单元,或者终端训练有CRF模型。
可选的,终端在得到语句信息对应的字向量序列后,则将字向量序列输入到CRF单元或CRF模型中,以利用条件随机场算法生成字向量序列对应的标注向量序列。
需要说明的是,条件随机场是条件概率分布模型,表示的是给定一组输入随机变量x的条件下另一组输出随机变量y的马尔可夫随机场,而这一过程需要计算预测概率P(y|x)。
可选的,字向量序列对应的预测概率P(y|x),表示给定输入序列x,对输出序列y预测的条件概率,其计算公式如下:
其中,K=K1+K2,K1为转移特征,K2为状态特征;
其中,tk为特征转移函数,依赖于当前和前一个位置;sl为状态转移函数,依赖于当前位置;tk和sl的取值为0或1,且tk对应的权值为λk,sl对应的权值为ul;而wk为特征函数fk(y,x)对应的权值,因此wk即为:
可选的,在得到字向量序列对应的预测概率P(y|x)后,在此基础上可利用预设公式进一步计算字向量序列对应的标注向量序列Y:
Y=[arg(max(P(y|x)))]T
其中,T表示矩阵转置;计算得到的标注向量序列Y可表示为或表示为(y1,y2,…,yn)T,且序列中各标注向量的值为0或1。这样,相当于利用预设公式求出使得预测概率P(y|x)出现最大值的参数,再将计算结果进行矩阵转置,从而得到字向量序列M对应的标注向量序列Y。
如步骤S30所述:终端在得到标注向量序列Y后,则将字向量序列M与标注向量序列Y相乘,以将两者进行融合处理,得到第一句向量S1=M*Y。应当理解的是,M与Y相乘后则将剩余的字向量按其在字向量序列中位置的先后顺序,将剩余的字向量拼接为第一句向量。
这样,相当于利用条件随机场算法标注字向量序列中每个字向量对应的字义的权值,且标注字义重要的字向量对应的权值为1,标注字义不重要或无意义的字向量对应的权值为0,使得融合得到的第一句向量中,去除了字义不重要或无意义的字向量(例如可以去除一些语气词),这样就可以剔除语句信息中的噪音数据。
如步骤S40所述:BERT模型中融合有自注意力机制(Self-attention Mechanism)单元,自注意力机制函数的本质可以被描述为一个查询(Query)到一系列键值对(key-value)对的映射。
可选的,在终端执行步骤S20-S30,以得到第一句向量S1的过程中,同时可并行执行步骤S40,即当终端执行步骤S10得到字向量序列后,还可以将字向量序列输入到自注意力机制单元中,以利用自注意力机制对所述字向量序列进行处理。
可选的,利用自注意力机制可将输入的字向量序列M先转换为Q(Query),K3(Key),V(Value)三个矩阵,其中,Q为每个字向量对应的真实值(即字向量本身),此处相当于需要查询的向量(查询字义);K3和V即由字向量序列对应的键值对(key-value)得到,且V相当于与Q映射的字义。然后在此基础上,再利用自注意力机制作进一步字义分析处理,提取出关键字义,再将其融合求和,得到第二句向量。第二句向量S2的具体计算公式如下:
S2=V×softmax(Ra×K3×tanh(Wa×Q))
其中,Ra和Wa都是自注意力机制预先学习得到的参数矩阵,用于明确字向量与字义之间的相关性,即对Q与V进行相似度计算得到的。
如步骤S50所述:当终端得到第一句向量S1和第二句向量S2后,则将两者进行加权求和处理,以计算第三句向量S3。
其中,第一句向量S1对应的权重p可以是由相关工程师根据实际情况需要预先设置的(如设置为0.3、0.5、0.7等),也可以是经过模型训练后获取的,而第二句向量S2对应的权重即为(1-p)。
可选的,第三句向量S3的计算公式如下:
S3=p×S1+(1-p)×S2
如步骤S60所述:当终端得到第三句向量S3后,则利用BERT模型的全连接层和softmax层对第三句向量S3进行求和及归一化处理,得到BERT模型的输出结果O为:
O=argmax(softmax(FC(S3)))
其中,FC()表示为BERT模型的全连接层对应使用的处理函数。
进一步地,对应输出结果O,终端判断其中最大概率值的位置,并基于最大概率值的位置完成意图分类识别,从而得到初始获取到的语句信息对应的意图信息。
当然,BERT模型的输出结果O实质上相当于已进行噪音数据剔除后的语句信息,那么终端在得到输出结果O后,也可以是利用常规的语义分析技术,直接将其转换为对应的意图信息亦可。
在一实施例中,通过对语句信息进行关键信息的提取,以剔除噪音数据,并将提取得到的关键信息与利用自注意力机制对语句信息分析得到的句向量进行融合,避免了关键信息提取时可能产生的偏差,从而提高了最终得到的意图信息的准确率。
在一实施例中,在上述实施例基础上,所述将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量的步骤包括:
步骤S51、根据所述第一句向量对应的第一准确率和所述第二句向量对应的第二准确率,确定所述第一句向量对应的第一权重和所述第二句向量对应的第二权重,其中,所述第一准确率根据历史第一句向量和历史意图信息之间的相似度确定,所述第二准确率根据历史第二句向量和历史意图信息之间的相似度确定;
步骤S52、基于所述第一权重和所述第二权重,对所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量。
本实施例中,终端会利用语句信息及语句信息对应的意图信息所组成的样本训练训练BERT模型,并在训练BERT模型的过程中,针对每份样本中的语句信息执行步骤S10-步骤S60,以通过BERT模型生成意图信息,再将模型生成的意图信息与样本中标注的意图信息进行对比,最后再利用对比结果不断修正和更新BERT模型的模型参数,以最终得到训练完成的BERT模型。
可选的,终端在利用BERT模型分析语句信息对应的意图信息的过程中,在每次分析得到意图信息后,可以将该意图信息对应的语句信息的第一句向量和第二句向量,分别作为历史第一句向量和历史第二句向量,并将该意图信息更新为历史意图信息,然后将同一份语句信息对应的历史第一句向量、历史第二句向量和历史意图信息划分为同一数据组。应当理解的是,终端利用BERT模型分析多份语句信息后,即可得到多份数据组。
进一步地,针对同一数据组中的历史第一句向量和历史第二句向量,分别进行求和与归一化处理,得到历史第一句向量对应的第一意图信息,以及历史第二句向量对应的第二意图信息。然后分析并记录第一意图信息与历史意图信息之间的第一相似度(相当于历史第一句向量和历史意图信息之间的相似度),以及分析并记录第二意图信息与历史意图信息之间的第二相似度(相当于历史第二句向量和历史意图信息之间的相似度)。
进一步地,终端基于多个数据组得到多个第一相似度后,则进一步求出多个第一相似度的均值,作为第一句向量对应的第一准确率;以及,进一步求出多个第二相似度的均值,作为第二句向量对应的第二准确率。
可选的,当终端每次基于步骤S50,对基于当前正利用BERT模型分析的语句信息得到的第一句向量和第二句向量进行加权求和计算时,则先获取第一句向量对应的第一准确率和第二句向量对应的第二准确率。应当理解的是,待进行加权求和处理的第一句向量和第二句向量,即为当前第一句向量和当前第二句向量,而第一准确率则是利用至少一个历史第一句向量确定得到的,第二准确率同为利用至少一个历史第二句向量确定得到的。
进一步地,终端计算第一准确率和第二准确率之间的总值,然后利用第一准确率除以总值,即可计算得到第一权重,以及利用第二准确率除以总值,即可计算得到第二权重。应当理解的是,句向量对应的准确率越高,则其最终确定得到的权重越大。
终端在得到第一权重和第二权重后,再基于此对第一句向量(即当前第一句向量)和第二句向量(即当前第二句向量)进行加权求和处理,进而得到第三句向量。具体计算公式如下:
S3=p1×S1+p2×S2
其中,S3为第三句向量,S1为第一句向量,S2为第二句向量,p1为第一权重,p2为第二权重。
这样,相当于实现了直接基于CRF和自注意力机制进行意图分析时的准确率,确定基于CRF和自注意力机制分别得到的第一句向量和第二句向量的权重,使得准确率高的模块分配更高的权重,提高了基于此得到的第三句向量的准确率,进而基于第三句向量得到更为准确的意图信息。
在一实施例中,在上述实施例基础上,所述对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息的步骤之后,还包括:
步骤S70、获取所述意图信息对应的响应信息;
步骤S80、根据所述响应信息对所述语句信息对应的业务进行处理。
本实施例中,终端可以是线上业务处理系统(如一种线上金融服务平台),或者终端也可以是与线上业务处理系统建立有通信连接。其中,当用户在线上业务处理系统办理业务时,终端可以接收用户发起的语音信息或文字内容信息,并从中获取语句信息。例如,终端在向用户提供人工智能语音服务的过程中,可以将用户响应的语音信息转换为文字内容信息,以从中获取语句信息。
可选的,终端预先建立有各种意图信息与意图信息对应的响应信息之间的映射关系,当终端基于BERT模型对获取得到的语句信息进行意图分析,得到语句信息对应的意图信息后,则可以根据映射关系查询与分析得到的意图信息对应的响应信息。
进一步地,终端可以获取查询得到的响应信息,然后基于此对当前所分析的语句信息对应的用户当前办理的业务进行业务处理,以对用户发起的语音信息或文字内容信息作出响应。例如,针对一条“额,我想问一下,如何申请贷款”的语句信息,终端先通过意图分析得到语句信息对应的意图信息为“如何申请贷款”,再查询得到与“如何申请贷款”对应的贷款流程的相关信息作为响应信息。
可选的,若用户是以语音信息(或文字内容信息)发起业务询问时,则终端可以根据查询得到的响应信息以语音的形式(或文字显示的形式)作出应答响应;若用户是以语音信息(或文字内容信息)发出业务办理的相关指令时,则终端可以根据查询得到的响应信息进一步查询该响应信息对应的响应操作,并通过执行该响应操作,以对用户当前办理的业务作出响应处理。
这样,在提高了对语句信息进行意图分析的准确率的同时,基于高准确率的意图信息获取相应的响应信息对用户业务进行处理时,同样可以提高作出业务响应的准确率。
在一实施例中,在上述实施例基础上,所述获取所述意图信息对应的响应信息的步骤包括:
步骤S71、将所述意图信息输入到神经网络模型进行分析,以获取所述意图信息对应的响应信息,其中,所述神经网络模型基于多个意图信息样本,以及所述意图信息样本对应的响应信息训练得到。
本实施例中,终端预先构建有神经网络模型,并利用多个意图信息样本对神经网络模型进行训练,所述意图信息样本多种多样,且数量足够多,如超过一万份样本。
可选的,工程师可以预先在每份意图信息样本中标注有样本中的意图信息对应的响应信息,然后再将标注后的意图信息样本输入到终端,由终端将多个意图信息样本输入到神经网络模型中进行训练,以训练样本中的意图信息与响应信息之间的映射关系。
当神经网络模型经过多次迭代训练后,模型则会达到收敛,而当终端检测到神经网络模型收敛时,则判定神经网络模型训练完成。
进一步地,当终端对语句信息进行意图分析,得到语句信息对应的意图信息后,则将意图信息输入到训练完成的神经网络模型中进行分析,由神经网络模型根据之前训练得到的映射关系,查询终端输入的意图信息对应的响应信息,并将查询得到的响应信息作为模型输出。而终端则获取神经网络模型的输出值,作为意图信息对应的响应信息。
这样,可以利用机器学习的算力,达到节省人工建立意图信息与响应信息之间的映射关系的成本。
在一实施例中,在上述实施例基础上,所述根据所述响应信息对所述语句信息对应的业务进行处理的步骤之后,还包括:
步骤S90、检测到所述业务处理成功时,根据所述意图信息和所述字向量序列更新所述BERT模型。
本实施例中,终端根据响应信息对用户当前办理的业务作出响应处理后,可以检测当前业务是否处理成功。
其中,当用户是以语音信息(或文字内容信息)发起业务询问时,则终端根据查询得到的响应信息以语音的形式(或文字显示的形式)作出应答响应之后,若检测到用户基于应答响应作出正向反馈后,则判定当前业务处理成功,否则则判定当前业务处理失败;当用户是以语音信息(或文字内容信息)发出业务办理的相关指令时,则终端根据查询得到的响应信息进一步查询该响应信息对应的响应操作,并通过执行该响应操作,以对用户当前办理的业务作出响应处理之后,若检测到当前业务成功进入下一流程环节时,则判定当前业务处理成功,否则则判定当前业务处理失败。
可选的,当终端检测到当前业务处理成功时,则将用于处理该业务的响应信息对应的意图信息,以及该意图信息对应的字向量序列(或语句信息)作为BERT模型的训练样本,并基于此更新BERT模型的模型参数,从而提高终端基于BERT模型分析用户意图的准确率。
在一实施例中,在上述实施例基础上,所述对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息的步骤之后,还包括:
步骤S100、根据所述语句信息和所述意图信息生成数据组;
步骤S101、将所述数据组发送至存储服务端以块链式账本进行存储。
本实施例中,终端与基于区块链技术构建的存储服务端建立有通信连接。
当终端分析得到语句信息对应的意图信息时,可以根据语句信息和意图信息生成数据组,并将数据组与该语句信息对应的用户在线上业务处理系统上的用户账户关联,然后将数据组发送至存储服务端。应当理解的是,语句信息对应的用户,即为发出用于提取语句信息的语音信息或文字内容信息的用户。
可选的,当存储服务端接收到终端发送的数据组时,则将数据组以块链式的账本存储到区块链网络中。账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易的快速查询。
需要说明的是,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
这样,提高了用户对应的意图信息进行存储的安全性,避免因意图信息泄露而导致用户相关利益受损。
参照图2,本申请实施例中还提供一种基于BERT模型的意图分析装置10,包括:
转换模块11,用于获取到语句信息时,利用BERT模型将所述语句信息转换为字向量序列;
生成模块12,用于利用条件随机场算法生成所述字向量序列对应的标注向量序列;
融合模块13,用于将所述字向量序列与所述标注向量序列进行融合,得到第一句向量;以及,
第一处理模块14,用于利用自注意力机制对所述字向量序列进行处理,得到第二句向量;
第二处理模块15,用于将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量;
第三处理模块16,用于对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于BERT模型的意图分析方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于BERT模型的意图分析方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的基于BERT模型的意图分析方法的步骤。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的基于BERT模型的意图分析方法、基于BERT模型的意图分析装置、计算机设备和存储介质,通过对语句信息进行关键信息的提取,以剔除噪音数据,并将提取得到的关键信息与利用自注意力机制对语句信息分析得到的句向量进行融合,避免了关键信息提取时可能产生的偏差,从而提高了最终得到的意图信息的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于BERT模型的意图分析方法,其特征在于,包括:
获取到语句信息时,利用BERT模型将所述语句信息转换为字向量序列;
利用条件随机场算法生成所述字向量序列对应的标注向量序列;
将所述字向量序列与所述标注向量序列进行融合,得到第一句向量;以及,
利用自注意力机制对所述字向量序列进行处理,得到第二句向量;
将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量;
对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息。
2.如权利要求1所述的基于BERT模型的意图分析方法,其特征在于,所述利用条件随机场算法生成所述字向量序列对应的标注向量序列的步骤包括:
利用条件随机场算法计算所述字向量序列对应的预测概率;
根据所述预测概率生成所述字向量序列对应的标注向量序列。
3.如权利要求1所述的基于BERT模型的意图分析方法,其特征在于,所述将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量的步骤包括:
根据所述第一句向量对应的第一准确率和所述第二句向量对应的第二准确率,确定所述第一句向量对应的第一权重和所述第二句向量对应的第二权重,其中,所述第一准确率根据历史第一句向量和历史意图信息之间的相似度确定,所述第二准确率根据历史第二句向量和历史意图信息之间的相似度确定;
基于所述第一权重和所述第二权重,对所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量。
4.如权利要求1-3中任一项所述的基于BERT模型的意图分析方法,其特征在于,所述对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息的步骤之后,还包括:
获取所述意图信息对应的响应信息;
根据所述响应信息对所述语句信息对应的业务进行处理。
5.如权利要求4所述的基于BERT模型的意图分析方法,其特征在于,所述获取所述意图信息对应的响应信息的步骤包括:
将所述意图信息输入到神经网络模型进行分析,以获取所述意图信息对应的响应信息,其中,所述神经网络模型基于多个意图信息样本,以及所述意图信息样本对应的响应信息训练得到。
6.如权利要求4所述的基于BERT模型的意图分析方法,其特征在于,所述根据所述响应信息对所述语句信息对应的业务进行处理的步骤之后,还包括:
检测到所述业务处理成功时,根据所述意图信息和所述字向量序列更新所述BERT模型。
7.如权利要求1所述的基于BERT模型的意图分析方法,其特征在于,所述对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息的步骤之后,还包括:
根据所述语句信息和所述意图信息生成数据组;
将所述数据组发送至存储服务端以块链式账本进行存储。
8.一种基于BERT模型的意图分析装置,其特征在于,包括:
转换模块,用于获取到语句信息时,利用BERT模型将所述语句信息转换为字向量序列;
生成模块,用于利用条件随机场算法生成所述字向量序列对应的标注向量序列;
融合模块,用于将所述字向量序列与所述标注向量序列进行融合,得到第一句向量;以及,
第一处理模块,用于利用自注意力机制对所述字向量序列进行处理,得到第二句向量;
第二处理模块,用于将所述第一句向量和所述第二句向量进行加权求和处理,得到第三句向量;
第三处理模块,用于对所述第三句向量进行归一化处理,得到所述语句信息对应的意图信息。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于BERT模型的意图分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于BERT模型的意图分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110435237.2A CN113064997B (zh) | 2021-04-22 | 2021-04-22 | 基于bert模型的意图分析方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110435237.2A CN113064997B (zh) | 2021-04-22 | 2021-04-22 | 基于bert模型的意图分析方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113064997A true CN113064997A (zh) | 2021-07-02 |
CN113064997B CN113064997B (zh) | 2024-05-07 |
Family
ID=76567544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110435237.2A Active CN113064997B (zh) | 2021-04-22 | 2021-04-22 | 基于bert模型的意图分析方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064997B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822522A (zh) * | 2023-06-13 | 2023-09-29 | 连连银通电子支付有限公司 | 一种语义分析方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111738016A (zh) * | 2020-06-28 | 2020-10-02 | 中国平安财产保险股份有限公司 | 多意图识别方法及相关设备 |
CN112084779A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 用于语义识别的实体获取方法、装置、设备及存储介质 |
CN112182022A (zh) * | 2020-11-04 | 2021-01-05 | 北京安博通科技股份有限公司 | 基于自然语言的数据查询方法、装置及翻译模型 |
CN112257449A (zh) * | 2020-11-13 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-04-22 CN CN202110435237.2A patent/CN113064997B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN109388793A (zh) * | 2017-08-03 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111738016A (zh) * | 2020-06-28 | 2020-10-02 | 中国平安财产保险股份有限公司 | 多意图识别方法及相关设备 |
CN112084779A (zh) * | 2020-09-07 | 2020-12-15 | 中国平安财产保险股份有限公司 | 用于语义识别的实体获取方法、装置、设备及存储介质 |
CN112182022A (zh) * | 2020-11-04 | 2021-01-05 | 北京安博通科技股份有限公司 | 基于自然语言的数据查询方法、装置及翻译模型 |
CN112257449A (zh) * | 2020-11-13 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822522A (zh) * | 2023-06-13 | 2023-09-29 | 连连银通电子支付有限公司 | 一种语义分析方法、装置、设备及存储介质 |
CN116822522B (zh) * | 2023-06-13 | 2024-05-28 | 连连银通电子支付有限公司 | 一种语义分析方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113064997B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597991B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN111897673B (zh) | 运维故障根因识别方法、装置、计算机设备和存储介质 | |
CN112612894B (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN113688221B (zh) | 基于模型的话术推荐方法、装置、计算机设备和存储介质 | |
CN114120978A (zh) | 情绪识别模型训练、语音交互方法、装置、设备及介质 | |
CN112637282B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN111901554B (zh) | 基于语义聚类的通话通道构建方法、装置和计算机设备 | |
CN111506710B (zh) | 基于谣言预测模型的信息发送方法、装置和计算机设备 | |
CN112836061A (zh) | 智能推荐的方法、装置以及计算机设备 | |
CN113204619B (zh) | 基于自然语言处理的语句补全方法、装置、设备及介质 | |
CN113204968A (zh) | 医学实体的概念识别方法、装置、设备及存储介质 | |
CN112036172A (zh) | 基于模型的缩写数据的实体识别方法、装置和计算机设备 | |
CN112434335A (zh) | 业务问题的处理方法、装置、计算机设备及存储介质 | |
CN113064997B (zh) | 基于bert模型的意图分析方法、装置、设备及介质 | |
CN113873088A (zh) | 语音通话的交互方法、装置、计算机设备和存储介质 | |
CN113177109A (zh) | 文本的弱标注方法、装置、设备以及存储介质 | |
CN112328285A (zh) | 系统新功能生产更新方法、装置、设备及介质 | |
CN113312481A (zh) | 基于区块链的文本分类方法、装置、设备以及存储介质 | |
CN111883112B (zh) | 基于多模式标识的语义识别方法、装置和计算机设备 | |
CN113919953A (zh) | 跨链生成智能合约的实现方法、装置、设备以及存储介质 | |
CN113177396B (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
CN113157949A (zh) | 事件信息的抽取方法、装置、计算机设备及存储介质 | |
CN114416875A (zh) | 基于区块链的任务处理方法、装置、设备以及存储介质 | |
CN114398183A (zh) | 基于区块链的任务分配方法、装置、设备以及存储介质 | |
CN113643067A (zh) | 基于人工智能的客户筛选方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |