CN112446209A - 一种意图标签的设置方法、设备、装置及存储介质 - Google Patents

一种意图标签的设置方法、设备、装置及存储介质 Download PDF

Info

Publication number
CN112446209A
CN112446209A CN202011359348.1A CN202011359348A CN112446209A CN 112446209 A CN112446209 A CN 112446209A CN 202011359348 A CN202011359348 A CN 202011359348A CN 112446209 A CN112446209 A CN 112446209A
Authority
CN
China
Prior art keywords
intention
vector
recognized
intention label
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011359348.1A
Other languages
English (en)
Inventor
李薿
陈曦
崔艳
庄伯金
王少军
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011359348.1A priority Critical patent/CN112446209A/zh
Publication of CN112446209A publication Critical patent/CN112446209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例属于机器学习领域,涉及一种意图标签的设置方法,所述方法包括:获取至少一个待识别文本;利用预设算法从预设的意图标签列表中确定所述待识别文本的预选意图标签;指示用户就所述预选意图标签的设置结果是否正确进行判断操作;监听所述判断操作的操作结果;若所述操作结果指示所述设置结果正确,则设置所述预选意图标签为所述待识别文本的意图标签。此外,本申请还涉及区块链技术,获取的待识别文本可存储于区块链中。

Description

一种意图标签的设置方法、设备、装置及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种意图标签的设置方法、设置装置、计算机设备及计算机可读存储介质。
背景技术
意图识别是人工智能领域重要的领域。无论是在传统的文本搜索领域还是在逐渐兴起的智能机器人对话领域中,意图的准确定位与识别都是产品可靠性与用户满意度的决定性因素。
在现有技术框架下,意图识别离不开数据集的积累,大量且准确的数据是支撑流程运转的基石。当可使用数据集的数量与多样性指标达不到要求时,意图识别的准确率便无法得到保证。然而,进行初始数据的标注与积累需要大量的人力且十分耗时,而且由于业务场景、目标用户等产品定义的区别,不同垂直领域中意图数据可复用性较低。如何降低数据准备成本,在垂直领域快速获取所需的有标签的数据,一直是当前意图识别的难点。
现有的意图数据标注主要采用了人工阅读并选择相应标签的方式,在意图较多时,这种标注方式的时间成本与标注难度是非常高的,难以提高意图标注的效率。
发明内容
本申请实施例的目的在于提出一种意图标签的一种意图标签的设置方法、设置装置、计算机设备及可读存储介质用以解决现有技术中文本数据意图标签设置有人工标注时效率低下的问题。
为了解决上述技术问题,本申请实施例提供一种意图标签的设置方法、设置装置、计算机设备和计算机可读存储介质,采用了如下所述的技术方案:
第一方面,本申请实施例提供了一种意图标签的设置方法,可以包括:
获取至少一个待识别文本;
利用预设算法从预设的意图标签列表中确定该待识别文本的预选意图标签;
指示用户就该预选意图标签的设置结果是否正确进行判断操作;
监听该判断操作的操作结果;
若该操作结果指示该设置结果正确,则设置该预选意图标签为该待识别文本的意图标签。
第二方面,本申请实施例提供了一种意图标签的设置装置,可以包括:
获取单元,用于获取至少一个待识别文本;
第一意图设置单元,用于利用预设算法从预设的意图标签列表中确定该待识别文本的预选意图标签;
指示单元,用于指示用户就该预选意图标签的设置结果是否正确进行判断操作;
监听单元,用于监听该判断操作的操作结果;
第二意图设置单元,用于若该操作结果指示该设置结果正确,则设置该预选意图标签为该待识别文本的意图标签。
第三方面,本申请实施例提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如第一方面任一项所述的一种意图标签的设置方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如如第一方面任一项所述的一种意图标签的设置方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,在对待识别文本进行意图标签设置时,可以首先采用预设算法从预设的意图标签列表中为该待识别文本选择预选意图标签。之后,再由用户对设置结果进行判断,若判断预选意图标签设置结果正确,则将预选意图标签设置为该待识别文本正确的意图标签。也即,本申请实施例中,将现有的意图标注时的列表选择问题变为预选意图标签设置结果是否正确的对错判断问题,减少了由于意图标签过多时,标注人员的选择困难,从而提升了标注效率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种意图标签的设置方法的一个实施例示意图;
图2是图1中步骤S120的一个实施例示意图;
图3是图1中步骤S120的又一个实施例示意图;
图4是图1中步骤S120的又一个实施例示意图;
图5是本申请实施例提供的一种意图标签的设置装置的一个结构示意图;
图6是图5中第一意图设置单元520的一个结构示意图;
图7是图5中第一意图设置单元520的又一个结构示意图;
图8是图5中第一意图设置单元520的又一个结构示意图;
图9是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,示出了根据本申请的一种意图标签的设置方法的一个实施例的流程图。所述的一种意图标签的设置方法,包括以下步骤:
S110,获取至少一个待识别文本。
本实施例中,意图标签的设置方法可以运行在其上的电子设备上,该电子设备可以是终端设备或者服务器,并通过有线或者无线连接的方式实现从另一电子设备或者网络中获取待识别文本。其中,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
S120,利用预设算法从预设的意图标签列表中确定所述待识别文本的预选意图标签。
本实施例中,意图标签列表中提前可以设定多个意图标签,每个意图标签对应设定对应了至少一条标准语料。利用预设算法确定意图标签列表中该待识别文本的预选意图标签可以采用多种方式,例如可以是基于语义或者文本关键词为待识别文本从意图标签列表中选择预选意图标签;例如,还可以是基于利用小样本数据训练得到的元学习模型,包含但不仅限于关系网络(RelationNet)模型,从意图标签列表中为该待识别文本选择对应的预选意图标签。
需要强调的是,为进一步保证上述待识文本的私密和安全性,上述待识别文本还可以存储于一区块链的节点中。根据需求的不同,该区块链可以是私有链、联盟链或者公有链,具体形式此处不限定。
其中,上述所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些可能的实现方式中,预设算法可以采用多种模型或者算法,在确定待识别文本的预选意图标签前,需要选择合适的预设算法。需要说明的是,不同的算法,有不同的优势,例如,本申请的发明人发现,在意图标签列表中意图标签设置对应的标准语料的数量固定时,采用不同的算法或者模型,最后预选意图标签设置结果的成功率存在差异,也即不同的算法或者模型,可能存在有其最适合的标准语料数量范围。因此,其中,在步骤S110之后,S120之前,还可以包括:根据所述意图标签列表中每个意图标签对应的标准语料的数量,选择所述预设算法。具体的,首先可以在设备中预置这些预设算法,并设定不同预设算法对应的标准语料数量范围。之后,通过确定意图标签列表中,意图标签对应的标准语料的数量,为其选择对应的预设算法。
此外,上述的预设算法可以举例但不限于包括以下几种:文本相似度匹配算法(包含但不仅限于tfidf,jaccard距离,word2vec,公共子序列)、文本关键词匹配算法、深度学习文本分类模型和元学习模型等中的至少一种。其中,文本相似度匹配算法主要是,通过计算待识别文本和另一文本之间的文本相似度,若大于设定阈值,则就可以认为待识别文本和该另一文本的意图标签是相同的;文本关键词匹配算法,主要是,通过提取待识别文本中表示意图的关键词,进而可以设定该待识别文本的意图标签为该关键词对应的意图标签,或者,设定该待识别文本的意图标签为包含该关键词的另一已确定意图标签的文本的意图标签;深度学习文本分类模型,可以是改进后的语言模型,例如对现有的bert模型上添加一个类别attention模块后得到的,分类准确性更好的模型;元学习模型是一种可以基于小样本训练数据训练,从而得到的泛化性能良好的神经网络模型,例如但不仅限于可以是关系网络模型。
S130,指示用户就所述预选意图标签的设置结果是否正确进行判断操作。
本实施例中,在上述步骤为待识别文本设置了预选意图标签后,可以将设置结果发送至用户端设备,例如终端设备,以指示标注人员对设置结果是否正确进行判断操作,或者,也可以显示对应弹窗,提示标注人员对设置结果是否正确进行判别操作。
S140,监听所述判断操作的操作结果。
本实施例中,电子设备还可以监听用户判断操作的操作结果,具体可以是接收用户端设备发送的操作结果,也可以是监听用户对预选意图标签设置是否正确的点选操作确定操作结果。
S150,若所述操作结果指示所述设置结果正确,则设置所述预选意图标签为所述待识别文本的意图标签。
本实施例中,电子设备在确定操作结果后,若操作结果指示设置结果正确,则可以将预选意图标签设置为该待识别文本正式对应的意图标签。
在一些可能的实现方式中,在步骤S140之后,若所述操作结果指示所述设置结果错误,则将所述待识别文本设置为所述预选意图标签的负例语料。具体的,将待识别文本设置为负例语料后,若接收到另一待识别文本,则可以计算该另一待识别文本与每个意图标签对应的负例语料列表中所包括的每个负例语料之间的语义相似度。若计算该语义相似度存在大于预设负例阈值的情况,则在对该另一待识别文本设置预选意图标签时,不会将其选择为步骤S120中确定的预选意图标签。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,在对待识别文本进行意图标签设置时,可以首先采用预设算法从预设的意图标签列表中为该待识别文本选择预选意图标签。之后,再由用户对设置结果进行判断,若判断预选意图标签设置结果正确,则将预选意图标签设置为该待识别文本正确的意图标签。也即,本申请实施例中,将现有的意图标注时的列表选择问题变为预选意图标签设置结果是否正确的对错判断问题,减少了由于意图标签过多时,标注人员的选择困难,从而提升了标注效率。
在一些可能的实现方式中,待识别文本数量为一个时,下面具体参照图2,为图1中步骤S120的一个具体实施例的示意图,可以包括:
S210,将所述待识别文本输入预先训练的语言模型,输出所述待识别文本对应的第一向量。
其中,语言模型是一种可以将文本数据转换为向量的算法或者数学模型,从而将文本的处理转换为数学上的处理。
本实施例中,语言模型可以是训练好的word2vec模型,或者,也可以是训练好的来自变换器的双向编码器表征量(bidirectional encoder representations fromtransformers,BERT)模型。采用不同的语言模型,其生成第一向量的过程有所不同,简单描述如下:
若采用word2vec模型,则第一向量为将待识别文件的关键词输入word2vec模型后得到的词向量。具体的,在对待识别文本进行处理前,首先可以对待识别文本进行分词处理,并根据预设的不表示意图的词片段的列表,去除分词处理后待识别文本中不表示意图的词片段,从而得到最终的关键词。进而将该关键词输入预先训练好的word2vec模型,得到待识别文件的关键词的词向量,也即第一向量。
若采用bert模型,则第一向量为待识别文本对应的文本向量。具体的,将待识别文本输入预先训练好的bert模型,进而输出该待识别文本对应的文本向量,也即第一向量。
S220,获取第二向量,所述第二向量为利用所述语言模型对所述意图标签列表中每个意图标签对应的至少一个标准语料进行处理后所输出的第二向量,所述意图标签列表包括不同意图标签和不同预设的标准语料的对应关系。
本实施例中,第二向量为利用上述语言模型对预设的意图标签列表中每个意图标签对应的至少一个标准语料进行处理后所输出的向量,该意图标签列表包括不同意图标签和不同预设的标准语料的对应关系。第二向量可以是提前生成后就保存在本地的,也可以等到需要计算相似度时,再进行计算。
在一些可能的实现方式中,第二向量具体可以是将意图标签列表中的每个标准语料输入上述语言模型得到的,与每个标准语料一一对应的向量。此时第二向量的确定过程可以包括:获取预置的意图标签列表;将该意图标签列表中的每个标准语料输入语言模型,从而输出每个标准语料对应的第二向量。
在一些可能的实现方式中,第二向量具体还可以是与意图标签一一对应的向量,其具体计算过程可以包括:将意图标签列表中每个意图标签对应的至少一个标准语料都输入语言模型,从而输出对等标准语料数量的至少一个向量。然后,再求这些至少一个向量的中心向量,取该中心向量为第二向量。其中,中心向量可以是将该至少一个向量中所有向量进行合并得到的向量,也可以是另某一向量与该至少一个向量中所有向量之间的余弦相似度的和最大时,该最大值对应的该某一向量。
S230,计算所述第一向量和每个第二向量之间的相似度。
本实施例中,第一向量和每个第二向量之间的相似度可以是余弦相似度,具体此处的余弦相似度的计算方法为现有技术中常用技术手段,此处不做过多赘述。
S240,根据所述意图标签列表确定所述相似度最大时的第二向量所对应的意图标签为所述预选意图标签。
本实施例中,在计算到第一向量和所有第二向量之间的相似度后,确定最大相似度对应的第二向量,并设定相似度最大时的该第二向量所指示的意图标签即为预选意图标签。具体的,参照步骤S220处可选实现方式中对第二向量的描述,若第二向量与每条标准语料一一对应,则将第二向量的标准语料在意图标签列表中对应的意图标签设置为预选意图标签;若第二向量为上述计算的每个意图标签对应的中心向量,与意图标签一一对应,则确定该第二向量对应的意图标签设置为预选意图标签。
与现有技术相比,本申请实施例主要有以下有益效果:
通过采用语言模型输出待识别文本的第一向量,进而计算第一向量和第二向量的相似度,取该相似度最大时,第二向量对应的意图标签为预选意图标签。其中,上述的相似度可以用于指示不同的两个文本之间的语义接近程度。因此,本方案基于语义,可以较为准确的确定预选意图标签。
在一些可能的实现方式中,下面具体参照图3,为本申请实施例中一种意图标签的设置方法的又一个实施例示意图,可以包括:
步骤S310,获取多个所述待识别文本。
步骤S320,将多个所述待识别文本输入所述语言模型,输出多个所述待识别文本一一对应的多个第一向量。
需要说明的是,步骤S310和步骤S320与图1中步骤S110和步骤S120相比不同点在于获取的待识别文本和生成的第一向量均是多个,而技术手段相同,因此此处不再就技术手段进行赘述。
步骤S330,利用聚类算法对多个所述第一向量进行聚类操作,得到K个类别,其中K为大于等于1的正整数。
本实施例中,聚类算法可以采用基于密度的聚类算法(density-based spatialclustering of applications with noise,DBSCAN)算法。通过设定相关参数r和最少样本数MinPts,r大于0小于等于1,MinPts为大于等于1的正整数,从而将至少一个第一向量作为样本点,进行聚类处理。其中,聚类操作中,不同样本点之间的距离可以采用两个第一向量之间的余弦相似度来表示。具体DBSCAN算法的聚类过程,为现有的常见技术,此处不做过多赘述。
最终,通过聚类操作后,可以生成K个类别,K为大于等于1的正整数。
步骤S340,确定所述K个类别中每个类别的中心向量。
本实施例中,根据DBSCAN的设定,每个类别包括至少数量为MinPts的多个第一向量,进而可以计算该多个第一向量的中心向量,具体的中心向量的计算过程可以参照步骤S230处,可选步骤中所描述的计算方法,此处不做过多赘述。
步骤S350,获取第二向量。
需要说明的是,步骤S350和图2中步骤S220类似,此处不再进行赘述。
步骤S360,计算所述中心向量和每个所述第二向量之间的相似度。
本实施例中,中心向量和每个第二向量之间的相似度可以是余弦相似度,具体此处的余弦相似度的计算方法为现有技术中常用技术手段,此处不做过多赘述。
步骤S370,根据所述意图标签列表确定所述相似度最大时的第二向量所对应的意图标签,为所述中心向量所在类别中对应的所有所述待识别文本的预选意图标签。
本实施例中,在计算到中心向量和所有第二向量之间的相似度后,确定最大相似度对应的第二向量,并设定相似度最大时的该第二向量所指示的意图标签即为该中心向量所在类别中所有待识别文本的预选意图标签。具体的,参照前述步骤S220处可选实现方式中对第二向量的描述,若第二向量与标准语料一一对应,则将第二向量的标准语料在意图标签列表中对应的意图标签设置为该中心向量所在类别中所有待识别文本的预选意图标签;若第二向量为上述计算的每个意图标签对应的中心向量,与意图标签一一对应,则确定该第二向量对应的意图标签设置为该中心向量所在类别中所有待识别文本的预选意图标签。
与现有技术相比,本申请实施例主要有以下有益效果:
通过采用聚类算法先进行聚类,然后可以对一个类别的对应的所有待识别文本一并设置预选意图标签,提高了意图标签的设置效率。
在一些可能的实现方式中,下面具体参照图4,为本申请实施例中一种意图标签的设置方法的又一个实施例示意图,可以包括:
步骤S410,获取多个所述待识别文本。
步骤S420,将多个所述待识别文本输入所述语言模型,输出多个所述待识别文本一一对应的多个第一向量。
步骤S430,利用聚类算法对多个所述第一向量进行聚类操作,得到K个类别,其中K为大于等于1的正整数。
步骤S440,确定所述K个类别中每个类别的中心向量。
步骤S450,获取第二向量。
步骤S460,计算所述中心向量和每个所述第二向量之间的相似度。
需要说明的是,步骤S410-步骤S460与图3中步骤S310-步骤S360类似,此处不再进行赘述。
步骤S470,确定所述相似度的最大值是否大于预设的第一阈值。
本申请实施例中,还可以设定相似度的第一阈值,进而确定上述步骤计算的相似度的最大值是否大于第一阈值。
步骤S480,若大于,则确定所述相似度最大的第二向量的标准语料在所述意图标签列表中所对应的意图标签,为所述中心向量所在类别对应的所有待识别文本的所述预选意图标签。
本实施例中,在确定相似度的最大值大于第一阈值的情况下,其具体的执行过程与图3中步骤S370类似,此处不做过多赘述。
步骤S490,若小于等于,则指示用户对所述中心向量类别所对应的待识别文本手动设置意图标签。
本实施例中,在小于等于时,提取该中心向量的类别所对应的至少一条待识别文本,进而指示用户对这些待识别文本手动设置意图标签。
这里需要说明的是,DBSCAN是一种基于密度的聚类算法,每个类别即包括一类密度接近的样本点。而前述在聚类处理的时候,各个样本点,也即各个第一向量,之间的距离是采用相似度计算的,相似度可以表示语义接近程度。因此,也即每个DBSCAN类别实际含义上可以表示的是一类语义近似的待识别文本数据(第一向量和待识别文本是一一对应关系)的集合。
基于上述说明,可以推导,在小于等于情况下,也即这个类别并不对应于现有意图标签列表中记载的任一意图标签,中心向量对应的类别的待识别文本的意图标签很有可能为新的意图标签。此时,可以指示用户对该中心向量类别对应的待识别文本手段手动设置意图标签。这个设置过程中,若用户确定该中心向量对应类别的待识别文本的意图标签为新的意图标签,则可以更新意图标签列表,也即实现新意图标签文本数据的识别和添加。
与现有技术相比,本申请实施例主要有以下有益效果:
通过设置第一阈值,可以提高预选意图标签设置的准确率。
具体参照图5,图5为本申请实施例提供的一种意图标签的设置装置的一个结构示意图,可以包括:
获取单元510,用于获取至少一个待识别文本;
第一意图设置单元520,用于利用预设算法从预设的意图标签列表中确定该待识别文本的预选意图标签;
指示单元530,用于指示用户就该预选意图标签的设置结果是否正确进行判断操作;
监听单元540,用于监听该判断操作的操作结果;
第二意图设置单元550,用于若该操作结果指示该设置结果正确,则设置该预选意图标签为该待识别文本的意图标签。
在一些可能的实现方式中,具体参见图6,为图5中第一意图设置单元520结构的一个实施例示意图。其中,该待识别文本的数量为一个;第一意图设置单元520,具体包括:
第一向量转换模块521,用于将该待识别文本输入预先训练的语言模型,输出该待识别文本对应的第一向量;
获取模块522,用于获取第二向量,该第二向量为利用该语言模型对该意图标签列表中每个意图标签对应的至少一个标准语料进行处理后所输出的向量,该意图标签列表包括不同意图标签和不同预设的标准语料的对应关系;
第一相似度计算模块523,用于计算该第一向量和每个第二向量之间的相似度;
第一意图设置模块524,用于根据该意图标签列表确定该相似度最大时的第二向量所对应的意图标签为该预选意图标签。
在一些可能的实现方式中,具体参见图7,为图5中第一意图设置单元520结构的又一个实施例示意图。其中,该待识别文本的数量为多个;第一意图设置单元520,具体包括:
第二向量转换模块525,用于将多个该待识别文本输入该语言模型,输出多个该待识别文本一一对应的多个第一向量;
聚类处理模块526,用于利用聚类算法对多个该第一向量进行聚类操作,得到K个类别,其中K为大于等于1的正整数;
中心向量计算模块527,用于确定该K个类别中每个类别的中心向量;
获取模块522,用于获取利用该语言模型对该意图标签列表中每个意图标签对应的至少一个标准语料进行处理后所输出的第二向量,该意图标签列表包括不同意图标签和不同预设的标准语料的对应关系;
相似度计算模块528,用于计算该中心向量和每个该第二向量之间的相似度;
第二意图设置模块529,用于根据该意图标签列表确定该相似度最大时的第二向量所对应的意图标签,为该中心向量所在类别中对应的所有该待识别文本的预选意图标签。
在一些可能的实现方式中,具体参见图8,为图5中第一意图设置单元520结构的又一个实施例示意图。其中,该待识别文本的数量为多个;第一意图设置单元520,具体包括:
第二向量转换模块525,用于将多个该待识别文本输入该语言模型,输出多个该待识别文本一一对应的多个第一向量;
聚类处理模块526,用于利用聚类算法对多个该第一向量进行聚类操作,得到K个类别,其中K为大于等于1的正整数;
中心向量计算模块527,用于确定该K个类别中每个类别的中心向量;
获取模块522,用于获取利用该语言模型对该意图标签列表中每个意图标签对应的至少一个标准语料进行处理后所输出的第二向量,该意图标签列表包括不同意图标签和不同预设的标准语料的对应关系;
相似度计算模块528,用于计算该中心向量和每个该第二向量之间的相似度;
判断模块531,用于确定该相似度的最大值是否大于预设的第一阈值;
第三意图设置模块532,用于在确定大于时,确定该相似度最大的第二向量的标准语料在该意图标签列表中所对应的意图标签,为该中心向量所在类别对应的所有待识别文本的该预选意图标签;
提示模块533,用于在确定小于等于时,指示用户对该中心向量类别所对应的待识别文本手动设置意图标签。
在一些可能的实现方式中,获取模块522,具体包括:
第一向量转换子模块,用于将该意图标签列表中每个意图标签对应的至少一条标准语料输入该语言模型,得到该至少一条标准语料对应的至少一条向量;
中心向量计算子模块,用于计算该至少一条向量的中心向量,作为该每个意图标签对应的第二向量。
在一些可能的实现方式中,获取模块522,具体包括:
第二向量转换子模块,将该意图标签列表中的每条标准语料输入该语言模型,得到该每条标准预料对应的该第二向量。
在一些可能的实现方式中,意图标签的设置装置还可以包括:
负例语料设置单元,用于若该操作结果指示该设置结果错误,则将该待识别文本设置为该预选意图标签的负例语料。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,意图标签的设置装置在对待识别文本进行意图标签设置时,可以首先采用预设算法为该待识别文本设置预选意图标签。之后,再由用户对设置结果进行判断,若判断预选意图标签设置结果正确,则将预选意图标签设置为该待识别文本正确的意图标签。也即,本申请实施例中,将现有的意图标注时的列表选择问题变为预选意图标签设置结果是否正确的对错判断问题,减少了由于意图标签过多时,标注人员的选择困难,从而提升了标注效率。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
所述计算机设备包括通过系统总线相互通信连接存储器910、处理器920、网络接口930。需要指出的是,图中仅示出了具有组件910-930的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器910至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器910可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器910也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器910还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器910通常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如用于实现前述所示实施例中一种意图标签的设置方法任一步骤的计算机可读指令等。此外,所述存储器910还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器920在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器920通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器920用于运行所述存储器910中存储的计算机可读指令或者处理数据,例如运行前述所示实施例中一种意图标签的设置方法的计算机可读指令。
所述网络接口930可包括无线网络接口或有线网络接口,该网络接口930通常用于在所述计算机设备与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如前述所示实施例中一种意图标签的设置方法的步骤。
此外,需要说明的是,本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的设置方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种意图标签的设置方法,其特征在于,所述设置方法包括:
获取至少一个待识别文本;
利用预设算法从预设的意图标签列表中确定所述待识别文本的预选意图标签;
指示用户就所述预选意图标签的设置结果是否正确进行判断操作;
监听所述判断操作的操作结果;
若所述操作结果指示所述设置结果正确,则设置所述预选意图标签为所述待识别文本的意图标签。
2.根据权利要求1所述的设置方法,其特征在于,所述待识别文本的数量为一个;所述利用预设算法从预设的意图标签列表中确定所述待识别文本的预选意图标签,具体包括:
将所述待识别文本输入预先训练的语言模型,输出所述待识别文本对应的第一向量;
获取第二向量,所述第二向量为利用所述语言模型对所述意图标签列表中每个意图标签对应的标准语料进行处理后所输出的向量,所述意图标签列表包括不同意图标签和不同预设的标准语料的对应关系;
计算所述第一向量和每个第二向量之间的相似度;
根据所述意图标签列表确定所述相似度最大时的第二向量所对应的意图标签为所述预选意图标签。
3.根据权利要求1所述的设置方法,其特征在于,所述待识别文本的数量为多个;
所述利用预设算法从预设的意图标签列表中确定所述待识别文本的预选意图标签,具体包括:
将多个所述待识别文本输入所述语言模型,输出多个所述待识别文本一一对应的多个第一向量;
利用聚类算法对多个所述第一向量进行聚类操作,得到K个类别,其中K为大于等于1的正整数;
确定所述K个类别中每个类别的中心向量;
获取第二向量,所述第二向量为利用所述语言模型对所述意图标签列表中每个意图标签对应的至少一个标准语料进行处理后所输出的向量,所述意图标签列表包括不同意图标签和不同预设的标准语料的对应关系;
计算所述中心向量和每个所述第二向量之间的相似度;
根据所述意图标签列表确定所述相似度最大时的第二向量所对应的意图标签,为所述中心向量所在类别中对应的所有所述待识别文本的预选意图标签。
4.根据权利要求1所述的设置方法,其特征在于,所述待识别文本的数量为多个;
所述利用预设算法从预设的意图标签列表中确定所述待识别文本的预选意图标签,具体包括:
将多个所述待识别文本输入所述语言模型,输出多个所述待识别文本一一对应的多个第一向量;
利用聚类算法对多个所述第一向量进行聚类操作,得到K个类别,其中K为大于等于1的正整数;
确定所述K个类别中每个类别的中心向量;
获取第二向量,所述第二向量为利用所述语言模型对所述意图标签列表中每个意图标签对应的至少一个标准语料进行处理后所输出的向量,所述意图标签列表包括不同意图标签和不同预设的标准语料的对应关系;
计算所述中心向量和每个所述第二向量之间的相似度;
确定所述相似度的最大值是否大于预设的第一阈值;
若大于,则确定所述相似度最大的第二向量的标准语料在所述意图标签列表中所对应的意图标签,为所述中心向量所在类别对应的所有待识别文本的所述预选意图标签;
若小于等于,则指示用户对所述中心向量类别所对应的待识别文本手动设置意图标签。
5.根据权利要求2-4中任一项所述的设置方法,其特征在于,所述获取第二向量的步骤,包括:
将所述意图标签列表中每个意图标签对应的至少一条标准语料输入所述语言模型,得到所述至少一条标准语料对应的至少一条向量;
计算所述至少一条向量的中心向量,作为所述每个意图标签对应的第二向量。
6.根据权利要求2-4中任一项所述的设置方法,其特征在于,所述获取第二向量的步骤,包括:
将所述意图标签列表中的每条标准语料输入所述语言模型,得到所述每条标准预料对应的所述第二向量。
7.根据权利要求1-4中任一项所述的设置方法,其特征在于,在所述监听所述判断操作的操作结果的步骤之后,所述设置方法还包括:
若所述操作结果指示所述设置结果错误,则将所述待识别文本设置为所述预选意图标签的负例语料。
8.一种意图标签的设置装置,其特征在于,包括:
获取单元,用于获取至少一个待识别文本;
第一意图设置单元,用于利用预设算法从预设的意图标签列表中确定所述待识别文本的预选意图标签;
指示单元,用于指示用户就所述预选意图标签的设置结果是否正确进行判断操作;
监听单元,用于监听所述判断操作的操作结果;
第二意图设置单元,用于若所述操作结果指示所述设置结果正确,则设置所述预选意图标签为所述待识别文本的意图标签。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的一种意图标签的设置方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的一种意图标签的设置方法的步骤。
CN202011359348.1A 2020-11-27 2020-11-27 一种意图标签的设置方法、设备、装置及存储介质 Pending CN112446209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011359348.1A CN112446209A (zh) 2020-11-27 2020-11-27 一种意图标签的设置方法、设备、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011359348.1A CN112446209A (zh) 2020-11-27 2020-11-27 一种意图标签的设置方法、设备、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112446209A true CN112446209A (zh) 2021-03-05

Family

ID=74738821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011359348.1A Pending CN112446209A (zh) 2020-11-27 2020-11-27 一种意图标签的设置方法、设备、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112446209A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361274A (zh) * 2021-06-29 2021-09-07 中国平安人寿保险股份有限公司 基于标签向量的意图识别方法、装置、电子设备及介质
CN113805931A (zh) * 2021-09-17 2021-12-17 杭州云深科技有限公司 一种确定app标签的方法、电子设备及可读存储介质
WO2022089546A1 (zh) * 2020-10-28 2022-05-05 华为云计算技术有限公司 标签生成方法、装置及相关设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089546A1 (zh) * 2020-10-28 2022-05-05 华为云计算技术有限公司 标签生成方法、装置及相关设备
CN113361274A (zh) * 2021-06-29 2021-09-07 中国平安人寿保险股份有限公司 基于标签向量的意图识别方法、装置、电子设备及介质
CN113805931A (zh) * 2021-09-17 2021-12-17 杭州云深科技有限公司 一种确定app标签的方法、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110502608B (zh) 基于知识图谱的人机对话方法及人机对话装置
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111368043A (zh) 基于人工智能的事件问答方法、装置、设备及存储介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN112650858B (zh) 应急协助信息的获取方法、装置、计算机设备及介质
CN112328761A (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN114398477A (zh) 基于知识图谱的政策推荐方法及其相关设备
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN117033816A (zh) 停车推荐方法、装置、电子设备及存储介质
CN111639164A (zh) 问答系统的问答匹配方法、装置、计算机设备及存储介质
CN115730603A (zh) 基于人工智能的信息提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination