CN112328761B - 一种意图标签设置方法、装置、计算机设备及存储介质 - Google Patents

一种意图标签设置方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112328761B
CN112328761B CN202011211565.6A CN202011211565A CN112328761B CN 112328761 B CN112328761 B CN 112328761B CN 202011211565 A CN202011211565 A CN 202011211565A CN 112328761 B CN112328761 B CN 112328761B
Authority
CN
China
Prior art keywords
user
sentence
target
intention
reply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011211565.6A
Other languages
English (en)
Other versions
CN112328761A (zh
Inventor
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202011211565.6A priority Critical patent/CN112328761B/zh
Publication of CN112328761A publication Critical patent/CN112328761A/zh
Application granted granted Critical
Publication of CN112328761B publication Critical patent/CN112328761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例属于人工智能领域,涉及一种意图标签设置方法,包括:获取对话机器人与用户的对话记录,所述对话记录包括所述对话机器人所发出的机器语句和采集的用户针对所述机器语句进行回复的用户语句;根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句;确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句;根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签。此外,本申请还涉及区块链技术,获取的对话记录可存储于区块链中。

Description

一种意图标签设置方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种意图标签设置方法、装置、计算机设备及存储介质。
背景技术
对话机器人是人工智能场景的典型应用,其应用已经十分普及,例如各种手机App中的客服,大多都是在人工服务前先用机器人客服服务客户。自然语言理解(naturallanguage understanding,NLU)是对话机器人系统中重要的一环。对话机器人通过理解人类输入的语音或者文本,在NLU模块判断人类意图,根据人类意图找到用户话语中的实体并进行槽位填充,结合对话管理系统,配置下一句机器人话术。
其中,NLU模块目前常见的,可以采用预先训练得到的意图分类模型来实现。在现有技术框架下,意图分类模型多采用神经网络模型,需要预先利用意图标签数据来进行训练,其意图识别的准确性离不开数据集的积累。但意图标签数据的数据集积累需要耗费大量人工成本,这也就导致意图分类模型囿于训练成本难以训练得到。并且由于业务场景、目标用户等产品定义的区别,不同垂直领域中意图数据可复用性较低,意图分类模型在一些不同场景下的应用也具有很大的局限性。
鉴于上述存在的问题,可以看到,如何便捷且在具有一定准确性的前提下确定用户意图,为采集到的用户文本或者用户语音设置对应的意图标签,是目前尚待解决的技术问题。
发明内容
本申请实施例的目的在于提出一种意图标签设置方法、装置、计算机设备及存储介质,用于解决现有的无法便捷设置用户语句意图标签的技术问题。
为了解决上述技术问题,本申请实施例提供一种意图标签设置方法,采用了如下所述的技术方案:
获取对话机器人与用户的对话记录,所述对话记录包括所述对话机器人所发出的机器语句和采集的该用户针对所述机器语句进行回复的用户语句;
根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句;
确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句;
根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签。
为了解决上述技术问题,本申请实施例还提供一种意图标签设置装置,采用了如下所述的技术方案:
第一获取单元,用于获取对话机器人与用户的对话记录,所述对话记录包括所述对话机器人所发出的机器语句和采集的用户针对所述机器语句进行回复的用户语句;
查询单元,用于根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句;
语义确定单元,用于确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句;
标签设置单元,用于根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如前述中任一项所述的意图标签设置方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如前述中任一项所述的意图标签设置方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,在获取到对话机器人与用户的对话记录后,可以根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句。进而,确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句。最后,根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签。相比现有技术,用户语句的标注过程无需采用意图分类模型,也就无需复杂的训练过程,从而提供了一种便捷的确定用户语句意图标签的方法。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请的意图标签设置方法的一个实施例的流程图;
图2是根据本申请的意图标签设置方法的又一个实施例的流程图;
图3是步骤S140之后的一个实施例的流程图;
图4是根据本申请的意图标签设置装置的一个实施例的结构示意图;
图5是根据本申请的意图标签设置装置的又一个实施例的结构示意图;
图6是根据本申请的意图标签设置装置的又一个实施例的结构示意图;
图7是根据本申请的意图标签设置装置的又一个实施例的结构示意图;
图8是根据本申请的意图标签设置装置的又一个实施例的结构示意图;
图9是根据本申请的意图标签设置装置的又一个实施例的结构示意图;
图10是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
参考图1,示出了根据本申请的意图标签设置方法的一个实施例的流程图。所述的意图标签设置方法,包括以下步骤:
步骤S110,获取对话机器人与用户的对话记录,所述对话记录包括所述对话机器人所发出的机器语句和采集的所述用户针对所述机器语句进行回复的用户语句。
在本实施例中,意图标签设置方法可以运行在其上的电子设备上,该电子设备可以是终端设备或者服务器。该对话机器人可以是实体的设备,其可以通过有线或者无线连接的方式实现与电子设备之间的通信以及数据交互;该对话机器人也可以是虚拟的运行在该电子设备上或者运行在与该电子设备具有通信和数据交互的其他电子设备上的应用程序,其具体形式此处不做过多规定。其中,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
在对话机器人的工作中,可以设定其采集获取该对话机器人与用户进行的对话记录,每个对话记录包括对话机器人发出的机器语句,例如可以是机器语音或者机器文本,以及用户对上文机器语句所进行回复的用户语句,例如用户针对上述机器语音或者机器文本答复时输入的用户语音或者用户文本。该记录过程可以举例,例如,在常见的客服机器人中,客服机器人生成关于询问用户商品订单编号的机器语音或者机器文本,在用户通过语音或者文本形式进行答复后,可以获取该会话中客服机器人所询问的机器语音或者机器文本,和对应的用户答复的用户语音或用户文本。
需要强调的是,为进一步保证上述对话记录的私密和安全性,上述对话记录还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
步骤S120,根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句。
在本实施例中,可以在本地预先配置第一对应关系,该第一对应关系可以示意如下表1所示,用于指示不同机器语句和不同标准答复语句的对应关系。
表1
参见上述表1,可以看出,第一对应关系中,每个机器语句都预先配置了至少一条标准答复语句,这些标准答复语句为设定的该机器语句所较为可能的答复语句。
在实际应用中,该第一对应关系,可以由网络侧维护,并定时或有更新时推送给该电子设备,以保证该第一对应关系的时效性。
在上述步骤获取到对话记录后,进而从第一对应关系中可以确定该对话记录中的机器语句所对应的至少一个标准答复语句。
步骤S130,确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句。
本实施例中,确定与用户语句语义最接近的目标答复语句的方法可以包含多种。
例如,可以是采用文本相似度的方法。该计算方法可以包括:首先,利用公开的文本数据库,以该文本数据库中包含各类文本片段的文本数据对初始的来自变换器的双向编码器表征量(bidirectional encoder representations from transformers,BERT)模型进行训练,得到训练结束后的目标bert模型。然后,将用户语句对应的文本数据和上述确定的至少一条标准答复语句,输入前述训练得到的目标bert模型中,从而得到用户语句对应的文本数据的第一文本向量和每条标准答复语句对应的第二文本向量。最后,计算第一文本向量和每条第二文本向量之间的余弦相似度,确定最大余弦相似度对应的标准答复语句为目标答复语句。其中,bert模型的训练和余弦相似度的计算方法,均为现有技术中的常用技术手段,此处不再赘述。
再例如,还可以是利用关键词的方法,可以包括:首先,提取用户语句中的关键词。具体可以是,在采集到用户语句后,确定用户语句对应的文本数据;采用分词工具,例如jieba分词对文本数据进行分词处理;利用预设的常用词库,例如可以是确定的不能体现任何意图的字词的词库,剔除前述分词处理后得到的文本数据中属于常用词库中的一些文本片段,最后文本数据中剩余的片段即为关键词。然后,确定前述确定的至少一个标准答复语句中包含上述关键词的标准答复语句为与用户语句语义最接近的目标答复语句。
需要说明的是,确定与用户语句语义最接近的目标答复语句的方法可以包含多种的实现方式外,除上述两种方式外,还可以采用其他方式。例如:提取用户语句中的关键词,采用训练好的word2vec模型确定用户语句中的关键词的第一词向量和至少一个标准答复语句中每个标准答复语句的关键词的第二词向量。最后,计算第一词向量和每个第二词向量之间的余弦相似度,进而取最大相似度时,第二词向量对应的标准答复语句为目标答复语句。因此,有必要说明的是,本申请实施例中,对具体如何确定语义最接近的目标标准答复语句的方式,不做具体限定和要求。
步骤S140,根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签。
在本实施例中,可以在本地预先配置第二对应关系,该第二对应关系可以示意如下表2所示,用于指示不同标准答复语句和不同意图标签的对应关系。
标准答复语句 意图标签
不需要/暂时不需要/不考虑/不用/不用推荐了/闭嘴 停止推荐
你们都有什么类型的卡/都可以办理什么卡 信用卡推荐
没有合适的/都不行/还有其他服务吗 其他服务推荐
给我介绍以下……业务吧/……业务是什么意思啊 具体业务介绍
…… ……
表2
参见上述表2,可以看出,第二对应关系中,每个意图标签都预先配置对应了至少一条标准答复语句,这些标准答复语句为设定的该意图标签下,用户可能会进行的回复。
前述确定的目标答复语句为与用户语句语义最接近的标准答复语句,因此可以根据上述第二对应关系,进而查询得到目标答复语句在该第二对应关系中对应的目标意图标签,并将用户语句的意图标签设置为该目标意图标签,实现用户语句的意图标签的设置。
在一些可能的实现方式中,如果前述确定目标标准答复语句中计算语义相似程度是采用余弦相似度的计算方式,则可以预设语义相似度的阈值,在确定用户语句与目标答复语句之间的语义相似度大于该设定的第一预设阈值时,再执行步骤S140。这是由于,即使在第一对应关系中设置了标准答复语句的模板,但也不可能预测到用户针对机器语句的所有可能的答复情况,依然可能会出现预料不到的答复情况。因此可以设置如果最大的语义相似度还是达不到阈值,表明这就是一个脱离在标准答复语句体系外的用户答复。这个时候,也就不能再乱设置意图标签了。
在一些可能的实现方式中,如上所述,若用户语句与目标答复语句之间的语义相似度小于等于该前述的第一预设阈值,则可以将该会话记录上传至服务器或者预设的终端设备,或者联系客服人员,由人工确定或者采用其他更准确的识别方式确定该会话记录中用户语句的意图标签,并将设置结果返回至电子设备处。
在一些可能的实现方式中,可以对第一对应关系和第二对应关系进行自更新。具体的,在步骤S130中为用户语句确定到语义最接近目标答复语句后,可以将用户语句对应的文本数据分别设置为机器语句在第一对应关系中对应的标准答复语句和目标意图标签在第二对应关系中对应的标准答复语句。也即,将该用户语句对应的文本数据添加进该机器语句在第一对应关系中所对应的标准答复语句列表中和添加进该目标意图标签在第二对应关系中所对应的标准答复语句列表中。以前述表1为例,假如机器语句为“您需要信用卡吗先生?”,用户语句对应的文本数据为“不喜欢用信用卡”,目标答复语句为“不考虑”,则根据表2,目标意图标签即为“停止推荐”。此时,可以将“不喜欢用信用卡”这个文本,添加进表1中“您需要信用卡吗先生?”对应的标准答复语句列表中,将“不喜欢用信用卡”添加进表2中“停止推荐”对应的标准答复列表中。最终,得到更新后的第一对应关系和第二对应关系,分别如下表1’和表2’。
表1’
表2’
在一些可能的实现方式中,还可以设定语义相似度的第二预设阈值,具体可以这样设置的前提条件,与前述第一预设阈值类似,此处不做重复赘述。在用户语句和目标答复语句的相似度大于该第二预设阈值时,再执行上述对第一对应关系和第二对应关系进行自更新的过程。
在一些可能的实现方式中,上述的第一对应关系和第二对应关系,可以是如上述表1和表2分开的方式存储,也可以是合并在一起存储,例如下表3所示。第一对应关系和第二对应关系的具体存储结构,本实施例不做具体限定。
表3
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,在获取到对话机器人与用户的对话记录后,可以根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句。进而,确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句。最后,根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签。相比现有技术,用户语句的标注过程无需采用意图分类模型,也就无需复杂的训练过程,从而提供了一种便捷的确定用户语句意图标签的方法。
在一些可能的实现方式中,若对话记录中的用户语句为用户语音的形式,则可以参见图2,图2为本申请实施例中一种意图标签设置方法的又一个实施例示意图。
其中,在步骤S110之后,还可以包括:
S210,利用ASR技术将所述用户语句转换为用户文本数据,其中所述用户语音为用户语音的形式。
本实施例中,利用ASR技术将用户语音转换为至少一条用户文本数据可以包括:
步骤A:对用户语音进行预处理、去噪、分帧和加窗处理,得到加窗语音数据;
步骤B:对加窗语音数据进行特征提取,得到多维特征向量;
步骤C:利用预先设置的声学模型对上述得到的多维特征向量进行提取,得到该多维特征向量对应的拼音文本;
步骤D:根据确定的拼音文本生成多条文本数据;
步骤E:利用预先设置的语言模型确定上述多条文本数据中包含的单个字或者词相互关联的概率,根据该概率确定最终识别的用户文本数据并解码输出。
具体上述的转换过程中,各个子步骤均为现有ASR技术中的常见技术,此处不做过多赘述。
这里可以举例,例如用户语音为“白日依山尽”,则步骤C中最后确定的拼音文本可以是“bai/ri/yi/shan/jin”、“bao/ri/yi/shan/jin”和“bai/ri/yi/an/jing”等拼音文本。步骤D中,可以依次得到:“白日依山尽”、“薄日依山尽”和“白日一安静”。最后,执行完步骤E后,确定的用户语音对应的用户文本数据可以是“白日依山尽”。
这里需要说明的是,步骤S210中转换得到的至少一条用户文本数据,可以是步骤E中确定的最终输出的文本数据,准确性更高,也可以是,步骤D中确定的多条文本数据,可以扩大设置了意图标签的意图训练数据的数据量。
步骤S140后,还可以包括:
S220,将所述目标意图标签设置为所述用户文本数据对应的意图标签。
本实施例中,确定用户语句的意图标签为目标意图标签之后,可以一并设置用户语句对应的至少一条用户文本数据对应的意图标签也为目标意图标签。设置好意图标签后,这些用户文本数据可以用作意图识别模型的训练数据进行保存。
在一些可能的实现方式中,在步骤S210中,确定用户语音对应的用户文本数据后,还可以进一步确定与该用户文本数据拼音接近的第一关联文本数据,并设置该第一关联文本数据的意图标签为目标意图标签。具体的,确定用户文本数据后,可以通过随机替换用户文本数据中,相似发音对应的词做数据增强,从而得到第一关联文本数据。例如“知识”(zhishi)近似发音的词“支持”(zhi chi),“忙”(mang)近似发音的词“马上”(ma shang),这种相似发音可以产生大量的增强数据。
在一些可能的实现方式中,在步骤S210中,确定用户语音对应的用户文本数据后,还可以进一步通过随机删除用户文本数据中的部分文本或者在用户文本数据中加入预设的语气词,得到该用户文本数据对应的第二关联文本数据,并设置该第二关联文本数据的意图标签为目标意图标签,从而产生大量增强数据。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,在确定用户语句的意图标签后,可以自动为用户语句对应的至少一个用户文本数据设置同样的意图标签,从而可以便捷地获得大量用于训练意图识别模型的训练数据。
在一些可能的实现方式中,则可以参见图3,图3为步骤S140之后的一个实施例示意图,可以包括:
S310,根据所述目标意图标签执行相应操作。
本实施例中,根据目标意图标签执行相应操作可以包括各种情况,例如:
可以是生成与目标意图标签对应的回复语句。具体的,可以在系统中设置不同目标意图标签和不同回复语句的对应关系,从而使得在确定目标意图标签之后,根据该对应关系,生成回复语句。例如,以表2中意图标签“停止推荐”为例,可以设定其对应的回复语句为“不好意思,打扰您了”。
可以是结合用户语句对应的文本数据生成与目标意图标签对应的回复语句。具体的,可以在系统中设置不同目标意图标签和不同回复语句模板的对应关系,从而使得在确定目标意图标签之后,从该对应关系中确定对应模板,并结合用户语句的文本数据,生成回复语句。
可以结合用户语句对应的文本数据内容和目标意图标签,执行一些预设操作。例如,以表2中意图标签“具体业务介绍”为例,可以提前预设该意图标签对应的操作为打开具体业务介绍页面、显示具体业务的介绍信息或者播放具体业务介绍的语音。因此,在确定到该意图标签时,可以从用户语句中,提取该具体业务的名称,然后打开该名称对应业务的业务介绍页面、显示具体的介绍信息或者播放对应的介绍信息。
与现有技术相比,本申请实施例主要有以下有益效果:
可以根据上文用户语句对应的目标意图标签执行相应操作,从而使得人机交互更加智能化。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图4,作为对上述图1所示方法的实现,本申请提供了一种意图标签设置装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例该的意图标签设置装置400可以包括:
第一获取单元410,用于获取对话机器人与用户的对话记录,该对话记录可以包括该对话机器人所发出的机器语句和采集的用户针对该机器语句进行回复的用户语句;
查询单元420,用于根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定该机器语句在该第一对应关系中对应的至少一条标准答复语句;
语义确定单元430,用于确定该至少一条标准答复语句中,与该用户语句语义最接近的目标答复语句;
标签设置单元440,用于根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定该用户语句的意图标签为该目标答复语句在该第二对应关系中所对应的目标意图标签。
在一些可能的实现方式中,具体参照图5,为意图标签设置装置400的又一个实施例示意图,意图标签设置装置400还可以包括:
ASR转换单元450,用于若该用户语句的类型为用户语音时,利用ASR技术将该用户语音转换为用户文本数据;
标签设置单元440,还用于将该目标意图标签设置为该用户文本数据对应的意图标签。
在一些可能的实现方式中,具体参照图6,为意图标签设置装置400的又一个实施例示意图,意图标签设置装置400还可以包括:
第二获取单元460,用于确定与该用户文本数据拼音接近的第一关联文本数据;
标签设置单元440,还用于将该目标意图标签设置为该第一关联文本数据对应的意图标签。
在一些可能的实现方式中,具体参照图7,为意图标签设置装置400的又一个实施例示意图,意图标签设置装置400还可以包括:
第三获取单元470,用于在随机删除该用户文本数据中的部分文本或者在该用户文本数据中加入预设的语气词后,得到与该用户文本数据对应的第二关联文本数据;
标签设置单元440,还用于将该目标意图标签设置为该第二关联文本数据对应的意图标签。
在一些可能的实现方式中,语义确定单元430,具体可以包括:
语义相似度计算子单元,用于计算该至少一条标准答复语句中每条标准答复语句与该用户语句之间的语义相似度,并确定最大的该语义相似度所对应的目标标准答复语句;
标签设置单元440,具体可以包括:
标签设置子单元,用于在该用户语句与该目标答复语句之间的语义相似度大于预设阈值时,根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定该用户语句的意图标签为该目标答复语句在该第二对应关系中所对应的目标意图标签。
在一些可能的实现方式中,具体参照图8,为意图标签设置装置400的又一个实施例示意图,意图标签设置装置400还可以包括:
更新单元480,用于将该用户语句对应的文本数据分别设置为该机器语句在该第一对应关系中对应的标准答复语句和该目标意图标签在该第二对应关系中对应的标准答复语句。
在一些可能的实现方式中,具体参照图9,为意图标签设置装置400的又一个实施例示意图,意图标签设置装置400还可以包括:
响应单元490,用于根据该目标意图标签执行相应操作。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例中,意图标签设置装置400在获取到对话机器人与用户的对话记录后,可以根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句。进而,确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句。最后,根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签。相比现有技术,用户语句的标注过程无需采用意图分类模型,也就无需复杂的训练过程,从而提供了一种便捷的确定用户语句意图标签的方法。
为解决上述技术问题,本申请实施例还提供一种计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
所述计算机设备10包括通过系统总线相互通信连接存储器1010、处理器1020、网络接口1030。需要指出的是,图中仅示出了具有组件1010-1030的计算机设备10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器1010至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器1010可以是所述计算机设备10的内部存储单元,例如该计算机设备10的硬盘或内存。在另一些实施例中,所述存储器1010也可以是所述计算机设备10的外部存储设备,例如该计算机设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器1010还可以既包括所述计算机设备10的内部存储单元也包括其外部存储设备。本实施例中,所述存储器1010通常用于存储安装于所述计算机设备10的操作系统和各类应用软件,例如前述意图标签设置方法的计算机可读指令等。此外,所述存储器1010还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器1020在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器1020通常用于控制所述计算机设备10的总体操作。本实施例中,所述处理器1020用于运行所述存储器1010中存储的计算机可读指令或者处理数据,例如运行所述意图标签设置方法的计算机可读指令。
所述网络接口1030可包括无线网络接口或有线网络接口,该网络接口1030通常用于在所述计算机设备10与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的意图标签设置方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种意图标签设置方法,其特征在于,包括下述步骤:
获取对话机器人与用户的对话记录,所述对话记录包括所述对话机器人所发出的机器语句和采集的所述用户针对所述机器语句进行回复的用户语句;
根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句;
确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句;
根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签;
其中,所述第一对应关系中,每个机器语句都预先配置了至少一条标准答复语句,这些标准答复语句为设定的该机器语句所较为可能的答复语句;所述第二对应关系用于指示不同标准答复语句和不同意图标签的对应关系。
2.根据权利要求1所述的意图标签设置方法,其特征在于,所述获取对话机器人与用户的对话记录的步骤之后,还包括:
若所述用户语句的类型为用户语音,利用ASR技术将所述用户语音转换为用户文本数据;
在所述根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签的步骤之后,还包括:
将所述目标意图标签设置为所述用户文本数据对应的意图标签。
3.根据权利要求2所述的意图标签设置方法,其特征在于,所述利用ASR技术将所述用户语音转换为用户文本数据的步骤之后,还包括:
确定与所述用户文本数据拼音接近的第一关联文本数据;
所述将所述目标意图标签设置为所述用户文本数据对应的意图标签的步骤之后,还包括:
将所述目标意图标签设置为所述第一关联文本数据对应的意图标签。
4.根据权利要求2所述的意图标签设置方法,其特征在于,所述利用ASR技术将所述用户语音转换为用户文本数据的步骤之后,还包括:
随机删除所述用户文本数据中的部分文本或者在所述用户文本数据中加入预设的语气词,得到与所述用户文本数据对应的第二关联文本数据;
所述将所述目标意图标签设置为所述用户文本数据对应的意图标签的步骤之后,还包括:
将所述目标意图标签设置为所述第二关联文本数据对应的意图标签。
5.根据权利要求1-4中任一项所述的意图标签设置方法,其特征在于,所述确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句,包括:
计算所述至少一条标准答复语句中每条标准答复语句与所述用户语句之间的语义相似度,并确定最大的所述语义相似度所对应的目标标准答复语句;
所述根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签,具体包括:
在所述用户语句与所述目标答复语句之间的语义相似度大于预设阈值时,根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签。
6.根据权利要求1至4中任一项所述的意图标签设置方法,其特征在于,所述用户语句包括文本数据;所述根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签的步骤之后,所述意图标签设置方法还包括:
将所述用户语句对应的文本数据分别设置为所述机器语句在所述第一对应关系中对应的标准答复语句和所述目标意图标签在所述第二对应关系中对应的标准答复语句。
7.根据权利要求1-4中任一项所述的意图标签设置方法,其特征在于,所述根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签的步骤之后,所述意图标签设置方法还包括:
根据所述目标意图标签执行相应操作。
8.一种意图标签设置装置,其特征在于,包括:
第一获取单元,用于获取对话机器人与用户的对话记录,所述对话记录包括所述对话机器人所发出的机器语句和采集的所述用户针对所述机器语句进行回复的用户语句;
查询单元,用于根据预设的不同机器语句和不同标准答复语句之间的第一对应关系,确定所述机器语句在所述第一对应关系中对应的至少一条标准答复语句;
语义确定单元,用于确定所述至少一条标准答复语句中,与所述用户语句语义最接近的目标答复语句;
标签设置单元,用于根据预设的不同标准答复语句与不同意图标签之间的第二对应关系,设定所述用户语句的意图标签为所述目标答复语句在所述第二对应关系中所对应的目标意图标签;
其中,所述第一对应关系中,每个机器语句都预先配置了至少一条标准答复语句,这些标准答复语句为设定的该机器语句所较为可能的答复语句;所述第二对应关系用于指示不同标准答复语句和不同意图标签的对应关系。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的意图标签设置方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的意图标签设置方法的步骤。
CN202011211565.6A 2020-11-03 2020-11-03 一种意图标签设置方法、装置、计算机设备及存储介质 Active CN112328761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011211565.6A CN112328761B (zh) 2020-11-03 2020-11-03 一种意图标签设置方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011211565.6A CN112328761B (zh) 2020-11-03 2020-11-03 一种意图标签设置方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112328761A CN112328761A (zh) 2021-02-05
CN112328761B true CN112328761B (zh) 2024-04-02

Family

ID=74323332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011211565.6A Active CN112328761B (zh) 2020-11-03 2020-11-03 一种意图标签设置方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112328761B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449094A (zh) * 2021-07-08 2021-09-28 京东科技控股股份有限公司 语料获取方法、装置、电子设备及存储介质
CN113782004B (zh) * 2021-09-17 2023-10-24 深圳追一科技有限公司 人机语音交互测试方法、装置、计算机设备和存储介质
CN114490975B (zh) * 2021-12-31 2023-02-07 马上消费金融股份有限公司 用户问题的标注方法及装置
CN114519094A (zh) * 2022-02-16 2022-05-20 平安普惠企业管理有限公司 基于随机状态的话术推荐方法、装置及电子设备
CN114595321A (zh) * 2022-03-23 2022-06-07 康键信息技术(深圳)有限公司 问题标注方法、装置、电子设备及存储介质
CN115292543B (zh) * 2022-10-10 2022-12-30 深圳市人马互动科技有限公司 基于语音互动小说的数据处理方法及相关产品
CN117034957B (zh) * 2023-06-30 2024-05-31 海信集团控股股份有限公司 一种融合大模型的语义理解方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760128A (zh) * 2011-04-26 2012-10-31 华东师范大学 一种基于智能客服机器人交互的电信领域套餐推荐方法
CN109376361A (zh) * 2018-11-16 2019-02-22 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN109543005A (zh) * 2018-10-12 2019-03-29 平安科技(深圳)有限公司 客服机器人对话状态识别方法及装置、设备、存储介质
CN111159346A (zh) * 2019-12-27 2020-05-15 深圳物控智联科技有限公司 基于意图识别的智能答疑方法、服务器及存储介质
CN111475632A (zh) * 2020-04-09 2020-07-31 深圳追一科技有限公司 问句处理方法、装置、电子设备及存储介质
CN111538820A (zh) * 2020-04-10 2020-08-14 出门问问信息科技有限公司 一种异常答复处理、装置以及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760128A (zh) * 2011-04-26 2012-10-31 华东师范大学 一种基于智能客服机器人交互的电信领域套餐推荐方法
CN109543005A (zh) * 2018-10-12 2019-03-29 平安科技(深圳)有限公司 客服机器人对话状态识别方法及装置、设备、存储介质
CN109376361A (zh) * 2018-11-16 2019-02-22 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN111159346A (zh) * 2019-12-27 2020-05-15 深圳物控智联科技有限公司 基于意图识别的智能答疑方法、服务器及存储介质
CN111475632A (zh) * 2020-04-09 2020-07-31 深圳追一科技有限公司 问句处理方法、装置、电子设备及存储介质
CN111538820A (zh) * 2020-04-10 2020-08-14 出门问问信息科技有限公司 一种异常答复处理、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
CN112328761A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN112395391B (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN113314150A (zh) 基于语音数据的情绪识别方法、装置及存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN112084779A (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN115757731A (zh) 对话问句改写方法、装置、计算机设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN112669850A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN116563034A (zh) 基于人工智能的购买预测方法、装置、设备及存储介质
CN116881446A (zh) 一种语义分类方法、装置、设备及其存储介质
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN110705308A (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
CN115238077A (zh) 基于人工智能的文本分析方法、装置、设备及存储介质
CN114218356A (zh) 基于人工智能的语义识别方法、装置、设备及存储介质
CN113157896B (zh) 一种语音对话生成方法、装置、计算机设备及存储介质
CN112732913B (zh) 一种非均衡样本的分类方法、装置、设备及存储介质
CN116932739A (zh) 基于人工智能的数据生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant