CN113343713A - 意图识别方法、装置、计算机设备及存储介质 - Google Patents

意图识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113343713A
CN113343713A CN202110738646.XA CN202110738646A CN113343713A CN 113343713 A CN113343713 A CN 113343713A CN 202110738646 A CN202110738646 A CN 202110738646A CN 113343713 A CN113343713 A CN 113343713A
Authority
CN
China
Prior art keywords
intention
information
question
similarity
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110738646.XA
Other languages
English (en)
Other versions
CN113343713B (zh
Inventor
孙梦轩
吴岸城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110738646.XA priority Critical patent/CN113343713B/zh
Publication of CN113343713A publication Critical patent/CN113343713A/zh
Application granted granted Critical
Publication of CN113343713B publication Critical patent/CN113343713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种意图识别方法、装置、计算机设备及存储介质,该方法包括:获取第一意图信息,第一意图信息包括类别信息、第一意图问句和第一答复信息,获取数据库中存储的意图信息,作为第二意图信息,其中,第二意图信息包括类别信息、第二意图问句和第二答复信息,计算第一意图问句与第二意图问句的语义相似度,获得最终相似度,根据最终相似度和预设第一阈值对数据库进行更新,在获取用户请求时,将用户请求中的用户意图问句和用户类别信息输入到意图识别模型中,并通过意图识别模型采用更新后的数据库进行识别处理,得到第二答复信息,采用第二答复信息对用户请求进行答复,采用本发明有利于提高意图识别的准确率和答复效率。

Description

意图识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种意图识别方法、装置、计算机设备及存储介质。
背景技术
意图识别模型是现在企业产品最常用的AI技术之一,常用于人机信息互动,其可识别用户意图,并根据意图推荐相应的答复或策略。目前,现有意图识别模型中的意图通常是在初始的时候对特定的业务场景(如银行大堂业务)进行针对性的设置且不能更改,并且在设置中对用户的答复和策略全部一致,较适用于用户群体统一的应用场景,若应用在用户群体不统一的场景下,如在销售或某些特定领域下,不同地区、不同产品、不同类型用户的用户意图会有偏差,易导致意图识别模型的准确率降低。
综上所述,将现有意图识别模型在用户群体不统一的应用场景下,存在意图识别准确率不高的问题。
发明内容
本发明实施例提供一种意图识别方法、意图识别方法、装置、计算机设备和存储介质,以提高现有意图识别模型在用户群体不统一的应用场景下的意图识别准确率。
为了解决上述技术问题,本申请实施例提供一种意图识别方法,包括:
获取第一意图信息,所述第一意图信息包括类别信息、第一意图问句和第一答复信息;
获取数据库中存储的意图信息,作为第二意图信息,其中,所述第二意图信息包括所述类别信息、第二意图问句和第二答复信息,所述数据库应用于意图识别模型;
根据所述类别信息,计算所述第一意图问句与所述第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度;
根据所述最终相似度和预设第一阈值对所述数据库进行更新,得到更新后的数据库;
在获取用户请求时,将所述用户请求中的用户意图问句和用户类别信息作为输入信息,输入到所述意图识别模型中;
通过意图识别模型采用所述更新后的数据库,对所述输入信息进行识别处理,得到第二答复信息;
采用所述第二答复信息对所述用户请求进行答复。
为了解决上述技术问题,本申请实施例还提供一种意图识别装置,包括:
第一获取模块,用于获取第一意图信息,所述第一意图信息包括类别信息、第一意图问句和第一答复信息;
第二获取模块,用于获取数据库中存储的意图信息,作为第二意图信息,其中,所述第二意图信息包括所述类别信息、第二意图问句和第二答复信息,所述数据库应用于意图识别模型;
相似度计算模块,用于根据所述类别信息,计算所述第一意图问句与所述第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度;
更新模块,用于根据所述最终相似度和预设第一阈值对所述数据库进行更新,得到更新后的数据库;
第三获取模块,用于在获取用户请求时,将所述用户请求中的用户意图问句和用户类别信息作为输入信息,输入到所述意图识别模型中;
识别处理模块,用于通过意图识别模型采用所述更新后的数据库,对所述输入信息进行识别处理,得到第二答复信息;
答复模块,用于采用所述第二答复信息对所述用户请求进行答复。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述意图识别方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述意图识别方法的步骤,或者,所述计算机程序被处理器执行时实现上述意图识别方法的步骤。
本发明实施例提供的意图识别方法、装置、计算机设备及存储介质,通过获取第一意图信息,第一意图信息包括类别信息、第一意图问句和第一答复信息,获取数据库中存储的意图信息,作为第二意图信息,其中,第二意图信息包括类别信息、第二意图问句和第二答复信息,数据库应用于意图识别模型,根据类别信息,计算第一意图问句与第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度,根据最终相似度和预设第一阈值对数据库进行更新,得到更新后的数据库,在获取用户请求时,将用户请求中的用户意图问句和用户类别信息作为输入信息,输入到意图识别模型中,通过意图识别模型采用更新后的数据库,对输入信息进行识别处理,得到第二答复信息,采用第二答复信息对用户请求进行答复,以此提高数据库在用户群体不统一的应用场景下的意图识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的一种意图识别方法的一个实施例的流程图;
图3是根据本申请的一种意图识别装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的一种意图识别方法由服务器执行,相应地,一种意图识别装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种意图识别方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:获取第一意图信息,第一意图信息包括类别信息、第一意图问句和第一答复信息。
具体的,第一意图问句可以是根据历史销售经验获得的用户常用问句,第一答复信息可以是针对用户常用问句的答复语句,第一意图问句和第一答复信息可以通过客户端页面添加,例如,第一意图问句可以为:“出行保险保什么”,则相应的第一答复信息可以为:“长短途旅游、回乡探亲、出差等”,类别信息包括但不限于与意图问句对应的团队分类ID以及第一意图问句是否为自定义意图的标记信息,其中,团队分类ID可以根据不同年龄、不同性别、不同地区等进行群体分类。
例如,在一线城市地区,远距离旅游的人较多、年轻人较多,可专门自定义对此类人群的意图问句和答复信息,采用团队分类ID:12对针对此类人群的意图问句和答复信息进行标记,进而实现群体分类;而在四五线城市地区,远距离旅游的人较少,频率较低,针对一线城市的人群设置的意图问句和答复信息并不适用于四五线城市的人群,因此,需要设定对此类人群的意图问句和答复信息,将团队分类ID:00作为类别信息,将对此类人群的意图问句和答复信息归属于团队分类ID:00这一类别中,对不同的人群的意图问句和答复信息采用不用的团队分类ID进行分类,进而实现群体分类。
在本步骤中,可以通过类别信息对第一意图问句和第一答复信息进行群体分类,实现对特定分类群体设置针对性的第一意图问句和第一答复信息。
S202:获取数据库中存储的意图信息,作为第二意图信息,其中,第二意图信息包括类别信息、第二意图问句和第二答复信息,数据库应用于意图识别模型。
具体的,类别信息包括但不限于与第二意图问句对应的团队分类ID和第二意图问句是否为自定义意图的标记信息,其中,团队分类ID可以根据不同年龄、不同性别、不同地区等进行群体分类,第二意图问句是历史添加的存储在数据库中的意图问句,第二答复信息是历史添加的存储在数据库中的答复信息,第二意图问句和第二答复信息被其对应的类别信息标记。
S203:根据类别信息,计算第一意图问句与第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度。
具体的,优先获取与第一意图问句具有相同类别信息的第二意图问句,计算第一意图问句与第二意图问句的语义相似度,其次,获取与第一意图问句具有不同类别信息的第二意图问句,并计算第一意图与第二意图问句的语义相似度,根据类别信息,计算第一意图问句与第二意图问句的语义相似度,提高数据库的更新效率,进一步的,可以通过曼哈顿距离、欧几里得距离、余弦相似度等相似度算法计算第一意图问句和第二意图问句的语义相似度,得到多个相似度值,并选取数值最大的相似度作为最终相似度。
例如,以相同类别信息(即团队ID:0)为例,计算第一意图问句与第二意图问句的语义相似度,返回多个排序后的意图问句比较结果:
{第二意图问句:A,答复:Ab,意图相似度:0.9,团队ID:0}
{第二意图问句:B,答复:Ba,意图相似度:0.7,团队ID:0}
选取数值最大的相似度0.9作为最终相似度。
S204:根据最终相似度和预设第一阈值对数据库进行更新,得到更新后的数据库。
具体的,预设第一阈值为对意图识别模型的历史识别数据进行分析而获得的经验值,通过设置该经验值可提高数据库更新的准确度,更新后的数据库可作为意图识别模型的语料库。
S205:在获取用户请求时,将用户请求中的用户意图问句和用户类别信息作为输入信息,输入到意图识别模型中。
具体的,用户类别信息包括但不限于地址、年龄、性别、爱好,在通过网络获取到用户请求后,可根据用户请求中包括的用户类别信息查询到数据库中与其对应的类别信息,其中,类别信息包括但不限于群体分类ID,其中,群体分类ID根据地区、年龄段、性别等确定,如团队ID:00、团队ID:12、团队ID:10等。
S206:通过意图识别模型采用更新后的数据库,对输入信息进行识别处理,得到第二答复信息。
具体的,在意图识别模型进行意图识别处理时,会优先查询到与用户类别信息对应的类别信息,并根据类别信息优先查询类别信息对应的第二意图问句,进而查询到与第二意图问句具有相同类别信息的第二答复信息,该第二答复信息即为与用户请求对应的第二答复信息,若未查询到与第二意图问句具有相同类别信息的第二答复信息,则查询与第二意图问句具有不同类别信息的第二答复信息,该第二答复信息即为与用户请求对应的第二答复信息。
S207:采用第二答复信息对用户请求进行答复。
在本实施例中,通过获取第一意图信息,第一意图信息包括类别信息、第一意图问句和第一答复信息,获取数据库中存储的意图信息,作为第二意图信息,其中,第二意图信息包括类别信息、第二意图问句和第二答复信息,数据库应用于意图识别模型,根据类别信息,计算第一意图问句与第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度,根据最终相似度和预设第一阈值对数据库进行更新,得到更新后的数据库,在获取用户请求时,将用户请求中的用户意图问句和用户类别信息作为输入信息,输入到意图识别模型中,通过意图识别模型采用更新后的数据库,对输入信息进行识别处理,得到第二答复信息,采用第二答复信息对用户请求进行答复,有利于提高意图识别的准确率和答复效率。
在本实施例的一些可选的实现方式中,步骤S203中,根据类别信息,计算第一意图问句与第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度的步骤包括S2031至S2035:
S2031:根据类别信息,获取与第一意图问句具有相同类别信息的第二意图问句,作为第一比较意图问句。
S2032:计算第一意图问句和第一比较意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为第一相似度。
具体的,可以通过曼哈顿距离、欧几里得距离、余弦相似度等相似度算法计算具有相同类别信息的第一意图问句和第一比较意图问句的语义相似度,得到多个相似度值,并选取数值最大的相似度作为第一相似度。
例如,计算第一意图问句与第一比较意图问句的语义相似度,返回多个排序后的意图问句比较结果:
{第二意图问句:A,答复:Ab,意图相似度:0.9,团队ID:0}
{第二意图问句:B,答复:Ba,意图相似度:0.7,团队ID:0}
选取数值最大的相似度0.9作为第一相似度。
S2033:若第一相似度大于或等于预设第一阈值,则将第一相似度作为最终相似度。
具体的,假设第一相似度为0.9,预设第一阈值为0.9,则将第一相似度作为最终相似度,假设第一相似度为0.7,预设第一阈值为0.9,则执行步骤S2034。
S2034:若第一相似度小于预设第一阈值,则获取与第一意图问句具有不同类别信息的第二意图问句,作为第二比较意图问句。
S2035:计算第一意图问句和第二比较意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度。
具体的,可以通过曼哈顿距离、欧几里得距离、余弦相似度等相似度算法计算第一意图问句和第二比较意图问句的语义相似度,得到多个相似度值,并选取数值最大的相似度作为最终相似度。
例如,计算第一意图问句与第二比较意图问句的语义相似度,返回多个排序后的意图问句比较结果:
{第二意图问句:A,答复:Ab,意图相似度:0.8,团队ID:12}
{第二意图问句:B,答复:Ba,意图相似度:0.7,团队ID:0}
选取数值最大的相似度0.8作为最终相似度。
在本实施例中,通过优先计算第一意图问句和第一比较意图问句的语义相似度,获取最大相似度值作为第一相似度,若第一相似度大于或等于预设第一阈值,则将第一相似度作为最终相似度,否则,则计算第一意图问句和第二比较意图问句的语义相似度,获取最大相似度值作为最终相似度,并通过设置预设预设第一阈值提高数据库的更新效率和准确率,进而提高意图识别的准确率和效率。
在本实施例的一些可选的实现方式中,步骤S204中,根据最终相似度和预设第一阈值对数据库进行更新,得到更新后的数据库的步骤包括S2041至S2042:
S2041:若最终相似度大于或等于预设第一阈值,则根据类别信息,将第一答复信息添加到数据库,得到更新后的数据库。
具体的,当最终相似度大于或等于预设第一阈值时,选取最终相似度对应的第二意图问句,并根据第二意图问句在数据库中添加相应的第一答复信息和类别信息实现对数据库进行更新,更新后的数据库应用于意图识别模型。
例如,当第二意图问句、第一答复信息、最终相似度、类别信息的内容如下:
第二意图问句:A,第一答复信息:Aa,最终相似度:0.9,团队ID(即上述类别信息):00。
假设预设第一阈值为0.85,则最终相似度超过预设第一阈值,根据该最终相似度对应的“第二意图问句:A”添加相应的第一答复信息“Aa”和相应的类别信息“团队ID:00”。
此处,需要特别说明的是,若数据库中已存在与第一答复信息语义相同或相近的第二答复信息,则用户可选择不进行添加相应的第一答复信息。
S2042:若最终相似度小于预设第一阈值,则根据类别信息,将第一意图问句和第一答复信息添加到数据库,得到更新后的数据库。
具体的,当最终相似度小于预设第一阈值时,在数据库中添加第一意图问句和类别信息,并根据添加的第一意图问句和类别信息添加对应的第一答复信息,实现对数据库进行更新,更新后的数据库应用于意图识别模型。
例如,当第一意图问句、第一答复信息、最终相似度、类别信息的内容如下:
第一意图问句:B,第一答复信息:Ba,最终相似度:0.7,团队ID(即上述类别信息):00。
假设预设第一阈值为0.85,则最终相似度低于预设第一阈值,则向数据库中添加“第一意图问句:B”和相应的类别信息:“团队ID:00”,并根据“第一意图问句:B”添加相应的第一答复信息“Ba”和相应的类别信息:“团队ID:00”。
在本实施例中,若最终相似度大于或等于预设第一阈值,则根据类别信息,将第一答复信息添加到数据库,得到更新后的数据库,否则,则根据类别信息,将第一意图问句和第一答复信息添加到数据库,得到更新后的数据库,避免数据库的存储资源被重复占用,提高数据库更新的效率和准确率,进而提高意图识别的准确率和效率。
在本实施例的一些可选的实现方式中,步骤S2041中,若最终相似度小于预设第一阈值,则根据类别信息,将第一意图问句和第一答复信息添加到数据库,得到更新后的数据库的步骤包括S20410至S20412:
S20410:获取最终相似度对应的第二意图问句,作为目标意图问句,从数据库中获取与目标意图问句对应的第二答复信息,作为比较答复信息。
具体的,在步骤S20410中,获取数据库中的比较答复信息具体可以但不限于是如下方式一至方式二中的任意一种:
方式一,根据目标意图问句在数据库中获取具有相同类别信息的比较答复信息。
例如,查询到的内容如下:
{团队ID:00,目标意图问句:A,比较答复信息:Aa}
{团队ID:00,目标意图问句:A,比较答复信息:Ab}
采用方式一获取数据库中的比较答复信息,可以精确快速查找到数据库中对应的比较答复信息,进而提高数据库更新效率。
方式二,根据目标意图问句在数据库中获取具有不同类别信息的比较答复信息。
例如,查询到的内容如下:
{目标意图问句:B比较答复信息:Aa团队ID:00}
{目标意图问句:A 比较答复信息:Ab团队ID:12}
采用方式二获取比较答复信息能够更大范围的避免数据库中已存在的比较答复信息重复添加,从而节约数据库存储资源。
S20411:计算比较答复信息与第一答复信息的语义相似度,并从得到的相似度中,选取数值最大的相似度作为第三相似度。
具体的,可以通过曼哈顿距离、欧几里得距离、余弦相似度等相似度算法计算比较答复信息和第一答复信息的语义相似度,得到多个相似度,并选取数值最大的相似度作为第三相似度。
例如,计算比较答复信息和第一答复信息的第三相似度,得到如下结果:
{比较答复信息:Aa,第一答复信息:Bb,答复相似度:0.9}
{比较答复信息:Ab,第一答复信息:Bb,答复相似度:0.8}
选取0.9作为第三相似度。
S20412:基于第三相似度、预设第二阈值和类别信息,将第一答复信息添加到数据库,得到更新后的数据库。
具体的,预设第二阈值通过对意图识别模型的识别历史数据进行分析获得,通过设置该预设第二阈值可进一步提高数据库更新的准确度。
在本实施例中,获取数据库中的比较答复信息,计算比较答复信息与第一答复信息的语义相似度,并从得到的相似度中,选取数值最大的相似度作为第三相似度,根据第三相似度和预设第二阈值对数据库进行更新,可避免在数据库中重复添加语义相同或相似的第一答复信息,减少数据库的存储资源占用。
在本实施例的一些可选的实现方式中,步骤S20412中,基于第三相似度、预设第二阈值和类别信息,将第一答复信息添加到数据库,得到更新后的数据库的步骤包括S201421:
S204121:若第三相似度小于预设第二阈值,则根据类别信息,将第一答复信息添加到数据库,得到更新后的数据库。
具体的,根据第一答复信息的类别信息,将第一答复信息添加到数据库相应类别信息对应的模块下,更新后的数据库应用于意图识别模型,此处需要特别说明的是,添加到数据库中的第一答复信息与其对应的目标意图问句之间存在映射关系,即当查询到相应的目标意图问句时,可根据目标意图问句与第一答复信息之间的映射关系查找到相应的第一答复信息。
例如,当第二意图问句、第一答复信息、第三相似度、类别信息的内容如下:
第二意图问句:A,第一答复信息:Aa,第三相似度:0.9,团队ID(即上述类别信息):00。
假设预设第二阈值为0.85,则第三相似度小于预设第二阈值,则在数据库中将相应的第一答复信息“Aa”添加到相应的类别信息“团队ID:00”对应的模块下。
在本实施例的一些可选的实现方式中,在步骤S2042中,根据类别信息,将第一意图问句和第一答复信息添加到数据库,得到更新后的数据库的步骤包括S20421至S20424:
S20421:获取第一意图问句的第一相似意图。
具体的,第一相似意图是通过人工判断获取,也可以通过深度学习算法模型(DeepStructured Semantic Models,DSSM)获取,与第一意图问句的语义相同或者相近的文本语句,第一相似意图可以是一个,也可以是多个,需要说明的是,通过获取第一意图问句的第一相似意图,拓展了一个或多个与第一意图问句语义相同或者相近的文本语句,提高了数据库更新的准确率。
例如:第一意图问句为“我没听清”,
该第一意图问句对应的第一相似意图可为:
我没听清,你再说一遍。
你再说一遍。
你说什么。
我这吵,再说下。
刚才没听到。
刚才信号不好,没听到。
不好意思,麻烦你再说一遍。
S20422:采用预设的孪生网络模型,对第一相似意图进行识别,得到第二相似意图。
具体的,预设的孪生网络模型用来计算第一意图问句和第一相似意图与预设的孪生网络模型中语料库中的文本的语义相似度,从而得到第二相似意图,其中第二相似意图是指与第一意图问句和/或第一相似意图语义相同或相近的文本语句,其中,语料库为预先训练完成的挖掘日志,挖掘日志为几千万对话日志。
S20423:将第二相似意图和第一意图问句输入到意图识别模型进行识别,对识别过程中产生的数据进行分析,得到对应的指标信息。
具体的,指标信息包括但不限于准确率、召回率、混淆矩阵等。
S20424:若指标信息超过预设指标信息,则根据类别信息,将第一意图问句和第一答复信息添加到数据库,得到更新后的数据库。
具体的,预设指标信息为通过对意图识别模型的历史识别过程中产生的历史数据进行分析获得,其包括但不限于准确率、召回率、混淆矩阵等。当指标信息优于预设指标信息,则在数据库中将第一意图问句和第一答复信息添加到数据库中相应的类别信息对应的模块下,实现对数据库的更新,更新后的数据库应用于意图识别模型。
进一步的,若指标信息劣于预设指标信息,则根据指标信息和意图识别处理结束后返回的分析报告,对第二相似意图进行校验、修改并训练,直至指标信息优于预设指标信息,并对数据库进行更新,得到更新后的数据库,进一步提高数据库更新的准确率。
在本实施例中,通过获取第一意图问句的第一相似意图,将第一意图问句和第一相似意图输入到预设的孪生网络模型进行识别,得到第二相似意图,将第二相似意图和第一意图问句输入到意图识别模型中进行识别,对识别过程中产生的数据进行分析,得到对应的指标信息,若指标信息超过预设指标信息,则根据类别信息,将第一意图问句和第一答复信息添加到数据库中相应的类别信息对应的模块下,能够实现对数据库进行准确的更新,提高数据库的意图识别准确率。
在本实施例的一些可选的实现方式中,在步骤S20424中,若指标信息超过预设指标信息,则根据类别信息,将第一意图问句和第一答复信息添加到数据库,得到更新后的数据库包括S204240至S204241:
S204240:根据类别信息,在数据库中添加第一意图问句。
具体的,将第一意图问句添加到数据库中相应类别信息对应的模块中,得到更新后的数据库。
S204241:根据第一意图问句和类别信息在数据库中添加第一答复信息,得到更新后的数据库。
具体的,将第一答复信息添加到数据库中相应类别信息和第一意图问句对应的模块中,得到更新后的数据库。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例一种意图识别方法一一对应的一种意图识别装置的原理框图。如图3所示,该意图识别装置包括第一获取模块30、第二获取模块31、相似度计算模块32、更新模块33、第三获取模块34、识别处理模块35和答复模块36。各功能模块详细说明如下:
第一获取模块30,用于获取第一意图信息,第一意图信息包括类别信息、第一意图问句和第一答复信息。
第二获取模块31,用于获取数据库中存储的意图信息,作为第二意图信息,其中,第二意图信息包括类别信息、第二意图问句和第二答复信息,数据库应用于意图识别模型。
相似度计算模块32,用于根据类别信息,计算第一意图问句与第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度。
更新模块33,用于根据最终相似度和预设第一阈值对数据库进行更新,得到更新后的数据库。
第三获取模块34,用于在获取用户请求时,将用户请求中的用户意图问句和用户类别信息作为输入信息,输入到意图识别模型中。
识别处理模块35,用于通过意图识别模型采用更新后的数据库,对输入信息进行识别处理,得到第二答复信息。
答复模块36,用于采用第二答复信息对用户请求进行答复。
可选的,相似度计算模块32包括第一获取单元、第一相似度计算单元、判断单元、第二获取单元和选取单元,各个单元的详细说明具体如下:
第一获取单元,用于根据类别信息,获取与第一意图问句具有相同类别信息的第二意图问句,作为第一比较意图问句。
第一相似度计算单元,用于计算第一意图问句和第一比较意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为第一相似度。
判断单元,用于若第一相似度大于或等于预设第一阈值,则将第一相似度作为最终相似度。
第二获取单元,用于若第一相似度小于预设第一阈值,则获取与第一意图问句具有不同类别信息的第二意图问句,作为第二比较意图问句。
选取单元,用于计算第一意图问句和第二比较意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度。
可选的,更新模块33包括第一更新单元和第二更新单元,各个单元的详细说明具体如下:
第一更新单元,用于若最终相似度大于或等于预设第一阈值,则根据类别信息,将第一答复信息添加到数据库,得到更新后的数据库。
第二更新单元,用于若最终相似度小于预设第一阈值,则根据类别信息,将第一意图问句和第一答复信息添加到数据库,得到更新后的数据库。
可选的,第一更新单元包括第三获取单元、第三相似度计算单元和第一添加单元,各个单元的详细说明具体如下:
第三获取单元,用于获取最终相似度对应的第二意图问句,作为目标意图问句,从数据库中获取与目标意图问句对应的第二答复信息,作为比较答复信息。
第三相似度计算单元,用于计算比较答复信息与第一答复信息的语义相似度,并从得到的相似度中,选取数值最大的相似度作为第三相似度。
第一添加单元,用于基于第三相似度、预设第二阈值和类别信息,将第一答复信息添加到数据库,得到更新后的数据库。
可选的,第一添加单元包括第二添加单元,该单元的详细说明具体如下:
第二添加单元,用于若第三相似度小于预设第二阈值,则根据类别信息,将第一答复信息添加到数据库,得到更新后的数据库。
可选的,第二更新单元包括相似意图获取单元、第一识别单元、第二识别单元和第三更新单元,各个单元的详细说明具体如下:
相似意图获取单元,用于获取第一意图问句的第一相似意图。
第一识别单元,用于采用预设的孪生网络模型,对第一相似意图进行识别,得到第二相似意图。
第二识别单元,用于将第二相似意图和第一意图问句输入到意图识别模型进行识别,对识别过程中产生的数据进行分析,得到对应的指标信息。
第三更新单元,用于若指标信息超过预设指标信息,则根据类别信息,将第一意图问句和第一答复信息添加到数据库,得到更新后的数据库。
可选的,第三更新单元包括意图问句添加单元和答复信息添加单元,各个单元的详细说明具体如下:
意图问句添加单元,用于根据类别信息,在数据库中添加第一意图问句。
答复信息添加单元,用于根据第一意图问句和类别信息在数据库中添加第一答复信息,得到更新后的数据库。
关于一种意图识别装置的具体限定可以参见上文中对于一种意图识别方法的限定,在此不再赘述。上述一种数据库更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如电子文件的控制的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行电子文件的控制的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的数据库更新方法的步骤,或者,以使所述至少一个处理器执行如上述的意图识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种意图识别方法,其特征在于,所述方法包括:
获取第一意图信息,所述第一意图信息包括类别信息、第一意图问句和第一答复信息;
获取数据库中存储的意图信息,作为第二意图信息,其中,所述第二意图信息包括所述类别信息、第二意图问句和第二答复信息,所述数据库应用于意图识别模型;
根据所述类别信息,计算所述第一意图问句与所述第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度;
根据所述最终相似度和预设第一阈值对所述数据库进行更新,得到更新后的数据库;
在获取用户请求时,将所述用户请求中的用户意图问句和用户类别信息作为输入信息,输入到所述意图识别模型中;
通过意图识别模型采用所述更新后的数据库,对所述输入信息进行识别处理,得到第二答复信息;
采用所述第二答复信息对所述用户请求进行答复。
2.如权利要求1所述的一种意图识别方法,其特征在于,所述根据所述类别信息,计算所述第一意图问句与所述第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度的步骤包括:
根据所述类别信息,获取与所述第一意图问句具有相同类别信息的第二意图问句,作为第一比较意图问句;
计算所述第一意图问句和所述第一比较意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为第一相似度;
若所述第一相似度大于或等于预设第一阈值,则将所述第一相似度作为所述最终相似度;
若所述第一相似度小于所述预设第一阈值,则获取与所述第一意图问句具有不同类别信息的第二意图问句,作为第二比较意图问句;
计算所述第一意图问句和所述第二比较意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度。
3.如权利要求1所述的一种意图识别方法,其特征在于,所述根据所述最终相似度和预设第一阈值对所述数据库进行更新,得到更新后的数据库的步骤包括:
若所述最终相似度大于或等于所述预设第一阈值,则根据所述类别信息,将所述第一答复信息添加到所述数据库,得到所述更新后的数据库;
若所述最终相似度小于所述预设第一阈值,则根据所述类别信息,将所述第一意图问句和所述第一答复信息添加到所述数据库,得到所述更新后的数据库。
4.如权利要求3所述的一种意图识别方法,其特征在于,所述根据所述类别信息,将所述第一答复信息添加到所述数据库,得到更新后的数据库的步骤包括:
获取所述最终相似度对应的第二意图问句,作为目标意图问句,从所述数据库中获取与所述目标意图问句对应的第二答复信息,作为比较答复信息;
计算所述比较答复信息与所述第一答复信息的语义相似度,并从得到的相似度中,选取数值最大的相似度作为第三相似度;
基于所述第三相似度、预设第二阈值和所述类别信息,将所述第一答复信息添加到所述数据库,得到所述更新后的数据库。
5.如权利要求4所述的一种意图识别方法,其特征在于,所述基于所述第三相似度、预设第二阈值和所述类别信息,将所述第一答复信息添加到所述数据库,得到更新后的数据库的步骤包括:
若所述第三相似度小于预设第二阈值,则根据所述类别信息,将所述第一答复信息添加到所述数据库,得到所述更新后的数据库。
6.如权利要求3所述的一种意图识别方法,其特征在于,所述根据所述类别信息,将所述第一意图问句和所述第一答复信息添加到所述数据库,得到所述更新后的数据库的步骤包括:
获取所述第一意图问句的第一相似意图;
采用预设的孪生网络模型,对所述第一相似意图进行识别,得到第二相似意图;
将所述第二相似意图和所述第一意图问句输入到所述意图识别模型进行识别,对识别过程中产生的数据进行分析,得到对应的指标信息;
若所述指标信息超过预设指标信息,则根据所述类别信息,将所述第一意图问句和所述第一答复信息添加到所述数据库,得到所述更新后的数据库。
7.如权利要求6所述的一种意图识别方法,其特征在于,所述若所述指标信息超过预设指标信息,则根据所述类别信息,将所述第一意图问句和所述第一答复信息添加到所述数据库,得到更新后的数据库的步骤包括:
根据所述类别信息,在所述数据库中添加所述第一意图问句;
根据所述第一意图问句和所述类别信息在所述数据库中添加所述第一答复信息,得到更新后的数据库。
8.一种意图识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一意图信息,所述第一意图信息包括类别信息、第一意图问句和第一答复信息;
第二获取模块,用于获取数据库中存储的意图信息,作为第二意图信息,其中,所述第二意图信息包括所述类别信息、第二意图问句和第二答复信息,所述数据库应用于意图识别模型;
相似度计算模块,用于根据所述类别信息,计算所述第一意图问句与所述第二意图问句的语义相似度,并从得到的相似度中,选取数值最大的相似度作为最终相似度;
更新模块,用于根据所述最终相似度和预设第一阈值对所述数据库进行更新,得到更新后的数据库;
第三获取模块,用于在获取用户请求时,将所述用户请求中的用户意图问句和用户类别信息作为输入信息,输入到所述意图识别模型中;
识别处理模块,用于通过意图识别模型采用所述更新后的数据库,对所述输入信息进行识别处理,得到第二答复信息;
答复模块,用于采用所述第二答复信息对所述用户请求进行答复。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的意图识别方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的意图识别方法。
CN202110738646.XA 2021-06-30 2021-06-30 意图识别方法、装置、计算机设备及存储介质 Active CN113343713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110738646.XA CN113343713B (zh) 2021-06-30 2021-06-30 意图识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110738646.XA CN113343713B (zh) 2021-06-30 2021-06-30 意图识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113343713A true CN113343713A (zh) 2021-09-03
CN113343713B CN113343713B (zh) 2022-06-17

Family

ID=77481816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110738646.XA Active CN113343713B (zh) 2021-06-30 2021-06-30 意图识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113343713B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093698A (zh) * 2023-10-19 2023-11-21 四川蜀天信息技术有限公司 基于知识库的对话生成方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170162190A1 (en) * 2015-03-20 2017-06-08 Kabushiki Kaisha Toshiba Spoken language understanding apparatus, method, and program
CN107301213A (zh) * 2017-06-09 2017-10-27 腾讯科技(深圳)有限公司 智能问答方法及装置
CN110334179A (zh) * 2019-05-22 2019-10-15 深圳追一科技有限公司 问答处理方法、装置、计算机设备和存储介质
CN111368043A (zh) * 2020-02-19 2020-07-03 中国平安人寿保险股份有限公司 基于人工智能的事件问答方法、装置、设备及存储介质
CN111831810A (zh) * 2020-07-23 2020-10-27 中国平安人寿保险股份有限公司 智能问答方法、装置、设备及存储介质
CN112131876A (zh) * 2020-09-04 2020-12-25 交通银行股份有限公司太平洋信用卡中心 一种基于相似度确定标准问题的方法及系统
CN112527985A (zh) * 2020-12-04 2021-03-19 杭州远传新业科技有限公司 未知问题处理方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170162190A1 (en) * 2015-03-20 2017-06-08 Kabushiki Kaisha Toshiba Spoken language understanding apparatus, method, and program
CN107301213A (zh) * 2017-06-09 2017-10-27 腾讯科技(深圳)有限公司 智能问答方法及装置
CN110334179A (zh) * 2019-05-22 2019-10-15 深圳追一科技有限公司 问答处理方法、装置、计算机设备和存储介质
CN111368043A (zh) * 2020-02-19 2020-07-03 中国平安人寿保险股份有限公司 基于人工智能的事件问答方法、装置、设备及存储介质
CN111831810A (zh) * 2020-07-23 2020-10-27 中国平安人寿保险股份有限公司 智能问答方法、装置、设备及存储介质
CN112131876A (zh) * 2020-09-04 2020-12-25 交通银行股份有限公司太平洋信用卡中心 一种基于相似度确定标准问题的方法及系统
CN112527985A (zh) * 2020-12-04 2021-03-19 杭州远传新业科技有限公司 未知问题处理方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093698A (zh) * 2023-10-19 2023-11-21 四川蜀天信息技术有限公司 基于知识库的对话生成方法、装置、电子设备及存储介质
CN117093698B (zh) * 2023-10-19 2024-01-23 四川蜀天信息技术有限公司 基于知识库的对话生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113343713B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
JP6573418B2 (ja) データソースに基づく業務カスタマイズ装置、方法、システム及び記憶媒体
CN110275965B (zh) 假新闻检测方法、电子装置及计算机可读存储介质
CN111368043A (zh) 基于人工智能的事件问答方法、装置、设备及存储介质
CN112528025A (zh) 基于密度的文本聚类方法、装置、设备及存储介质
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
CN111782763A (zh) 基于语音语义的信息检索方法、及其相关设备
CN107644106B (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111813905A (zh) 语料生成方法、装置、计算机设备及存储介质
CN111339166A (zh) 基于词库的匹配推荐方法、电子装置及存储介质
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN112328909A (zh) 信息推荐方法、装置、计算机设备及介质
CN112328657A (zh) 特征衍生方法、装置、计算机设备及介质
CN113127621A (zh) 对话模块的推送方法、装置、设备及存储介质
CN113343713B (zh) 意图识别方法、装置、计算机设备及存储介质
CN116628018A (zh) 一种数据查询方法、装置、服务器及存储介质
CN111369148A (zh) 对象指标的监测方法、电子装置及存储介质
CN114265835A (zh) 基于图挖掘的数据分析方法、装置及相关设备
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN112559866A (zh) 大学图书阅读推荐方法、装置、设备及存储介质
CN112085566B (zh) 基于智能决策的产品推荐方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant