CN113590788A - 应用于智能问答系统的意图识别方法、装置、设备及介质 - Google Patents
应用于智能问答系统的意图识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113590788A CN113590788A CN202110877990.7A CN202110877990A CN113590788A CN 113590788 A CN113590788 A CN 113590788A CN 202110877990 A CN202110877990 A CN 202110877990A CN 113590788 A CN113590788 A CN 113590788A
- Authority
- CN
- China
- Prior art keywords
- insurance
- question
- database
- user input
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本公开涉及人工智能技术领域,尤其是一种应用于智能问答系统的意图识别方法、装置、设备及介质。该意图识别方法包括:对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库;对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类;根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库。本公开通过对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库,并对用户输入问题进行分词和分类,识别出用户输入问题对应的意图,并按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库,显著提升了保险领域智能问答系统的意图识别准确率。
Description
技术领域
本公开涉及人工智能技术领域,尤其是一种应用于保险领域智能问答系统的意图识别方法、装置、设备及介质。
背景技术
问答(Question Answering,QA)系统起源于图灵测试,随着时间的发展,问答系统领域也发生了重大变革。按照处理的数据格式不同,问答系统分别经历了结构化知识库阶段、无结构文本阶段、基于问题答案数据阶段。
近年来,随着大数据技术和人工智能技术的发展,智能问答系统也取得了很大的发展和进步,已经有很多智能问答系统产品问世,例如IBM研发的智能问答机器人Watson在美国智力竞赛节目中战胜了人类选手。苹果公司的Siri系统和微软公司的cortana分别在iPhone手机中和Windows10操作系统中都取得看很好的效果。
在国内,众多企业和研究团体也推出了很多以智能问答技术为核心的机器人。例如:微软公司的“小冰”、百度公司的“度秘”和中科汇联公司的“爱客服”等。这些产品涉及众多业务领域,如日常生活,医疗,交通,电子商务,旅游业,金融,教育等。
在保险领域,智能问答系统主要应用于客服系统,客服系统是保险行业中解决售前咨询、售后服务、业务扩展的主要方式之一。客服系统的好坏会直接影响公司业务转化和业绩的增长。当前保险行业内,客服系统主要有两种技术形态。第一种、通过技术方式构建人工在线客服服务平台,通过时时通讯的方式,依靠人工服务解决客户咨询问题,而客服人员则通过对内部知识库的查询得到相应客服答案进行问题解答;第二种、通过智能问答系统实现的自动化客服系统,通过对用户咨询内容进行分词或语义分析与知识库内容进行匹配,从而得到关联性较高的答案。
对于通过智能问答系统实现的自动化客服系统,由于用户咨询的问题具有多样性,可能涉及闲聊、保险知识、保险产品等多个方面的问题,自动化客服系统在进行统一的知识库查询时,如果对用户输入问题进行意图识别的准确率不够,则将会导致查询效率低并出现答非所问的情况,无法向用户返回符合用户需求的问题答复。
发明内容
(一)要解决的技术问题
有鉴于此,本公开的主要目的在于提供一种应用于保险领域智能问答系统的意图识别方法、装置、设备及介质,以提高意图识别的准确率。
(二)技术方案
本公开的第一方面,提供了一种应用于保险领域智能问答系统的意图识别方法,包括:对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库;对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类;以及根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库。
在一些实施例中,所述对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库,包括:获取保险领域问答数据,对保险领域问答数据进行数据清洗与处理,构建出至少包括保险问答数据库、保险产品数据库和保险知识百科数据库的保险域数据库。
在一些实施例中,所述获取保险领域问答数据,包括:通过人工采集或爬虫两种方式从专业保险代理人、保险知识软件或保险公司官网获取保险领域问答数据,其中,人工采集为寻找专业保险代理人针对APP中常见的问题进行回答,问题直接从APP后台提取;爬虫是通过提问的方式从保险知识软件或保险公司官网中爬取保险的相关知识和保险产品的内容。
在一些实施例中,所述对保险领域问答数据进行数据清洗与处理,包括:清除保险领域问答数据中不规范数据和不合理数据,保证保险领域问答数据的正确可靠;对清洗后的保险领域问答数据集进行处理,将有关保险定义的问答数据提取出来作为保险产品数据库,将有关保险产品的问答数据提取出来作为保险知识百科数据库。
在一些实施例中,所述清除保险领域问答数据中不规范数据和不合理数据的步骤中,数据清洗的规则包括:清除重复数据,清除错误数据和清除闲聊数据。
在一些实施例中,所述将有关保险定义的问答数据提取出来作为保险产品数据库的步骤中,是从保险产品问答对中至少将产品类别、产品ID、产品名称、产品公司、承保年限和价格提取出来作为保险产品数据库;所述将有关保险产品的问答数据提取出来作为保险知识百科数据库的步骤中,是从保险产品问答对中至少将知识名词、简称和介绍提取出来作为保险百科数据库。
在一些实施例中,所述对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类,包括:构建保险领域关键词的专有词库,并利用构建的该保险领域关键词的专有词库对用户输入问题进行分词处理,然后采用基于预训练模型的意图识别模型对分词处理后的用户输入问题进行分类。
在一些实施例中,所述根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库,包括:根据分类结果识别出用户输入问题的意图对应于闲聊、保险相关问题、保险产品查询、保险知识查询这四个类别之一;按照识别出的意图将属于闲聊的用户输入问题对应至智能问答系统的闲聊接口,将属于保险相关问题的用户输入问题对应至保险域数据库的保险问答数据库,将属于保险产品查询的用户输入问题对应至保险域数据库的保险产品数据库,将属于保险知识查询的用户输入问题对应至保险域数据库的保险知识百科数据库。
在一些实施例中,所述计算用户输入问题与各个候选问题词向量的余弦相似度之后,还包括:按照由高到低的顺序对余弦相似度进行排序。
在一些实施例中,所述在按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库之后,还包括:基于用户输入问题与各子数据库的对应关系生成与用户输入问题匹配的回复并输出。
本公开的另一方面,提供了一种应用于保险领域智能问答系统的意图识别装置,包括:保险域数据库构建模块,用于对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库;数据处理模块,用于对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类;意图识别模块,用于根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库。
本公开的又一方面,提供了一种应用于保险领域智能问答系统的意图识别设备,包括:一个或多个处理器;存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器实现所述的应用于保险领域智能问答系统的意图识别方法。
本公开的再一方面,提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令被执行时实现所述的应用于保险领域智能问答系统的意图识别方法。
本公开的再一方面,提供了一种计算机程序,包括:计算机可执行指令,所述指令被执行时用于实现所述的应用于保险领域智能问答系统的意图识别方法。
(三)有益效果
从上述技术方案可以看出,本公开提供的应用于保险领域智能问答系统的意图识别方法、装置、设备及介质,相对于现有技术具有以下有益效果:
本公开提供的应用于保险领域智能问答系统的意图识别方法、装置、设备及介质,通过对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库,对用户输入问题进行分词,然后通过预训练语言模型获取问题表征并设计基于BERT意图识别分类模型,在保险领域数据集上进行微调,识别出用户输入问题对应的意图,显著提升了保险领域智能问答系统的意图识别准确率。
本公开提供的应用于保险领域智能问答系统的意图识别方法、装置、设备及介质,在识别出用户输入问题对应的意图后,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库,并基于用户输入问题与各子数据库的对应关系生成与用户输入问题匹配的回复并输出,使得每一个用户输入问题均能匹配到最佳回复,有效解决了现有智能问答系统存在的答非所问的问题,提升了用户满意度。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1是依照本公开实施例的应用于保险领域智能问答系统的意图识别方法的流程图。
图2是依照本公开实施例的应用于保险领域智能问答系统的意图识别装置的框图。
图3A示意性示出了依照本公开实施例的构建包括多个子数据库的保险域数据库的流程图。
图3B示意性示出了依照本公开实施例的用户输入问题识别与数据库链接的流程图。
图4是依照本公开实施例的应用于保险领域智能问答系统的意图识别设备的框图。
【附图标记】:
S1、S2、S3:步骤
200:意图识别装置
201:保险域数据库构建模块
202:数据处理模块
203:意图识别模块
S31、S32、S33、S41、S42、S43、S44、S45:步骤
400:意图识别设备
410:处理器
420:存储器
421:计算机程序
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
并且图中各部件的形状和尺寸不反映真实大小和比例,而仅示意本公开实施例的内容。另外,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。
再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。说明书与权利要求书中所使用的序数例如“S1”、“S2”、“S3”等的用词,以修饰权利要求项的步骤,其本身并不意含及代表该请求步骤有任何之前的序数,也不代表某一请求步骤与另一请求步骤的顺序、或是制造方法上的顺序,这些序数的使用仅用来使具有某命名的一请求步骤得以和另一请求步骤能作出清楚区分。
现有的意图识别技术主要分为三种:基于规则的方法、基于机器学习的方法和基于混合模型的方法。其中,基于规则的方法是根据给定数据来构建一个基于规则的分类器,在分类器中需要根据不同的问句设定不同的规则来提取句子中的关键词,然后根据该关键词来理解自然语言问句的意图,从而达到意图识别的目的。
基于机器学习的方法主要分为两部分,第一部分是对问句进行表示,第二部分是分类器对问句进行意图的分类。传统的机器学习方法采用特征选择和提取的方式对问句进行表示,然后通过分类器进行分类,常见的分类器例如SVM、K-近邻或决策树等。
与传统机器学习不同的是,深度学习方法采用编码器对问句进行编码,问句被编码成一个向量,再接一个线性分类器对问句进行意图分类从而达到意图识别的目的;常见的编码器如RNN,LSTM,GRU,Transformer等。
基于混合模型的方法是将多个机器学习模型进行混合,以少数服从多数的原则来提高模型分类的准确性,常见的模型如Adaboost算法。
但是,上述意图识别方法基于其自身特点分别具有各自的技术缺陷,其中,对于基于规则的方法,模型的设计需要依赖于大量手工设计的规则,而且需要大量人工标注,耗时耗力;模型完全依赖于设计的规则,模型泛化能力差,对于意思相近的句子效果也比较差。
对于基于机器学习的方法和基于混合模型的方法,首先,不管是基于传统机器学习方法还是深度学习方法,均是数据驱动的需要大量的有标注数据,由于获取的有标注数据有很强领域的局限性,而保险领域因其私有性并没有公开的数据集,因此这些数据驱动的方法在保险领域的效果差强人意;其次,与常识性问答预料不同的是,保险领域的问答语料中有大量的专有词汇,这使得基础的分词工作效果很差,同时也严重影响了后续模型的对问句的表示和分类效果。
因此,现有的意图识别技术,无论是基于传统的机器学习方法,还是主流的深度学习方法,均存在领域适应性问题,并且由于保险领域应答数据的专业性和应答数据的稀缺性,使得现有的模型在保险领域并不能取得很好的效果,意图识别的准确率低,极易出现答非所问等技术问题。
针对现有技术中意图识别的准确率低,极易出现答非所问等技术问题,本公开的实施例对现有应用于保险领域智能问答系统的意图识别方法进行了改进,提供了图1所示的应用于保险领域智能问答系统的意图识别方法。
本公开的实施例提供了一种应用于保险领域智能问答系统的意图识别方法,如图1所示,图1是依照本公开实施例的应用于保险领域智能问答系统的意图识别方法的流程图。需要注意的是,图1所示仅为可以应用本公开实施例的应用场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他环境或场景。
如图1所示,根据本公开实施例的应用于保险领域智能问答系统的意图识别方法,包括如下步骤:
步骤S1:对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库;既能服务于保险领域智能问答系统,也可后续开源为将来其他人在保险域的相关工作提供莫大的帮助。
在本步骤中,所述对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库,包括:获取保险领域问答数据,对保险领域问答数据进行数据清洗与处理,构建出至少包括保险问答数据库、保险产品数据库和保险知识百科数据库的保险域数据库。
在本公开的一个实施例中,获取保险领域问答数据,一般是通过人工采集或爬虫两种方式从专业保险代理人、保险知识软件或保险公司官网获取保险领域问答数据,其中,人工采集为寻找专业保险代理人针对APP中常见的问题进行回答,问题直接从APP后台提取;爬虫是通过提问的方式从保险知识软件或保险公司官网中爬取保险的相关知识和保险产品的内容。
在本公开的一个实施例中,对保险领域问答数据进行数据清洗与处理,包括:清除保险领域问答数据中不规范数据和不合理数据,保证保险领域问答数据的正确可靠;对清洗后的保险领域问答数据集进行处理,将有关保险定义的问答数据提取出来作为保险产品数据库,将有关保险产品的问答数据提取出来作为保险知识百科数据库。
其中,所述清除保险领域问答数据中不规范数据和不合理数据的步骤中,数据清洗的规则包括:清除重复数据,清除错误数据和清除闲聊数据。所述将有关保险定义的问答数据提取出来作为保险产品数据库的步骤,是从保险产品问答对中至少将产品类别、产品ID、产品名称、产品公司、承保年限和价格提取出来作为保险产品数据库;所述将有关保险产品的问答数据提取出来作为保险知识百科数据库的步骤,是从保险产品问答对中至少将知识名词、简称和介绍提取出来作为保险百科数据库。
步骤S2:对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类;
在本步骤中,首先构建保险领域关键词的专有词库,并利用构建的该保险领域关键词的专有词库对用户输入问题进行分词处理,然后采用基于预训练模型的意图识别模型对分词处理后的用户输入问题进行分类。
步骤S3:根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库;
在本步骤中,所述根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库,具体包括:根据分类结果识别出用户输入问题的意图对应于闲聊、保险相关问题、保险产品查询、保险知识查询这四个类别之一;按照识别出的意图将属于闲聊的用户输入问题对应至智能问答系统的闲聊接口,将属于保险相关问题的用户输入问题对应至保险域数据库的保险问答数据库,将属于保险产品查询的用户输入问题对应至保险域数据库的保险产品数据库,将属于保险知识查询的用户输入问题对应至保险域数据库的保险知识百科数据库。
根据本公开的实施例,在图1所示的依照本公开实施例的应用于智能问答系统的意图识别方法中,所述在按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库之后,该方法还包括:基于用户输入问题与各子数据库的对应关系生成与用户输入问题匹配的回复并输出。
图1所示的依照本公开实施例的应用于智能问答系统的意图识别方法,对现有应用于智能问答系统的意图识别方法进行了有效地改进,通过对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库,对用户输入问题进行分词,然后通过预训练语言模型获取问题表征并设计基于BERT意图识别分类模型,在保险领域数据集上进行微调,识别出用户输入问题对应的意图,显著提升了保险领域智能问答系统的意图识别准确率。
同时,图1所示的依照本公开实施例的应用于智能问答系统的意图识别方法,在识别出用户输入问题对应的意图后,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库,并基于用户输入问题与各子数据库的对应关系生成与用户输入问题匹配的回复并输出,使得每一个用户输入问题均能匹配到最佳回复,有效解决了现有智能问答系统存在的答非所问的问题,提升了用户满意度。
基于图1所示的依照本公开实施例的应用于智能问答系统的意图识别方法的流程图,图2示意性示出了依照本公开实施例的应用于智能问答系统的意图识别装置的框图。
如图2所示,本公开实施例提供的应用于智能问答系统的意图识别装置200,包括保险域数据库构建模块201、数据处理模块202和意图识别模块203,其中:保险域数据库构建模块201用于对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库;数据处理模块202用于对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类;意图识别模块203用于根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库。
应当理解,保险域数据库构建模块201、数据处理模块202和意图识别模块203可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
根据本公开的实施例,保险域数据库构建模块201、数据处理模块202和意图识别模块203中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,保险域数据库构建模块201、数据处理模块202和意图识别模块203中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图2所示的依照本公开实施例的应用于智能问答系统的意图识别装置的框图,对现有应用于智能问答系统的意图识别方式进行了有效地改进,通过对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库,对用户输入问题进行分词,然后通过预训练语言模型获取问题表征并设计基于BERT意图识别分类模型,在保险领域数据集上进行微调,识别出用户输入问题对应的意图,显著提升了保险领域智能问答系统的意图识别准确率。
同时,图2所示的依照本公开实施例的应用于智能问答系统的意图识别装置的框图,在识别出用户输入问题对应的意图后,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库,并基于用户输入问题与各子数据库的对应关系生成与用户输入问题匹配的回复并输出,使得每一个用户输入问题均能匹配到最佳回复,有效解决了现有智能问答系统存在的答非所问的问题,提升了用户满意度。
基于图1所示的依照本公开实施例的应用于智能问答系统的意图识别方法的流程图以及图2所示的依照本公开实施例的应用于智能问答系统的意图识别装置的框图,本公开还提供了应用于智能问答系统的意图识别方法的一个具体实施例,具体如图3A和图3B所示,图3A示意性示出了依照本公开实施例的构建包括多个子数据库的保险域数据库的流程图,图3B示意性示出了依照本公开实施例的用户输入问题识别与数据库链接的流程图。
如图3A所示,图3A示意性示出了依照本公开实施例的构建包括多个子数据库的保险域数据库的方法流程图,该方法包括如下步骤:
步骤S31:获取保险领域问答数据;
在本步骤中,保险领域问答数据的数据来源,主要来自于专业保险代理人、保险知识软件(例如保险侠APP)或保险公司官网;通过人工采集和爬虫两种方式获得,其中,人工采集为寻找专业保险代理人针对APP中常见的问题进行回答,问题直接从APP后台提取;爬虫是通过提问的方式从保险知识软件或保险公司官网中爬取保险的相关知识和保险产品的内容。
获取的保险领域问答数据的形式为保险专业的问答(QA)对:例如:
Q:什么是保险?
A:【保险】:保险或缩写为,本意是稳妥可靠保障。后延伸成一种保障机制,是用来规划人生财务的一种工具,是市场经济条件下风险管理的基本手段,是金融体系和社会保障体系的重要的支柱。保险是指投保人根据合同约定,向保险人支付保险费,保险人对于合同约定的可能发生的事故因其发生所造成的财产损失承担赔偿保险金责任,或者被保险人死亡、伤残、疾病或者达到合同约定的年龄、期限等条件时承担给付保险金责任的商业保险行为。
Q:新华人寿保险股份有限公司新华盛世赢家年金保险
A:【产品名称】:新华人寿保险股份有限公司新华盛世赢家年金保险
【产品编号】:新华保险[2016]年金保险036号
【所属公司】:新华人寿保险股份有限公司
【产品状态】:停售
【停售日期】:2017-03-31
【产品类型】:年金保险
【产品期限】:长期(超过一年或含有保证续保条款)
【保障对象】:个人
【产品形式】:传统型产品
【支付方式】:分期交费一次性交费兼有。
步骤S32:对保险领域问答数据进行数据清洗与处理;
在获取保险领域问答数据后,需要对保险领域问答数据进行清洗与处理,其中,数据清洗是清除保险领域问答数据中不规范数据和不合理数据,保证保险领域问答数据的正确可靠;数据清洗的规则包括:清除重复数据,清除错误数据和清除闲聊数据。
数据处理是对清洗后的保险领域问答数据集进行处理,将有关保险定义的问答数据提取出来作为保险产品数据库,将有关保险产品的问答数据提取出来作为保险知识百科数据库。
因为保险产品、保险定义等都是通过问答(QA)形式展示出来的,这样的数据形式扩展性较差,可应用的场景较少,因此需要将保险定义和保险产品的QA对提取出来处理为产品数据库和保险知识百科。在保险产品数据库中,从保险产品QA对中提取产品类别、产品id、产品名称、产品公司、承保年限、价格等;在保险百科数据库中,主要包括知识名词,简称,介绍三部分。
在本步骤中,将有关保险定义的问答数据提取出来作为保险产品数据库,是从保险产品问答对中至少将产品类别、产品ID、产品名称、产品公司、承保年限和价格提取出来作为保险产品数据库;将有关保险产品的问答数据提取出来作为保险知识百科数据库,是从保险产品问答对中至少将知识名词、简称和介绍提取出来作为保险百科数据库。
步骤S33:构建出至少包括保险问答数据库、保险产品数据库和保险知识百科数据库的保险域数据库。
在本步骤,构建出至少包括保险问答数据库、保险产品数据库和保险知识百科数据库的保险域数据库,一方面该保险域数据库可以应用于后续保险领域智能问答系统的各种功能上,如保险对话,产品查询,知识解答等;另一方面其可扩展也使其能够不断完善、不断补充知识。
在构建出包括保险问答数据库、保险产品数据库和保险知识百科数据库的保险域数据库之后,就可以设计保险对话机器人,即保险领域智能问答系统,识别出用户的意图,并将用户的意图识别以及不同的意图链接到不同的保险域数据库中。
意图识别是指确认用户输入问题的意图是什么,是为了和机器人闲聊天,还是保险专业知识的提问,不同类别采用不同的处理方式。为了解决这个问题,本公开将用户意图分为:闲聊、保险知识查询、保险产品查询、保险相关问题等几个类别。例如问答(QA)对如下:
闲聊:Q:你好啊;A:你好,很高兴见到你
保险相关问题:Q:为什么要投保医疗险?A:医疗险大多为报销型,简单说就是拿着发票按照一定的比例报销。有一些产品支持直付多为短期,合同期满后,当然保险公司有调整价格的权利。
在划分好类别之后,对输入的句子先利用专有词库进行分词,然后采用模型进行分类,本实施例是使用了基于bert的预训练模型,通过设计4分类模型,使所获取的数据进行fine-tuning任务。
如图3B所示,图3B示意性示出了依照本公开实施例的用户输入问题识别与数据库链接的流程图,该方法包括如下步骤:
步骤S41:接收用户输入问题;
步骤S42:对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类;
在本步骤中,构建保险领域关键词的专有词库,并利用构建的该保险领域关键词的专有词库对用户输入问题进行分词处理,然后采用基于预训练模型的意图识别模型对分词处理后的用户输入问题进行分类。
步骤S43:根据分类结果识别出用户输入问题对应的意图;
在本步骤中,所述根据分类结果识别出用户输入问题对应的意图,具体包括:根据分类结果识别出用户输入问题的意图对应于闲聊、保险相关问题、保险产品查询、保险知识查询这四个类别之一。
在识别用户输入问题对应意图的过程中,会出现一些特殊情况,即某些问题可能被分为闲聊语料但却是保险域的问题,比如“新华”、“平安”,“白血病”……这些问题虽然看起来是闲聊数据,但其实在保险行业是有对应索引的。例如:
Q:新华;
A:新华保险是新华人寿保险股份有限公司的简称,成立于1996年9月,总部位于北京市,是一家大型寿险企业。2011年,新华保险在香港联合交易所和上海证券交易所同步上市,A股代码为601336,H股代码为1336
Q:平安;
A:中国平安人寿保险股份有限公司成立于2002年,是中国平安保险(集团)股份有限公司旗下的重要成员。从规模保费来衡量,是目前国内第二大寿险公司。
针对这种特殊情况,本公开采用的方法是从问题库中将这些关键词抽取出来,建立保险域的关键词库。如果在分类之时遇到这些词,优先将其分到保险域中而不是闲聊域,以更多的引导用户提问保险专业相关问题,避免陷入与机器人闲聊天。
步骤S44:按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库;
在本步骤中,所述按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库,具体包括:按照识别出的意图将属于闲聊的用户输入问题对应至智能问答系统的闲聊接口,将属于保险相关问题的用户输入问题对应至保险域数据库的保险问答数据库,将属于保险产品查询的用户输入问题对应至保险域数据库的保险产品数据库,将属于保险知识查询的用户输入问题对应至保险域数据库的保险知识百科数据库。
步骤S45:在按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库之后,基于用户输入问题与各子数据库的对应关系生成与用户输入问题匹配的回复并输出。
本公开实施例还提供了一种应用于智能问答系统的意图识别设备,如图4所示,图4示意性示出了依照本公开实施例的应用于智能问答系统的意图识别设备400的框图。该应用于智能问答系统的意图识别设备400包括:一个或多个处理器410;存储器420,其存储有计算机可执行程序,该程序在被所述处理器410执行时,使得所述处理器410实现图1所示的应用于智能问答系统的意图识别方法。
具体地,处理器410例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器410还可以包括用于缓存用途的板载存储器。处理器410可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
存储器420,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
存储器420可以包括计算机程序421,该计算机程序421可以包括代码/计算机可执行指令,其在由处理器410执行时使得处理器410执行根据本公开实施例的方法或其任何变形。
计算机程序421可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序421中的代码可以包括至少一个程序模块,例如包括模块421A、模块421B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器410执行时,使得处理器410可以执行根据本公开实施例的方法或其任何变形。
本公开实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的应用于智能问答系统的意图识别方法。
根据本公开的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
本公开还提供了一种计算机程序,该计算机程序包括:计算机可执行指令,所述指令被执行时用于实现根据本公开实施例的应用于智能问答系统的意图识别方法。
至此,已经结合附图对本公开进行了详细描述。依据以上描述,本领域技术人员应当对本公开有了清楚的认识。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
当然,根据实际需要,本公开还可以包含其他的部分,由于同本公开的创新之处无关,此处不再赘述。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
此外,在附图或说明书描述中,相似或相同的部分都使用相同的图号。说明书中示例的各个实施例中的技术特征在无冲突的前提下可以进行自由组合形成新的方案,另外每个权利要求可以单独作为一个实施例或者各个权利要求中的技术特征可以进行组合作为新的实施例。再者,附图中未绘示或描述的元件或实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
除非存在技术障碍或矛盾,本公开的上述各种实施方式可以自由组合以形成另外的实施例,这些另外的实施例均在本公开的保护范围中。
虽然结合附图对本公开进行了说明,但是附图中公开的实施例旨在对本公开优选实施方式进行示例性说明,而不能理解为对本公开的一种限制。附图中的尺寸比例仅仅是示意性的,并不能理解为对本公开的限制。
虽然本公开总体构思的一些实施例已被显示和说明,本领域普通技术人员将理解,在不背离本总体公开构思的原则和精神的情况下,可对这些实施例做出改变,本公开的范围以权利要求和它们的等同物限定。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (13)
1.一种应用于智能问答系统的意图识别方法,其特征在于,包括:
对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库;
对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类;以及
根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库。
2.根据权利要求1所述的应用于智能问答系统的意图识别方法,其特征在于,所述对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库,包括:
获取保险领域问答数据,对保险领域问答数据进行数据清洗与处理,构建出至少包括保险问答数据库、保险产品数据库和保险知识百科数据库的保险域数据库。
3.根据权利要求2所述的应用于智能问答系统的意图识别方法,其特征在于,所述获取保险领域问答数据,包括:
通过人工采集或爬虫两种方式从专业保险代理人、保险知识软件或保险公司官网获取保险领域问答数据,其中,人工采集为寻找专业保险代理人针对APP中常见的问题进行回答,问题直接从APP后台提取;爬虫是通过提问的方式从保险知识软件或保险公司官网中爬取保险的相关知识和保险产品的内容。
4.根据权利要求2所述的应用于智能问答系统的意图识别方法,其特征在于,所述对保险领域问答数据进行数据清洗与处理,包括:
清除保险领域问答数据中不规范数据和不合理数据,保证保险领域问答数据的正确可靠;
对清洗后的保险领域问答数据集进行处理,将有关保险定义的问答数据提取出来作为保险产品数据库,将有关保险产品的问答数据提取出来作为保险知识百科数据库。
5.根据权利要求4所述的应用于智能问答系统的意图识别方法,其特征在于,所述清除保险领域问答数据中不规范数据和不合理数据的步骤中,数据清洗的规则包括:清除重复数据,清除错误数据和清除闲聊数据。
6.根据权利要求4所述的应用于智能问答系统的意图识别方法,其特征在于,
所述将有关保险定义的问答数据提取出来作为保险产品数据库的步骤,是从保险产品问答对中至少将产品类别、产品ID、产品名称、产品公司、承保年限和价格提取出来作为保险产品数据库;
所述将有关保险产品的问答数据提取出来作为保险知识百科数据库的步骤,是从保险产品问答对中至少将知识名词、简称和介绍提取出来作为保险百科数据库。
7.根据权利要求1所述的应用于智能问答系统的意图识别方法,其特征在于,所述对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类,包括:
构建保险领域关键词的专有词库,并利用构建的该保险领域关键词的专有词库对用户输入问题进行分词处理,然后采用基于预训练模型的意图识别模型对分词处理后的用户输入问题进行分类。
8.根据权利要求7所述的应用于智能问答系统的意图识别方法,其特征在于,所述根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库,包括:
根据分类结果识别出用户输入问题的意图对应于闲聊、保险相关问题、保险产品查询、保险知识查询这四个类别之一;
按照识别出的意图将属于闲聊的用户输入问题对应至智能问答系统的闲聊接口,将属于保险相关问题的用户输入问题对应至保险域数据库的保险问答数据库,将属于保险产品查询的用户输入问题对应至保险域数据库的保险产品数据库,将属于保险知识查询的用户输入问题对应至保险域数据库的保险知识百科数据库。
9.根据权利要求1所述的应用于智能问答系统的意图识别方法,其特征在于,所述在按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库之后,还包括:
基于用户输入问题与各子数据库的对应关系生成与用户输入问题匹配的回复并输出。
10.一种应用于智能问答系统的意图识别装置,其特征在于,包括:
保险域数据库构建模块,用于对保险领域问答数据进行处理,构建包括多个子数据库的保险域数据库;
数据处理模块,用于对用户输入问题进行分词处理,并对分词处理后的用户输入问题进行分类;
意图识别模块,用于根据分类结果识别出用户输入问题对应的意图,按照识别出的意图将用户输入问题对应至保险域数据库的各子数据库。
11.一种应用于智能问答系统的意图识别设备,其特征在于,包括:
一个或多个处理器;
存储器,其存储有计算机可执行程序,该程序在被所述处理器执行时,使得所述处理器实现权利要求1-9中任一项所述的应用于智能问答系统的意图识别方法。
12.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令被执行时实现权利要求1-9中任一项所述的应用于智能问答系统的意图识别方法。
13.一种计算机程序,其特征在于,包括:计算机可执行指令,所述指令被执行时用于实现权利要求1-9中任一项所述的应用于智能问答系统的意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110877990.7A CN113590788A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的意图识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110877990.7A CN113590788A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的意图识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113590788A true CN113590788A (zh) | 2021-11-02 |
Family
ID=78253377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110877990.7A Pending CN113590788A (zh) | 2021-07-30 | 2021-07-30 | 应用于智能问答系统的意图识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590788A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886435A (zh) * | 2021-12-08 | 2022-01-04 | 国能大渡河大数据服务有限公司 | 一种基于循环神经网络的信息查询方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019844A (zh) * | 2019-02-20 | 2019-07-16 | 众安信息技术服务有限公司 | 一种保险行业知识图谱问答系统构建方法及装置 |
CN111276148A (zh) * | 2020-01-14 | 2020-06-12 | 中国平安人寿保险股份有限公司 | 基于卷积神经网络的回访方法、系统及存储介质 |
CN111651554A (zh) * | 2020-04-17 | 2020-09-11 | 世纪保众(北京)网络科技有限公司 | 基于自然语言理解及处理的保险问答回答的方法和装置 |
CN111708869A (zh) * | 2020-05-12 | 2020-09-25 | 北京明略软件系统有限公司 | 人机对话的处理方法及装置 |
-
2021
- 2021-07-30 CN CN202110877990.7A patent/CN113590788A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019844A (zh) * | 2019-02-20 | 2019-07-16 | 众安信息技术服务有限公司 | 一种保险行业知识图谱问答系统构建方法及装置 |
CN111276148A (zh) * | 2020-01-14 | 2020-06-12 | 中国平安人寿保险股份有限公司 | 基于卷积神经网络的回访方法、系统及存储介质 |
CN111651554A (zh) * | 2020-04-17 | 2020-09-11 | 世纪保众(北京)网络科技有限公司 | 基于自然语言理解及处理的保险问答回答的方法和装置 |
CN111708869A (zh) * | 2020-05-12 | 2020-09-25 | 北京明略软件系统有限公司 | 人机对话的处理方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886435A (zh) * | 2021-12-08 | 2022-01-04 | 国能大渡河大数据服务有限公司 | 一种基于循环神经网络的信息查询方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210272040A1 (en) | Systems and methods for language and speech processing with artificial intelligence | |
US10817941B2 (en) | Modeling asset transfer flow relationships discovered in unstructured data | |
KR102103273B1 (ko) | 계층적으로 사용자 표현을 이해하고 답변을 생성하는 대화형 상담 챗봇 장치 및 방법 | |
WO2020244073A1 (zh) | 基于语音的用户分类方法、装置、计算机设备及存储介质 | |
US11829420B2 (en) | Summarized logical forms for controlled question answering | |
CN109885660A (zh) | 一种知识图谱赋能的基于信息检索的问答系统和方法 | |
US9710829B1 (en) | Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities | |
US9218163B2 (en) | Generating complex event processing rules | |
CN109345282A (zh) | 一种业务咨询的响应方法及设备 | |
US10839618B2 (en) | Applied artificial intelligence for natural language processing automotive reporting system | |
US20220366127A1 (en) | Legal Document Generation | |
CN110750978A (zh) | 情感倾向分析方法、装置、电子设备及存储介质 | |
KR20200041199A (ko) | 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체 | |
CN113868391B (zh) | 基于知识图谱的法律文书生成方法、装置、设备及介质 | |
CN111695335A (zh) | 一种智能面试方法、装置及终端设备 | |
CN113590788A (zh) | 应用于智能问答系统的意图识别方法、装置、设备及介质 | |
CN113553431B (zh) | 用户标签提取方法、装置、设备及介质 | |
Luk | Generative AI: Overview, economic impact, and applications in asset management | |
CN112883183B (zh) | 构建多分类模型的方法、智能客服方法和相关装置及系统 | |
CN113590789A (zh) | 应用于智能问答系统的问题检索方法、装置、设备及介质 | |
CN114492446A (zh) | 法律文书处理方法、装置、电子设备及存储介质 | |
Pain | Harmonized System Code Classification Using Transfer Learning with Pre-Trained Weights | |
CN111427880A (zh) | 数据处理的方法、装置、计算设备以及介质 | |
Haney | Patents for NLP Software: An Empirical Review | |
US11922515B1 (en) | Methods and apparatuses for AI digital assistants |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |