CN110825865A - 一种基于专有词纠正和冷启动的多轮对话智能客服系统 - Google Patents
一种基于专有词纠正和冷启动的多轮对话智能客服系统 Download PDFInfo
- Publication number
- CN110825865A CN110825865A CN202010019770.6A CN202010019770A CN110825865A CN 110825865 A CN110825865 A CN 110825865A CN 202010019770 A CN202010019770 A CN 202010019770A CN 110825865 A CN110825865 A CN 110825865A
- Authority
- CN
- China
- Prior art keywords
- module
- intention
- scene
- word
- customer service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及客服系统技术领域,具体公开了一种基于专有词纠正和冷启动的多轮对话智能客服系统,所述系统包括场景和意图识别模块、实体挖槽识别模块、多轮会话管理模块、模型训练管理模块,所述场景和意图识别模块、实体挖槽识别模块、多轮会话管理模块依次通过协议连接,模型训练管理模块分别与场景和意图识别模块、实体挖槽识别模块通过协议连接。在实体挖槽过程中运用了专有词纠正功能,解决了用户输入并不一定按照系统设置的专有名词一字不漏的输入,造成系统无法识别的问题。整个系统不单单可以做意图切换,还可以做意图继承。在引入了BERT之后,可以减少对包含通有名词的人工标注。
Description
技术领域
本发明涉及客服系统技术领域,尤其涉及一种基于专有词纠正和冷启动的多轮对话智能客服系统。
背景技术
近年来,随着大数据和深度学习的高速发展,各大厂商都开始大力推广应用人工智能技术,也引领了一波人工智能研究热潮,以及形成了一股未来的技术趋势。自然语言作为人工智能其中一个重要的方向,在众多领域已经出现了落地案例。
在传统营销中,人工客服是一个不可避免的营销成本,但是绝大多数的情况下,人工客服仅仅需要针对某几类场景和问题进行大量重复地机械式地回答,所以基于多轮对话的智能客服,作为自然语言商业落地一个重要的方向,在一定程度上代替话术重复较高的传统人工客服,为企业节省人工成本。
要搭建起一个可用可靠的多轮对话智能客服系统,有两个重要的要点,其一是自然语言理解中,其二是多轮会话管理。详细地说,自然语言理解是从计算机不能直接理解的文本中获取关键信息,又可以分为场景识别,意图识别和实体提取。多轮会话管理主要是存储上一轮对话保留的关键词槽信息以及划分意图,为下一轮的对话给用户提供会话引导与词槽澄清。
但传统的对话系统在需要给通用的人名以及地名,时间等通用名词训练打标,增加了人工训练成本,以及用户输入并不一定按照系统设置的专有名词一字不漏的输入,造成系统无法识别,这些问题都需要亟待解决。
发明内容
为解决上述技术问题,本发明提出一种基于专有词纠正和冷启动的多轮对话智能客服系统,代替传统人工客服。
为实现上述技术目的,本发明采用以下技术方案:
一种基于专有词纠正和冷启动的多轮对话智能客服系统,所述系统包括场景和意图识别模块、实体挖槽识别模块、多轮会话管理模块、模型训练管理模块,所述场景和意图识别模块、实体挖槽识别模块、多轮会话管理模块依次通过协议连接,模型训练管理模块分别与场景和意图识别模块、实体挖槽识别模块通过协议连接。
进一步的改进在于,所述的场景和意图识别模块通过基于bert的文本分类模型进行分类,场景和意图识别模块内置场景训练模型,每个场景设有多个词槽。
进一步的改进在于,所述的实体挖槽识别模块内置识别训练模型,通过BERT+LSTM+CRF模型抽取用户输入的关键词填充对应的槽位实现识别功能。
进一步的改进在于,所述的实体挖槽识别模块内未设置识别训练模型,实体挖槽识别模块使用jieba分词的自定义词槽词性来冷启动系统。
进一步的改进在于,所述多轮会话系统模块包括词槽依次澄清、意图切换、意图继承子系统模块,所述词槽依次澄清子系统模块引导用户填充所缺的槽位,所述意图切换子系统模块通过模型识别到不同的意图,让用户重新依次澄清词槽,意图继承子系统模块在完成查询上一轮的情况,用户继续提问当前意图,则继承上一轮的词槽。
进一步的改进在于,所述模型训练管理模块通过前端界面导入训练数据,用于管理每个场景下的场景训练模型和识别训练模型。
与现有技术相比,本发明具有以下有益效果:
本发明基于专有词纠正和冷启动的多轮对话智能客服系统主要由四个模块组成:场景和意图识别,实体挖槽识别,多轮会话管理,以及模型训练管理这四个模块,可以将业务抽象成文本分类,以及实体识别等相关自然语言处理模块进行实现。在实体挖槽过程中运用了专有词纠正功能,解决了用户输入并不一定按照系统设置的专有名词一字不漏的输入,造成系统无法识别的问题,以及在没有训练模型下的冷启动问题;整个系统不单单可以做意图切换,还可以做意图继承;通过引入了BERT预训练模型来进行实体挖槽,可以减少对人名以及地名,时间等通有名词的训练打标成本, 避免了由于在人工制造含有较多人名、地名以及时间等通用名词,需要对所有这类通用名词制造训练数据这一个浩大的人力工程。
场景和意图识别模块对场景的识别主要依赖在系统自定义的场景关键词,比如在多个场景中,存在一个查天气的场景,那么把“天气”作为进入场景的关键词,如果用户的输入存在该关键词,则进入该查天气的场景;场景中有多种意图,比如单个天气查询的意图“北京的天气怎么样”,与天气比较查询的意图“北京的天气和上海的相比怎么样”,这类多个意图的识别主要通过基于bert的文本分类模型进行分类;如果该场景没有训练模型,则以命中意图的词槽数来判断意图,比如用户输入“北京的天气和上海的相比怎么样”,该意图命中单个天气查询的意图与天气比较查询的意图,但是命中后者的词槽数比较多,所以判断为天气比较查询的意图,解决了在不使用训练模型时的意图识别冷启动问题。
实体挖槽识别模块中的实体挖槽识别主要功能是通过BERT+LSTM+CRF模型,抽取用户输入的关键词填充对应的槽位,例如用户输入“我想查询北京的的指标”,而系统查询数据库的标准词是“北京市”、“大王卡-发展用户”。BERT+LSTM+CRF模型具有强大的泛化能力,可以提取出“北京”标注为地区槽位,并与系统所有的地区槽进行模糊匹配,匹配出相似度最高的“北京市”;同理提取出“大王卡”标注为指标槽位,并模糊匹配为“大王卡-发展用户”,从而解决了用户输入并不一定按照系统设置的专有名词一字不漏的输入,造成系统无法识别的问题。实体挖槽也需要制造训练数据训练模型,如果用户希望在没有模型的情况下冷启动系统,则使用的是jieba分词的自定义词槽词性来解决问题。
多轮会话管理模块主要包含这几个主要功能:词槽依次澄清,意图切换,意图继承;词槽依次澄清主要是引导用户填充所缺的槽位,比如在查天气意图,需要地点和时间,用户输入“查天气”,系统根据缺少的地点和时间槽位的设置的澄清语句依次反问“请问查哪个地方的天气”和“请问查什么时候的天气”引导用户;意图切换主要是通过模型识别到不同的意图,让用户重新依次澄清词槽;意图继承是指在完成查询上一轮的情况,用户继续提问当前意图,则继承上一轮的词槽。比如用户上一轮提问“北京今天的天气怎么样”,下一轮提问“那明天的呢”,这时候就会自动继承“北京”这一地区槽位。
模型训练管理模块主要是管理每个场景下的意图识别训练和实体挖槽训练,用户可以通过前端界面导入训练数据。
本专利的基于专有词纠正和冷启动的多轮对话智能客服系统具有以下几个优点:
(1)减少对地名,人名等通用名词的实体识别的人工打标签。BERT模型是谷歌用了几十个G的中文语料训练得到的可以联系上下文的预训练模型,它具有强大的泛化能力,减少对地名,人名等通用名词的实体识别的人工打标签;
(2)专有词纠正。在通过BERT+LSTM+CRF模型识别出用户输入的专有词之后,在由系统的模糊匹配功能从系统识别出相似度最高的词。从而解决了解决用户输入并不一定按照系统设置的专有名词一字不漏地输入,造成系统无法识别的问题;
(3)冷启动。基于AI的多轮对话智能客服系提供了在没有模型训练的时候,仅仅通过输入槽位所需的专有词,也能完成意图识别和挖槽任务。
附图说明
图1是本发明的智能客服系统结构示意图;
图2是实施例北京联通基于本发明系统实现指标和报表的多轮对话智能查询场景一;
图3是实施例北京联通基于本发明系统实现指标和报表的多轮对话智能查询场景二;
图4是实施例北京联通基于本发明系统实现指标和报表的多轮对话智能查询场景三;
图5是实施例北京联通基于本发明系统实现指标和报表的多轮对话智能查询场景四。
具体实施方式
如图1所示,一种基于专有词纠正和冷启动的多轮对话智能客服系统,所述系统包括场景和意图识别模块、实体挖槽识别模块、多轮会话管理模块、模型训练管理模块,所述场景和意图识别模块、实体挖槽识别模块、多轮会话管理模块依次通过协议连接,模型训练管理模块分别与场景和意图识别模块、实体挖槽识别模块通过协议连接。
所述的场景和意图识别模块通过基于bert的文本分类模型进行分类,场景和意图识别模块内置场景训练模型,每个场景设有多个词槽。
所述的实体挖槽识别模块内置识别训练模型,通过BERT+LSTM+CRF模型抽取用户输入的关键词填充对应的槽位实现识别功能。
所述的实体挖槽识别模块内未设置识别训练模型,实体挖槽识别模块使用jieba分词的自定义词槽词性来冷启动系统。
所述多轮会话系统模块包括词槽依次澄清、意图切换、意图继承子系统模块,所述词槽依次澄清子系统模块引导用户填充所缺的槽位,所述意图切换子系统模块通过模型识别到不同的意图,让用户重新依次澄清词槽,意图继承子系统模块在完成查询上一轮的情况,用户继续提问当前意图,则继承上一轮的词槽。
所述模型训练管理模块通过前端界面导入训练数据,用于管理每个场景下的场景训练模型和识别训练模型。
北京联通基于专有词纠正和冷启动的多轮对话智能客服系统,实现指标和报表的多轮对话智能查询,如图2-图5所示,由图2可知该账户下有四个场景:掌沃指标口径解释、掌沃指标、掌沃指标加报表搜索框、掌沃报表;输入北京的大王卡,得到场景澄清,如图3所示;输入场景52之后,被模型识别为“TARGET”,然后再到“大王卡”模糊出四个专有词,进行槽位澄清,如图4所示;输入槽位澄清编号1,得到“北京市”和“大王卡-发展用户”,如图5所示。
Claims (6)
1.一种基于专有词纠正和冷启动的多轮对话智能客服系统,其特征在于,所述系统包括场景和意图识别模块、实体挖槽识别模块、多轮会话管理模块、模型训练管理模块,所述场景和意图识别模块、实体挖槽识别模块、多轮会话管理模块依次通过协议连接,模型训练管理模块分别与场景和意图识别模块、实体挖槽识别模块通过协议连接。
2.根据权利要求1所述的一种基于专有词纠正和冷启动的多轮对话智能客服系统,其特征在于,所述的场景和意图识别模块通过基于bert的文本分类模型进行分类,场景和意图识别模块内置场景训练模型,每个场景设有多个词槽。
3.根据权利要求1所述的一种基于专有词纠正和冷启动的多轮对话智能客服系统,其特征在于,所述的实体挖槽识别模块内置识别训练模型,通过BERT+LSTM+CRF模型抽取用户输入的关键词填充对应的槽位实现识别功能。
4.根据权利要求1所述的一种基于专有词纠正和冷启动的多轮对话智能客服系统,其特征在于,所述的实体挖槽识别模块内未设置识别训练模型,实体挖槽识别模块使用jieba分词的自定义词槽词性来冷启动系统。
5.根据权利要求1所述的一种基于专有词纠正和冷启动的多轮对话智能客服系统,其特征在于,所述多轮会话系统模块包括词槽依次澄清、意图切换、意图继承子系统模块,所述词槽依次澄清子系统模块引导用户填充所缺的槽位,所述意图切换子系统模块通过模型识别到不同的意图,让用户重新依次澄清词槽,意图继承子系统模块在完成查询上一轮的情况,用户继续提问当前意图,则继承上一轮的词槽。
6.根据权利要求1所述的一种基于专有词纠正和冷启动的多轮对话智能客服系统,其特征在于,所述模型训练管理模块通过前端界面导入训练数据,用于管理每个场景下的场景训练模型和识别训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010019770.6A CN110825865A (zh) | 2020-01-09 | 2020-01-09 | 一种基于专有词纠正和冷启动的多轮对话智能客服系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010019770.6A CN110825865A (zh) | 2020-01-09 | 2020-01-09 | 一种基于专有词纠正和冷启动的多轮对话智能客服系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825865A true CN110825865A (zh) | 2020-02-21 |
Family
ID=69546551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010019770.6A Pending CN110825865A (zh) | 2020-01-09 | 2020-01-09 | 一种基于专有词纠正和冷启动的多轮对话智能客服系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825865A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000784A (zh) * | 2020-03-17 | 2020-11-27 | 北京来也网络科技有限公司 | 结合rpa和ai的用户数据处理方法、装置、设备及存储介质 |
CN112199486A (zh) * | 2020-10-21 | 2021-01-08 | 中国电子科技集团公司第十五研究所 | 一种办公场景的任务型多轮对话方法及系统 |
CN112214589A (zh) * | 2020-10-19 | 2021-01-12 | 焦点科技股份有限公司 | 一种基于冷启动的多轮会话框架的方法 |
CN113590802A (zh) * | 2021-09-27 | 2021-11-02 | 北京明略软件系统有限公司 | 一种会话内容异常检测方法、装置、电子设备及存储介质 |
CN116994597A (zh) * | 2023-09-26 | 2023-11-03 | 广州市升谱达音响科技有限公司 | 一种音频处理系统、方法及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446322A (zh) * | 2018-02-10 | 2018-08-24 | 灯塔财经信息有限公司 | 一种智能问答系统的实现方法和装置 |
CN108874917A (zh) * | 2018-05-30 | 2018-11-23 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
CN109446304A (zh) * | 2018-10-10 | 2019-03-08 | 长沙师范学院 | 智能客服会话方法及系统 |
CN109918492A (zh) * | 2019-03-18 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 一种人机对话设置方法和人机对话设置系统 |
CN110442676A (zh) * | 2019-07-02 | 2019-11-12 | 北京邮电大学 | 基于多轮对话的专利检索方法及装置 |
US20190377794A1 (en) * | 2018-06-07 | 2019-12-12 | Alibaba Group Holding Limited | Method and apparatus for determining user intent |
-
2020
- 2020-01-09 CN CN202010019770.6A patent/CN110825865A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446322A (zh) * | 2018-02-10 | 2018-08-24 | 灯塔财经信息有限公司 | 一种智能问答系统的实现方法和装置 |
CN108874917A (zh) * | 2018-05-30 | 2018-11-23 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
US20190377794A1 (en) * | 2018-06-07 | 2019-12-12 | Alibaba Group Holding Limited | Method and apparatus for determining user intent |
CN109446304A (zh) * | 2018-10-10 | 2019-03-08 | 长沙师范学院 | 智能客服会话方法及系统 |
CN109918492A (zh) * | 2019-03-18 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 一种人机对话设置方法和人机对话设置系统 |
CN110442676A (zh) * | 2019-07-02 | 2019-11-12 | 北京邮电大学 | 基于多轮对话的专利检索方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000784A (zh) * | 2020-03-17 | 2020-11-27 | 北京来也网络科技有限公司 | 结合rpa和ai的用户数据处理方法、装置、设备及存储介质 |
CN112214589A (zh) * | 2020-10-19 | 2021-01-12 | 焦点科技股份有限公司 | 一种基于冷启动的多轮会话框架的方法 |
CN112214589B (zh) * | 2020-10-19 | 2022-08-09 | 焦点科技股份有限公司 | 一种基于冷启动的多轮会话框架的方法 |
CN112199486A (zh) * | 2020-10-21 | 2021-01-08 | 中国电子科技集团公司第十五研究所 | 一种办公场景的任务型多轮对话方法及系统 |
CN113590802A (zh) * | 2021-09-27 | 2021-11-02 | 北京明略软件系统有限公司 | 一种会话内容异常检测方法、装置、电子设备及存储介质 |
CN116994597A (zh) * | 2023-09-26 | 2023-11-03 | 广州市升谱达音响科技有限公司 | 一种音频处理系统、方法及存储介质 |
CN116994597B (zh) * | 2023-09-26 | 2023-12-15 | 广州市升谱达音响科技有限公司 | 一种音频处理系统、方法及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825865A (zh) | 一种基于专有词纠正和冷启动的多轮对话智能客服系统 | |
CN110413783B (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
CN112487810B (zh) | 一种智能客服服务方法、装置、设备及存储介质 | |
CN109325040B (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN108376144B (zh) | 基于深度神经网络的场景自动切换的人机多轮对话方法 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN103761242A (zh) | 检索方法、检索系统以及自然语言理解系统 | |
CN111858888B (zh) | 一种值机场景的多轮对话系统 | |
Cornia et al. | Explaining transformer-based image captioning models: An empirical analysis | |
CN104462600A (zh) | 实现来电原因自动分类的方法及装置 | |
CN105930362A (zh) | 搜索目标识别方法、装置及终端 | |
CN114860913B (zh) | 智能问答系统构建方法、问答处理方法及装置 | |
CN110956044A (zh) | 一种基于注意力机制的司法场景用文案输入识别分类方法 | |
CN111144102B (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN108763355B (zh) | 一种基于用户的智能机器人交互数据处理系统及方法 | |
CN112527983A (zh) | 一种个性化政务人机自然交互服务系统 | |
CN117010500A (zh) | 一种多源异构知识联合增强的视觉知识推理问答方法 | |
CN113742446A (zh) | 一种基于路径排序的知识图谱问答方法及系统 | |
CN112364622A (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
CN108509539A (zh) | 信息处理方法电子设备 | |
CN117828048A (zh) | 基于大数据的知识问答方法及相关产品 | |
CN112307756A (zh) | 基于Bi-LSTM和字词融合的汉语分词方法 | |
CN116108141A (zh) | 一种面试场景下的相似问句检索机制 | |
CN114972884A (zh) | 一种基于多模态事件本体的图像事件识别方法 | |
CN113987202A (zh) | 一种基于知识图谱的交互电话呼入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |