CN112685550A - 智能问答方法、装置、服务器及计算机可读存储介质 - Google Patents
智能问答方法、装置、服务器及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112685550A CN112685550A CN202110033927.5A CN202110033927A CN112685550A CN 112685550 A CN112685550 A CN 112685550A CN 202110033927 A CN202110033927 A CN 202110033927A CN 112685550 A CN112685550 A CN 112685550A
- Authority
- CN
- China
- Prior art keywords
- words
- word
- target
- question
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种智能问答方法、装置、服务器及计算机可读存储介质,属于人工智能技术领域。本申请在进行切词处理时,引入面向特定领域的目标领域图谱,并基于目标领域图谱和面向通用领域的第一词典,来对原始用户提问进行切词处理,提高了切词结果的准确性;之后进一步地通过错误检测来确定原始用户提问中疑似输入错误的词语,并基于与疑似输入错误的词语相似的词语,来对原始用户提问进行纠错处理,进而实现根据纠错后得到的目标用户提问来生成答案数据,这样得到的答案数据更加符合用户预期,提高了智能问答的准确性,进而确保了智能问答质量。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种智能问答方法、装置、服务器及计算机可读存储介质。
背景技术
智能问答作为人机交互中的一种常见形式,在多个领域都得到了广泛应用,比如游戏领域。在智能问答过程中,用户向智能问答机器人发起提问,智能问答机器人根据用户提问查找匹配的答案并反馈给用户,在一来一往的问和答中便实现了智能对话。
然而,在智能问答过程中,用户发起的提问可能是不准确的,尤其是在专业性较强的垂直领域,由于用户对业务或任务的理解可能不够准确,因此更容易出现提问表述错误的情况,进而出现反馈的答案与用户的实际需求不符,甚至是无法查找到匹配答案的情况。为了解决这一问题,智能问答机器人在获取到用户提问后,通常还需要对用户提问进行错误检测和错误纠正。
其中,智能问答机器人进行错误检测和错误纠正的准确度越高,纠错效果也就越好,相应地,反馈的答案也就越符合用户预期,确保了智能问答质量。为此,如何进行智能问答,以确保智能问答质量,成为了本领域技术人员亟待解决的一个问题。
发明内容
本申请实施例提供了一种智能问答方法、装置、服务器及计算机可读存储介质,能够提高智能问答的准确性,确保智能问答质量。本申请的技术方案如下:
一方面,提供了一种智能问答方法,该方法包括:
接收原始用户提问;
基于目标领域图谱和第一词典,对该原始用户提问进行切词处理;其中,该目标领域图谱用于记录属于目标领域的不同专有词语之间的关联关系,该第一词典中包括属于不同领域的词语;
基于得到的切词结果获取候选词语集合,该候选词语集合中包括第一类词语,该第一类词语为该原始用户提问中疑似输入错误的词语;
获取第二词典,该第二词典中包括与该第一类词语相似的第二类词语;
从该第二词典中获取目标词语;基于该目标词语对该原始用户提问进行纠错处理,得到目标用户提问;输出与该目标用户提问匹配的答案数据。
另一方面,提供了一种智能问答装置,该装置包括:
接收模块,用于接收原始用户提问;
切词模块,用于基于目标领域图谱和第一词典,对该原始用户提问进行切词处理;其中,该目标领域图谱用于记录属于目标领域的不同专有词语之间的关联关系,该第一词典中包括属于不同领域的词语;
获取模块,用于基于得到的切词结果获取候选词语集合,该候选词语集合中包括第一类词语,该第一类词语为该原始用户提问中疑似输入错误的词语;
该获取模块,还用于获取第二词典,该第二词典中包括与该第一类词语相似的第二类词语;
该获取模块,还用于从该第二词典中获取目标词语;
纠错模块,用于基于该目标词语对该原始用户提问进行纠错处理,得到目标用户提问;
输出模块,用于输出与该目标用户提问匹配的答案数据。
在一种可能的实现方式中,该切词模块,用于基于该第一词典对该原始用户提问进行切词处理,得到初步切词结果;响应于该初步切词结果包括的词语与该目标领域图谱中的专有词语不一致,基于该目标领域图谱中的专有词语,对该初步切词结果进行修正,得到符合该目标领域的切词规则的最终分词结果。
在一种可能的实现方式中,该切词模块,用于将该目标领域图谱中的专有词语添加至该第一词典中,得到第三词典;响应于在该第三词典中查询到该原始用户提问的子字符序列,将该子字符序列确定为切分出来的一个词语。
在一种可能的实现方式中,该获取模块,用于将该切词结果中不存在于该目标领域图谱中的词语,确定为该第一类词语;或,将该切词结果中出现频次小于目标阈值的词语,确定为该第一类词语。
在一种可能的实现方式中,该获取模块,用于获取该目标领域图谱中与该第一类词语拼音相似的词语;将该与该第一类词语音似的词语,确定为该第二类词语。
在一种可能的实现方式中,该获取模块,用于获取该目标领域图谱中与该第一类词语字形相似的词语;将该与该第一类词语字形相似的词语确定为该第二类词语。
在一种可能的实现方式中,该获取模块,用于获取历史用户提问;在该历史用户提问中,获取与该第一类词语相似的该第二类词语;或,在该目标领域图谱中,获取与该第一类词语相似的该第二类词语。
在一种可能的实现方式中,该获取模块,用于获取该第一类词语与该第二类词语之间的编辑距离,该编辑距离用于表征词语之间的相似度;将该第二词典中最大编辑距离对应的词语,确定为该目标词语。
在一种可能的实现方式中,该获取模块,用于将该第二词典中包括的该第二类词语确定为该目标词语。
在一种可能的实现方式中,该纠错模块,用于将该原始用户提问中的该第一类词语替换为该目标词语,得到该目标用户提问。
在一种可能的实现方式中,该获取模块,还用于获取该目标领域的专有词语;
该获取模块,还用于获取该目标领域的不同专有词语之间的关联关系;
该装置还包括:
创建模块,用于将该专有词语作为该目标领域图谱中的节点,在具有关联关系的任意两个节点之间创建一条边,得到该目标领域图谱。
在一种可能的实现方式中,该获取模块,还用于获取与该目标领域中的专有词语字形相似的扩充词语;
该装置还包括:
添加模块,用于将该扩充词语添加至该目标领域图谱中。
另一方面,提供了一种服务器,该服务器包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条计算机程序,该计算机程序由该一个或多个处理器加载并执行以实现该智能问答方法所执行的操作。
另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该计算机程序由处理器加载并执行以实现该智能问答方法所执行的操作。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,服务器的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,以实现该智能问答方法所执行的操作。
本申请提供的方案,在进行切词处理时,引入面向特定领域的目标领域图谱,并基于目标领域图谱和面向通用领域的第一词典,来对原始用户提问进行切词处理,提高了切词结果的准确性;之后进一步地通过错误检测来确定原始用户提问中疑似输入错误的词语,并基于与疑似输入错误的词语相似的词语,来对原始用户提问进行纠错处理,进而实现根据纠错后得到的目标用户提问来生成答案数据,这样得到的答案数据更加符合用户预期,提高了智能问答的准确性,进而确保了智能问答质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种智能问答方法的实施环境示意图;
图2是本申请实施例提供的一种智能问答方法的流程图;
图3是本申请实施例提供的一种智能问答方法的流程图;
图4是本申请实施例提供的一种游戏运营领域对应的目标领域图谱示意图;
图5是本申请实施例提供的一种智能问答方法的整体架构图;
图6是本申请实施例提供的一种智能问答方法的整体流程图;
图7是本申请实施例提供的一种智能问答方法的流程图;
图8是本申请实施例提供的一种智能问答方法的结果示意图;
图9是本申请实施例提供的一种智能问答装置的结构示意图;
图10是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。
这些术语只是用于将一个元素与另一个元素区别开。例如,在不脱离各种示例的范围的情况下,第一物品能够被称为第二物品,并且类似地,第二物品也能够被称为第一物品。第一物品和第二物品都可以是物品,并且在某些情况下,可以是单独且不同的物品。
其中,至少一个是指一个或一个以上,例如,至少一个物品可以是一个物品、两个物品、三个物品等任意大于等于一的整数个物品。而多个是指两个或者两个以上,例如,多个物品可以是两个物品、三个物品等任意大于等于二的整数个物品。
本申请实施例提供了一种智能问答方法、装置、服务器及计算机可读存储介质。其中,该方法涉及人工智能(Artificial Intelligence,AI)技术。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
深度学习是机器学习的核心部分,其通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中,深度学习是机器学习领域中一个新的研究方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的智能问答方法涉及人工智能的自然语言处理和深度学习等技术,现通过如下实施例进行说明。
下面先对本申请实施例涉及到的一些关键术语或缩略语进行介绍。
智能机器人:一种人机交互的过程,用户输入后,机器人对于问题理解并做出智能响应。
知识图谱:知识图谱本质上是一种语义网络。其结点代表实体(Entity)或者概念(Concept),边代表实体/概念之间的各种语义关系。目前知识图谱分为通用图谱与领域图谱两类,通过知识图谱,可以对问题进行理解,然后以实体为优先进行回复。
实体:从数据处理角度来看,现实世界中客观存在的事物均可称之为实体,换一种表达方式,实体可是现实世界中任何可区分、可辨识的事物。例如,实体可以指代人,如教师、学生等,实体也可以指代物,如书、仓库等。此外,实体除了可以指代能够触及的客观对象外,还可以指代抽象的事物,如演出、足球赛等,本申请实施例对此不进行具体限定。
通用图谱:面向通用领域,主要包含了大量的现实世界中的常识性知识,覆盖面广。
领域图谱:又称行业知识图谱或垂直图谱,面向特定领域,由该领域的专业数据构成的行业知识库,有着严格且清晰的数据模式。
游戏领域:针对游戏业务做出的各类决策,包括运营、运维、开发等角色对游戏的支持和维护,是一种垂直领域。
智能运维(Artificial Intelligence for IT Operations,AIOps):即是将人工智能的能力与运维相结合,是在技术运营领域中,通过机器学习的方法来提升运维效率。
中文纠错:实现中文语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本,是智能问答中的重要一环。
拼音纠错:通过拼音库的训练,优化输入出错的问题,通常解决音似的问题。
字典纠错:中文纠错规则校验中的部分,使用同义词和相近词来解决形似的问题。
结巴(Jieba)切词:一种较为通用的蟒蛇(Python)分词软件。
下面对本申请实施例提供的智能问答方法涉及的实施环境进行介绍。
本申请实施例提供的智能问答方法可以应用于智能对话机器人(也被称为智能对话系统或智能对话平台),而该智能对话机器人可以表现为服务器。
示例性地,参见图1,该实施环境包括:终端101和服务器102。
终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。可选地,终端101以及服务器102通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。终端101提供用户输入界面,用户通过终端101提供的用户输入界面,输入自己想要提问的内容,终端101获取用户输入的内容,作为原始用户提问,进而将获取到的原始用户提问发送给服务器102,并接收服务器102基于该原始用户提问返回的答案数据,以便终端101对接收到的答案数据进行显示。
可选地,响应于接收到提示信息,终端101在对接收到的答案数据进行显示之外,还会显示该提示信息,该提示信息包括文本提示内容,以及对原始用户提问纠错后得到的目标用户提问。其中,该文本提示内容用于提示用户输入的原始用户提问有误。
需要说明的是,终端101泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员可以知晓,上述终端的数量均可以更多或更少。比如上述终端仅为几个,或者上述终端为几十个或几百个,或者更多数量,本申请实施例对终端的数量和类型均不加以限定。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102接收终端101发送的原始用户提问,进而对原始用户提问进行错误检查和错误纠正,响应于检测到原始用户提问有误,获取基于原始用户提问进行纠错处理得到的目标用户提问,并获取与目标用户提问匹配的答案数据,进而基于获取到的目标用户提问生成提示信息,将提示信息和答案数据一并发送给终端101。
可选地,上述服务器102的数量可以更多或更少,本公开实施例对此不加以限定。当然,服务器102还可以包括其他功能服务器,以便提供更全面且多样化的服务。
示例性地,本申请实施例提供的智能问答方法的应用场景包括但不限于:
场景一、任务场景
其中,任务型对话是为了完成某个特定的任务,比如查询某个业务在某个地区的网络情况,不仅需要应答用户,还需要查询相应业务的网络状态数据,并将查询到的网络状态数据发送给终端,以便将查询到的用户数据展示给用户。假设用户输入的原始用户提问为“诚都网络的网络状态”,则服务器基于原始用户提示,即可确定出目标用户提问为“成都网络的网络状态”,并获取成都网络的网络状态数据。
场景二、问答场景
问答型对话主要是为了解答用户提问,相当于百科知识库,比如当用户提问业务1是否是游戏业务,通常仅需要回答问题而不需要执行任务。即,问答型对话具有任务目标,但是不需要获取实际的业务数据。例如,针对用户的对话上文“业务1是否是游戏业务”,作为智能对话机器人的服务器通常仅需从知识库中检索跟这句话最相似的知识,然后根据检索到的知识生成对话回复,并将生成的对话回复作为答案提供给用户即可。
场景三、闲聊场景
闲聊型对话是开放的通常没有任务目标,也没有硬性限定的答案。其中,闲聊型对话可以针对各个方面,比如用户与机器人进行情感聊天等,本申请实施例对此不进行具体限定。
图2是本申请实施例提供的一种智能问答方法的流程图,参见图2,该方法包括:
201、服务器接收原始用户提问。
需要说明的是,原始用户提问为用户通过终端提供的用户输入界面输入的原始内容,终端获取用户输入的原始内容,进而将获取到的内容作为原始用户提问发送给服务器。
202、服务器基于目标领域图谱和第一词典,对该原始用户提问进行切词处理;其中,该目标领域图谱用于记录属于目标领域的不同专有词语之间的关联关系,该第一词典中包括属于不同领域的词语。
需要说明的是,该目标领域图谱中包括属于某个目标领域的专业词语,以及不同专业词语之间的关联关系。可选地,目标领域为多种领域,如游戏领域、影视领域、音乐领域等;关联关系为多种关系,如从属关系、包含关系、并列关系等,本申请实施例对目标领域和关联关系的具体类型均不做限定。该第一词典为面向通用领域的词典,该第一词典中包括的词语属于不同领域,属于通用性词语。
其中,切词处理是指将字符序列切分为一个一个单独的词语,也即是,对原始用户提问中包括的词语进行切分,得到原始用户提问中所包括的各个词语。
203、服务器基于得到的切词结果获取候选词语集合,该候选词语集合中包括第一类词语,该第一类词语为该原始用户提问中疑似输入错误的词语。
可选地,该第一类词语为不存在于目标领域图谱中的词语,或者,该第一类词语为多个用户的历史用户提问中出现频次小于目标阈值的词语,本申请实施例对第一类词语的具体类型不做限定。其中,该目标阈值为任意正数值,本申请实施例对目标阈值的具体取值不加以限定。
204、服务器获取第二词典,该第二词典中包括与该第一类词语相似的第二类词语。
可选地,该第二类词语为存在于目标领域图谱中,且与第一类词语相似的词语,或者,该第二类词语为在多个用户的历史用户提问中出现频次大于目标阈值的词语,本申请实施例对第二类词语的具体类型不做限定。
可选地,该步骤204中的目标阈值与上述步骤203中的目标阈值的取值相同,或者,该步骤204中的目标阈值与上述步骤203中的目标阈值的取值不同,本申请实施例在此不做限定。
需要说明的是,与第一类词语相似的词语,为与第一类词语音似的词语,或者,与第一类词语形似的词语,本申请在此不做限定。
205、服务器从该第二词典中获取目标词语;基于该目标词语对该原始用户提问进行纠错处理,得到目标用户提问;输出与该目标用户提问匹配的答案数据。
在一种可能的实现方式中,服务器将原始用户提问中的第一类词语,替换为目标词语,以实现对原始用户提问的纠错处理,进而得到该目标用户提问,以便基于该目标用户提问,获取与该目标用户提问匹配的答案数据并输出获取到的答案数据。
需要说明的是,该答案数据为多种类型的数据,如日志数据、地理位置数据、音频数据、视频数据等,本申请实施例对答案数据的数据类型不做限定。
本申请实施例提供的方案,在进行切词处理时,引入面向特定领域的目标领域图谱,并基于目标领域图谱和面向通用领域的第一词典,来对原始用户提问进行切词处理,提高了切词结果的准确性;之后进一步地通过错误检测来确定原始用户提问中疑似输入错误的词语,并基于与疑似输入错误的词语相似的词语,来对原始用户提问进行纠错处理,进而实现根据纠错后得到的目标用户提问来生成答案数据,这样得到的答案数据更加符合用户预期,提高了智能问答的准确性,进而确保了智能问答质量。
图3是本申请实施例提供的一种智能问答方法的流程图,参见图3,该方法包括:
301、服务器接收原始用户提问。
需要说明的是,该原始用户提问由服务器从终端接收得到。在一种可能的实现方式中,终端显示用户输入界面,该用户输入界面包括输入控件,用户在该输入控件中输入文本内容,终端获取用户在该输入控件中输入的文本内容,将获取到的文本内容作为原始用户提问,发送给服务器。
上述仅为一种获取原始用户提问的示例性方式,在更多可能的实现方式中,可以采用其他方式来进行原始用户提问的获取,本申请实施例在此不做限定。
302、服务器基于目标领域图谱和第一词典,对该原始用户提问进行切词处理;其中,该目标领域图谱用于记录属于目标领域的不同专有词语之间的关联关系,该第一词典中包括属于不同领域的词语。
可选地,该第一词典为Jieba分词对应的通用性词典,或者,该第一词典为其他通用性词典,本申请实施例在此不做限定。
在一种可能的实现方式中,服务器基于该第一词典对该原始用户提问进行切词处理,得到初步切词结果,再将初步切词结果与目标领域图谱中的专有词语进行比较,响应于该初步切词结果包括的词语与该目标领域图谱中的专有词语不一致,基于该目标领域图谱中的专有词语,对该初步切词结果进行修正,得到符合该目标领域的切词规则的最终分词结果。
以原始用户提问为“伤害输出”为例,基于第一词典对“伤害输出”进行切词处理,得到的初步切词结果为“伤害/输出”,而在目标领域图谱中,“伤害输出”为一个专有词语,则通过对初步切词结果与目标领域中的专有词语进行比较,可以确定初步切词结果所包括的“伤害”和“输出”这两个词语,与目标领域图谱中的专有词语“伤害输出”不一致,进而将初步切词结果“伤害/输出”修正为“伤害输出”,实现对原始用户提问在目标领域的精准切词处理,提高切词结果的准确性。
可选地,该原始用户提问为字符序列形式。在另一种可能的实现方式中,服务器将该目标领域图谱中的专有词语添加至该第一词典中,得到第三词典,再基于第三词典对原始用户提问进行切词处理,响应于在第三词典中查询到该原始用户提问的子字符序列,将该子字符序列确定为切分出来的一个词语。
仍以原始用户提问为“伤害输出”为例,在目标领域图谱中,“伤害输出”为一个专有词语,而第一词典出中“伤害”和“输出”为两个通用性的词语,通过将目标领域图谱中的“伤害输出”添加至第一词典,得到的第三词典中包括“伤害”、“输出”和“伤害输出”三个词语,则在对原始用户提问“伤害输出”进行切词处理时,能够直接将“伤害输出”切分为一个词语,实现对原始用户提问在目标领域的精准切词处理,提高切词结果的准确性。
需要说明的是,该目标领域图谱由相关技术人员预先创建得到。在创建目标领域图谱时,相关技术人员先获取目标领域的相关数据,进而基于获取到的相关数据,对目标领域中的实体和实体之间的关系进行定义,将实体定义为专有词语,将实体之间的关系定义为不同专有词语之间的关联关系进行定义,进而将定义好的专有词语和不同专有词语之间的关联关系输入终端,由终端将获取到的专有词语和不同专有词语之间的关联关系发送给服务器,服务器接收终端发送的内容,获取该目标领域的专有词语,以及该目标领域的不同专有词语之间的关联关系,将获取到的专有词语作为该目标领域图谱中的节点,在具有关联关系的任意两个节点之间创建一条边,进而得到该目标领域图谱。
在一种可能的实现方式中,在获取游戏运营领域对应的领域图谱中的专有词语,以及不同专有词语之间的关联关系时,相关技术人员先获取游戏运营领域中的实体、游戏运营过程中的日志数据、用户操作数据(如游戏运营用户的提问数据)等,进而将游戏运营领域中的实体定义为专有词语,从游戏运营过程中的日志数据、用户操作数据中抽取实体和关系,来对不同专有词语之间的关联关系进行定义。
需要说明的是,相关技术人员获取到的用于创建目标领域图谱的相关数据来自多个系统,通过领域图谱,能够将来自多个系统中的数据和关系进行整合,将多个系统中的专有词语和不同专有词语中的关系整合在一个领域图谱中,通过关联关系串联起各个孤立的系统。在基于来自多个系统的数据和关系创建领域图谱时,先确定出作为该领域核心的实体,进而基于作为该领域核心的实体,与其他实体的关联关系,从点到面地构建起特定领域的领域图谱。
以游戏运营领域对应的领域图谱构建为例,在游戏运营领域中,作为核心的是游戏业务,通过游戏业务即可关联起运营数据,因此,首先要找到作为实体的游戏业务,而运营数据与游戏业务具有直接或间接的关联关系,从而可以基于运营数据与游戏业务的关联关系,从点到面地构建起游戏运营领域对应的领域图谱。
例如,参见图4,图4是本申请实施例提供的一种游戏运营领域对应的领域图谱示意图,该领域图谱中,包括游戏运营领域的专有词语,如第一游戏业务401、第二游戏业务402、网络403、交换机404、用户地区405、即时通讯程序1鉴权406、即时通讯程序2鉴权407、主机408、机房409、互联网数据中心(Internet Data Center,IDC)410、上海411。
其中,在创建该领域图谱时,先确定出游戏运营领域的核心,也即是作为游戏业务的第一游戏业务401和第二游戏业务402,进而确定第一游戏业务401和第二游戏业务402与其他实体的关系。第一游戏业务401与网络403、交换机404、用户地区405、主机408、机房409之间均为从属关系,也即是,第一游戏业务401从属于网络403、第一游戏业务401从属于交换机404、第一游戏业务401从属于用户地区405、第一游戏业务401从属于主机408、第一游戏业务401从属于机房409;第一游戏业务401与即时通讯程序1鉴权406、即时通讯程序2鉴权407之间均为包含关系,也即是,第一游戏业务401包含即时通讯程序1鉴权406、第一游戏业务401包含即时通讯程序2鉴权407;第二游戏业务402与主机408、机房409之间均为从属关系,也即是,第二游戏业务402从属于主机408、第二游戏业务402从属于机房409;第二游戏业务402与即时通讯程序2鉴权407之间为包含关系,也即是,第二游戏业务401包含即时通讯程序2鉴权407;网络403与机房409之间为包含关系,也即是,网络403包括机房409;机房409与互联网数据中心410之间为从属关系,也即是,机房409从属于互联网数据中心410;互联网数据中心410与上海411之间为从属关系,也即是,互联网数据中心410从属于上海411。
可选地,在该领域图谱创建完成后,服务器根据已创建的领域图谱中的专有词语,获取与该目标领域中的专有词语字形相似的扩充词语,进而将该扩充词语添加至该领域图谱中。通过基于字形对该领域图谱中的专有词语进行扩充,使得在后续用户输入错误时,能够直接基于已存储的扩充词语,快速确定出用户可能想要输入的专有词语,提高查找速度,从而提高智能问答效率。
例如,以图4所示的领域图谱为例,对于该领域图谱中的专有词语“交换机”,与该词语字形相似的扩充词语有“交唤机”、“交焕机”等,则可以将扩充词语“交唤机”、“交焕机”等添加至该领域图谱中,以便后续使用。
需要说明的是,服务器在创建完该目标领域图谱后,将该目标领域图谱存储至非关系型(Not Only Structured Query Language,NOSQL)图形数据库中,如Neo4j。可选地,还可以将该目标领域图谱存储至Cassandra、CouchDB、Redis、MongoDB等NOSQL图形数据库中,本申请实施例在此不做限定。
上述过程是以一个领域图谱的创建过程为例来进行说明的,在更多可能的实现方式中,服务器创建多个领域图谱,进而基于用户输入的原始用户提问,来确定原始用户输入对应的领域图谱。由于不同用户输入的原始用户提问可能对应于不同的领域,通过为每个领域创建对应的领域图谱,使得在用户输入多种不同领域的专有词语时,都能根据相应领域的领域图谱,来对原始用户输入进行切词处理,提高切词准确性。
可选地,服务器创建目标领域图谱后,将目标领域图谱中的实体作为该目标领域图谱对应的专有词语进行存储,得到目标领域图谱对应的专有词典,以便在将初步切词结果与目标领域图谱中的专有词语进行比较,直接将初步切词结果与目标领域图谱对应的专有词典中的词语进行比较,或者,在将该目标领域图谱中的专有词语添加至该第一词典中时,直接将已存储的专有词典中的词语添加至第一词典中,无需服务器从目标领域图谱中获取专有词语,降低服务器的处理压力。
其中,该专有词典中记录的专有词语的格式为“专有词语+出现频次+词性”,例如,该游戏运营领域的专有词典中记录的专有词语有“伤害输出300n”,其中“伤害输出”为专有词语,“300”为该专有词语出现的频次,“n”该专有词语的词性,也即是名词。可选地,采用其他格式来记录词语,本申请实施例在此不做限定。
需要说明的是,若采用上述“专有词语+出现频次+词性”的格式,在专有词典中记录专有词语,在将专有词典中的专有词语添加至第一词典时,将专有词语的频次设置为大于预设阈值的数值,以此提高专有词语的优先级,该预设阈值为任意正数值,本申请实施例在此不做限定。
例如,对于任意一个专有词语,如“伤害输出”,在专有词典中“伤害输出”出现的频次仅为30,而在第一词典中“伤害”出现的频次为3000,“输出”出现的频次为5000,则在将专有词典中的专有词语添加至第一词典时,将“伤害输出”的频次设置为30000,使得在后续基于第一词典添加专有词语后得到的第三词典进行切词时,“伤害输出”出现的频次为30000,“伤害”出现的频次为3000,“输出”出现的频次为5000,从而在进行切词时,在原始用户提问中存在“伤害输出”时,将原始用户提问中的“伤害输出”确定为切分出来的一个词语,提高切词处理的准确性。
303、服务器基于得到的切词结果获取候选词语集合,该候选词语集合中包括第一类词语,该第一类词语为该原始用户提问中疑似输入错误的词语。
在一种可能的实现方式中,服务器将该切词结果中不存在于该目标领域图谱中的词语,确定为该第一类词语。例如,以游戏领域对应的领域图谱为例,“区域作用魔法”为游戏领域对应的领域图谱中的一个专有词语,服务器对原始用户提问进行切词处理后,得到的切词结果中存在一个词语为“区域作用磨法”,则服务器将该“区域作用磨法”确定为候选词语集合中的第一类词语。
在另一种可能的实现方式中,服务器将该切词结果中出现频次小于目标阈值的词语,确定为该第一类词语。仍以服务器对原始用户提问进行切词处理后,得到的切词结果中存在一个词语为“区域作用磨法”为例,“区域作用磨法”在历史用户提问中从未出现过,则服务器根据“区域作用磨法”在历史用户提问中的出现频次,也可以将该“区域作用磨法”确定为候选词语集合中的第一类词语。
上述两种方式可以分别用来确定第一类词语,例如,仅将不存在于该目标领域图谱中的词语确定为第一类词语,或者,仅将出现频次小于目标阈值的词语确定为第一类词语;可选地,还可以结合上述两种方式来进行第一类词语的确定,例如,将不存在于该目标领域图谱中,或者,出现频次小于目标阈值的词语,确定为第一类词语,本申请实施例在此不做限定。
需要说明的是,对于用户输入错误的原始用户提问,在基于目标领域图谱和第一词典对原始用户提问进行切词处理时,可能存在某些专有词语,由于用户的输入错误,导致切词时对该专有词语的切分出现错误,在步骤303中即可将这个专有词语切分得到的各个词语,确定为第一类词语,以便通过后续步骤304至步骤305,来对切分错误的词语进行纠错。
例如,对于游戏领域的专有词语“区域作用魔法”,用户在输入时将该专有词语错误输成了“区域作用磨法”,由于目标领域图谱中的专有词语为“区域作用魔法”,则在基于目标领域图谱和第一词典对原始用户提问进行切词处理时,服务器无法将“区域作用磨法”切分为一个词语,最终得到的切词结果为“区域/作用/磨法”,服务器通过将“区域/作用/磨法”与专有词语“区域作用魔法”进行比较,即可确定疑似错误词语,也即是第一类词语,为“区域”、“作用”、“磨法”这三个词语,则该候选词语集合中包括“区域”、“作用”、“磨法”这三个第一类词语。
304、服务器获取第二词典,该第二词典中包括与该第一类词语相似的第二类词语。
在一种可能的实现方式中,服务器在该目标领域图谱中,获取与该第一类词语相似的该第二类词语。例如,服务器获取该目标领域图谱中与该第一类词语拼音相似的词语,将该与该第一类词语音似的词语,确定为该第二类词语;或者,服务器获取该目标领域图谱中与该第一类词语字形相似的词语,将该与该第一类词语字形相似的词语确定为该第二类词语。
需要说明的是,与第一类词语音似的第二类词语的优先级,高于与第一类词语形似的第二类词语的优先级。由于拼音输入较多,通过将与第一类词语音似的第二类词语的优先级设置成高于与第一类词语形似的第二类词语的优先级,更加符合用户的输入习惯,使得确定出的第二类词语的准确性更高,进而使得最终确定出的目标词语的准确性更高。
若第二类词语为音似词语,则对于切词结果“区域/作用/磨法”中的“区域”、“作用”、“磨法”这三个第一类词语,这三个词语按照其在原始用户提问中的顺序,组合后得到的拼音列表为[“quyu”,“zuoyong”,“mofa”,“quyuzuoyong”,“zuoyongmofa”,“quyuzuoyongmofa”],而目标领域图谱中包括“区域作用魔法”、“区域作用伤害”以及“魔法作用”这三个专有词语,这三个转换为拼音后分别为“quyuzuoyongmofa”、“quyuzuoyongshanghai”和“mofazuoyong”,与“区域”、“作用”、“磨法”这三个第一类词语组合后得到的拼音最相似,则“区域作用魔法”、“区域作用伤害”和“魔法作用”即为第二类词语。
可选地,获取到与第一类词语音似的第二类词语后,将与第一类词语音似的第二类词语组成一个音似词典,作为该第二词典。
若第二类词语为形似词语,则对于切词结果“区域/作用/磨法”中的“区域”、“作用”、“磨法”这三个第一类词语,目标区域图谱中存储的“区域作用魔法”的扩充词语包括“区域作用磨法”,则“区域作用魔法”即为第二类词语。
可选地,获取到与第一类词语形似的第二类词语后,将与第一类词语形似的第二类词语组成一个形似词典,作为该第二词典。
在另一种可能的实现方式中,服务器获取历史用户提问,在该历史用户提问中,获取与该第一类词语相似的该第二类词语。
例如,仍以切词结果“区域/作用/磨法”中的“区域”、“作用”、“磨法”这三个第一类词语为例,历史用户提问中出现过“区域作用魔法”这一词语,则将“区域作用魔法”这一词语确定为第二类词语,进而得到第二类词语组成的第二词典。
需要说明的是,服务器在确定出与第一类词语相似的第二类词语后,按照各个第二类词语与第一类词语的相似度由大到小的顺序,对多个第二类词语进行排序,以便在下述步骤305中根据用户需求,将相应数量的第二类词语确定为目标词语。可选地,服务器还可以预先设置有相似度阈值,以便在下述步骤305中将大于相似度阈值的第二类词语,确定为目标词语。
该步骤305中采用了相似度来确定目标词语,在更多可能的实现方式中,采用语言模型来进行目标词语的确定。也即是,基于包括多个样本词语和该多个样本词语对应的相似词语的训练集进行模型训练,得到语言模型,进而将第一类词语输入该语言模型,通过该语言模型输出与该第一类词语相似的第二类词语,进而得到第二词典。
305、服务器从该第二词典中获取目标词语。
在一种可能的实现方式中,服务器从音似词典中,获取该第一类词语与该第二类词语之间的编辑距离,将该第二词典中最大编辑距离对应的词语,确定为该目标词语,该编辑距离用于表征词语之间的相似度。
其中,该编辑距离用于指示由该第一类词语转化为该第二类词语需经过的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符这三种操作。一般来说,编辑距离越小,两个字符串(也即是两个词语)的相似度越大。编辑距离的计算过程如下:
首先定义一个函数edit(i,j),用于表示第一个字符串的长度为i的自传到第二个字符串的长度为j的子串的编辑距离,函数edit(i,j)的具体计算方式如下:
if i==0且j==0,edit(i,j)=0;
if i==0且j>0,edit(i,j)=j;
if i>0且j==0,edit(i,j)=i;
if i≥1且j≥1,edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i,j)=1;否则,f(i,j)=0。
将最终计算得到的函数edit(i,j)的值记为dist,则基于编辑距离计算相似度的方式如下:
Ratio=(sum–dist)/sum;
其中,Ratio为相似度,sum为两个字符串的长度总和,dist为编辑距离。
例如,以第一类词语为“区域”、“作用”和“磨法”,第二类词语为“区域作用魔法”、“区域作用伤害”和“魔法作用”为例,(区域作用磨法)quyuzuoyongmofa和(区域作用磨法)quyuzuoyongmofa的编辑距离为0,相似度为100%,(区域作用伤害)quyuzuoyongshanghai和(区域作用磨法)quyuzuoyongmofa的编辑距离为12(需要移除shanghai这8个字符,增加mofa这4个字符),相似度为64.7%,(魔法作用)mofazuoyong和(作用磨法)zuoyongmofa的编辑距离为8(需要移除mofa这4个字符,再增加mofa这4个字符),相似度为63.6%,则将相似度最大的区域作用磨法确定为该目标词语。
在另一种可能的实现方式中,服务器将作为第二词典的形似词典中包括的该第二类词语确定为该目标词语。
需要说明的是,由于与第一类词语音似的第二类词语的优先级,高于与第一类词语形似的第二类词语的优先级,因而上述将形似词典中包括的第二类词语确定为目标词语,仅在不存在音似词典时使用,例如,若目标领域图谱中不存在与“区域作用磨法”音似的词语,但作为第二词典的形似词典中包括“区域作用魔法”,则将“区域作用魔法”确定为该目标词语。
上述步骤302至步骤305中基于目标领域图谱和第一词典来对原始用户提问进行纠错处理的方式,仅为进行纠错处理的一种示例性方式,在更多可能的实现方式中,结合基于目标领域图谱和深度学习模型,来对原始用户提问进行纠错处理,也即是,基于目标领域图谱中的词语和通用性领域中的词语作为训练集,来对深度学习模型进行训练,得到用于进行纠错处理的深度学习模型,进而将原始用户提问输入训练得到的深度学习模型,输出该目标用户提问,实现对原始用户提问的纠错处理。
306、服务器将该原始用户提问中的该第一类词语替换为该目标词语,得到目标用户提问。
307、服务器输出与该目标用户提问匹配的答案数据。
在一种可能的实现方式中,服务器基于该目标用户提问生成提示信息,并获取与目标用户提问匹配的答案数据,进而将获取到的提示信息和答案数据发送给终端,通过终端将提示信息和答案数据展示给用户,以完成智能问答过程。其中,该提示信息用于提示用户输入错误,并将正确的目标用户提问展示给用户。
上述步骤301至步骤307的整体流程,可以分成四个大的部分,参见图5,图5是本申请实施例提供的一种智能问答方法的整体架构图,该目标领域的智能问答方法501包括目标领域图谱导入502、优化错误检测503、纠错候选集504和知识重排序505四个部分,其中,目标领域图谱导入502包括命名实体导入506和关联关系导入507两部分,也即是上述步骤302中创建目标领域图谱的过程;优化错误检测503包括目标领域的专有词语优化508以及字和词粒度的检测509两部分,也即是上述步骤302中基于目标领域词典和第一词典对原始用户提问进行切词处理的过程;纠错候选集504包括音似生成候选集510和形似生成候选集511两部分,也即是上述步骤303中获取候选词集合的过程;知识重排序505包括候选集优化512和去除无关知识513两部分,也即是上述步骤304至步骤307中对原始用户提问进行纠错处理,并基于纠错处理后的目标用户提问获取答案数据的过程。
基于图5所示的架构图,上述步骤301至步骤307的流程,可以概括为四个步骤,参见图6,图6是本申请实施例提供的一种智能问答方法的整体流程图,以游戏运营领域的智能问答过程为例,首先,将游戏运营数据导入服务器,包括节点信息和关联关系,服务器基于游戏运营数据,通过步骤601,创建游戏运营领域图谱。其次,服务器根据已创建的游戏运营领域图谱,通过步骤602,进行领域错误检测,错误检测分为两步,分别是切词和找到疑似错误词,在切词时结合游戏运营领域图谱,对基于通用性词典进行切词处理得到的切词结果进行校准,完成领域性切词,进而将领域性切词得到的词语与历史用户提问和游戏运营领域图谱中的节点做比较,找到不存在于游戏运营领域图谱中的词语和历史用户提问低频词,作为疑似错误词。然后,通过步骤603,形成领域错误召回,从游戏运营领域图谱和历史用户提问中,确定与疑似错误词相似的音似词和形似词,作为候选集合。最后,通过步骤604完成主动纠错,根据候选集合找到与疑似错误词最相似的词语,作为目标词语,基于目标词语对应的目标用户提问,自动完成纠错后的智能应答。
通过AB测试来对本申请实施例提供的方案的效果进行校验,在同一时间维度,获取组成成分相同(或相似)、且输入错误的多个用户输入的原始用户提问,获取基于这多个用户的原始用户提问匹配出的答案数据,并通过本申请实施例提供的方案,对原始用户提问进行纠错处理,得到目标用户提问,获取基于这多个用户的目标用户提问匹配出的答案数据,将这两种答案数据输出给这多个用户,使这多个用户随机的访问这两种答案数据,收集各个用户的反馈数据,以校验本申请实施例提供的方案的效果。例如,通过小范围30人的AB测试,将这两种答案数据输出给这30个用户,用户能够根据自己的意愿选择要查看那种答案数据,并根据自己查看的答案数据进行反馈,其中,15人选择查看目标用户提问对应的答案数据,反馈满意的有12人,15人选择查看原始用户提问对应的答案数据,反馈满意的有8人,由此可以看出,本申请实施例提供的方案,能够有效提升智能回答的精准度,增强容错性,提升用户体验。
需要说明的是,本申请实施例提供的方案,能够应用于多种垂直领域的智能问答过程中,如医学领域、地质学领域、游戏运营领域等,从构建目标领域图谱到输出目标用户提问对应的答案数据的整套流程均可复用。以本申请实施例在游戏运营领域的应用为例,目前游戏运营过程中主要采用的是AIOps方式,AIOps通过机器决策,对运维工作在成本、质量、效率三方面提供支撑。而作为AIOps中一个重要组成部分的智能问答过程,采用本申请实施例提供的方案,能够大大提高智能问答的准确性,从而提高智能运维的效率和准确性。
本申请实施例提供的方案,在进行切词处理时,引入面向特定领域的目标领域图谱,并基于目标领域图谱和面向通用领域的第一词典,来对原始用户提问进行切词处理,提高了切词结果的准确性;之后进一步地通过错误检测来确定原始用户提问中疑似输入错误的词语,并基于与疑似输入错误的词语相似的词语,来对原始用户提问进行纠错处理,进而实现根据纠错后得到的目标用户提问来生成答案数据,这样得到的答案数据更加符合用户预期,提高了智能问答的准确性,进而确保了智能问答质量。通过某个目标领域中的小规模数据集就能构建目标领域图谱,进而基于目标领域图谱达成纠错目标,适用于各种领域的智能问答过程,能够有效提高智能问答的准确性,为后续的意图识别提供了良好的基础,以便帮助用户找到精准的答案,增强交互过程中的协作效率,增强交互过程中的容错性,提升用户体验,提升自然语言处理的整体性能。
图7是本申请实施例提供的一种智能问答方法的流程图,参见图7,以该方法应用于游戏运营领域的任务场景中,来查询某个地区的网络情况的实现过程为例,其中,查询网络情况是游戏运营时的一种操作。该方法包括:
701、服务器接收原始用户提问。
该步骤701的实现过程与上述步骤301同理,此处不再赘述。
例如,在游戏运营领域中,用户要查询成都地区的网络状态数据,则用户在终端提供的用户输入界面的输入控件中进行输入,比如通过输入“成都网络”,来对成都地区的网络状态数据进行查询,但由于用户输入错误,导致最终输入的内容为“诚都网络”,则终端获取到的文本内容记为“诚都网络”,进而将获取到的“诚都网络”作为原始用户提问,发送给服务器。
702、服务器基于游戏运营领域图谱和第一词典,对该原始用户提问进行切词处理;其中,该游戏运营领域图谱用于记录属于游戏运营领域的不同专有词语之间的关联关系,该第一词典中包括属于不同领域的词语。
该步骤702中进行切词处理的过程与上述步骤302同理,此处不再赘述。
仍以用户输入的原始用户提问为“诚都网络”为例,基于游戏运营领域图谱和第一词典对“诚都网络”进行切词处理后,得到的切词结果为“诚都/网络”。
703、服务器基于得到的切词结果获取候选词语集合,该候选词语集合中包括第一类词语,该第一类词语为该原始用户提问中疑似输入错误的词语。
该步骤703的实现过程与上述步骤303同理,此处不再赘述。
仍以用户输入的原始用户提问为“诚都网络”为例,通过上述步骤702进行切词处理后得到的切词结果中,包括“诚都”和“网络”两个词语,而“诚都”不存在于游戏运营领域图谱中,“网络”存在于游戏运营领域图谱中,则服务器将“诚都”确定为候选词语集合中的第一类词语。
704、服务器获取第二词典,该第二词典中包括与该第一类词语相似的第二类词语。
该步骤704的实现过程与上述步骤304同理,此处不再赘述。
仍以用户输入的原始用户提问为“诚都网络”为例,通过上述步骤703确定出候选词语集合中包括“诚都”这个词语,转换为拼音为“chengdu”,而游戏运营领域图谱中包括“成都”和“成都网络”这两个词语,这两个词语转换为拼音后分别为“chengdu”和“chengduwangluo”,与“诚都”的拼音相似,则服务器将“成都”和“成都网络”这两个词语确定为第二词典中的第二类词语。
705、服务器从该第二词典中获取目标词语。
该步骤705的实现过程与上述步骤305同理,此处不再赘述。
仍以用户输入的原始用户提问为“诚都网络”为例,第二词典中包括“成都”和“成都网络”这两个第二类词语,由于这两个词语都是音似词典中的第二类词语,因而通过确定这两个第二类词语的拼音,与作为第一类词语的“诚都”的拼音之间的编辑距离,来分别确定“成都”和“成都网络”这两个第二类词语,与第一类词语“诚都”的相似度。(成都)chengdu和(诚都)chengdu的编辑距离为0,相似度为100%,(成都网络)chengduwangluo和(诚都)chengdu的编辑距离为7(需要增加wangluo这7个字符),相似度为66.7%,则“成都”与“诚都”的相似度最大,“成都”记为目标词语。
706、服务器将该原始用户提问中的该第一类词语替换为该目标词语,得到目标用户提问。
仍以用户输入的原始用户提问为“诚都网络”为例,将该原始用户提问中的第一类词语“诚都”,替换为目标词语“成都”后,得到的目标用户提问为“成都网络”。
707、服务器输出与该目标用户提问匹配的答案数据。
该步骤707的实现过程与上述步骤307同理,此处不再赘述。
参见图8,图8是本申请实施例提供的一种智能问答方法的结果示意图,图8为终端所展示的答案数据,用户输入的原始用户提问为“诚都网络”,该原始用户提问展示在图8中801所示的位置处,终端接收到的服务器返回的提示信息展示在图8中802所示的位置处,通过该提示信息提示用户,目标用户提问为“成都网络”,并基于“成都网络”匹配到了入下的答案数据,答案数据展示在图8中803所示的位置处,也即是各个地区到成都的网络状态,包括网络延迟数据和丢包数据,实现了在用户输入错误时,仍能准确确定出用户想要输入的目标用户提问,并查找到相应的答案数据,实现智能问答。
本申请实施例提供的方案,在进行切词处理时,引入面向游戏运营领域的游戏运营领域图谱,并基于游戏运营领域图谱和面向通用领域的第一词典,来对原始用户提问进行切词处理,提高了切词结果的准确性;之后进一步地通过错误检测来确定原始用户提问中疑似输入错误的词语,并基于与疑似输入错误的词语相似的词语,来对原始用户提问进行纠错处理,进而实现根据纠错后得到的目标用户提问来生成答案数据,这样得到的答案数据更加符合用户预期,提高了智能问答的准确性,进而确保了智能问答质量。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图9是本申请实施例提供的一种智能问答装置的结构示意图,参见图9,该装置包括:
接收模块901,用于接收原始用户提问;
切词模块902,用于基于目标领域图谱和第一词典,对该原始用户提问进行切词处理;其中,该目标领域图谱用于记录属于目标领域的不同专有词语之间的关联关系,该第一词典中包括属于不同领域的词语;
获取模块903,用于基于得到的切词结果获取候选词语集合,该候选词语集合中包括第一类词语,该第一类词语为该原始用户提问中疑似输入错误的词语;
该获取模块903,还用于获取第二词典,该第二词典中包括与该第一类词语相似的第二类词语;
该获取模块903,还用于从该第二词典中获取目标词语;
纠错模块904,用于基于该目标词语对该原始用户提问进行纠错处理,得到目标用户提问;
输出模块905,用于输出与该目标用户提问匹配的答案数据。
本申请实施例提供的装置,通过在进行切词处理时,引入面向特定领域的目标领域图谱,并基于目标领域图谱和面向通用领域的第一词典,来对原始用户提问进行切词处理,提高了切词结果的准确性;之后进一步地通过错误检测来确定原始用户提问中疑似输入错误的词语,并基于与疑似输入错误的词语相似的词语,来对原始用户提问进行纠错处理,进而实现根据纠错后得到的目标用户提问来生成答案数据,这样得到的答案数据更加符合用户预期,提高了智能问答的准确性,进而确保了智能问答质量。
在一种可能的实现方式中,该切词模块902,用于基于该第一词典对该原始用户提问进行切词处理,得到初步切词结果;响应于该初步切词结果包括的词语与该目标领域图谱中的专有词语不一致,基于该目标领域图谱中的专有词语,对该初步切词结果进行修正,得到符合该目标领域的切词规则的最终分词结果。
在一种可能的实现方式中,该切词模块902,用于将该目标领域图谱中的专有词语添加至该第一词典中,得到第三词典;响应于在该第三词典中查询到该原始用户提问的子字符序列,将该子字符序列确定为切分出来的一个词语。
在一种可能的实现方式中,该获取模块903,用于将该切词结果中不存在于该目标领域图谱中的词语,确定为该第一类词语;或,将该切词结果中出现频次小于目标阈值的词语,确定为该第一类词语。
在一种可能的实现方式中,该获取模块903,用于获取该目标领域图谱中与该第一类词语拼音相似的词语;将该与该第一类词语音似的词语,确定为该第二类词语。
在一种可能的实现方式中,该获取模块903,用于获取该目标领域图谱中与该第一类词语字形相似的词语;将该与该第一类词语字形相似的词语确定为该第二类词语。
在一种可能的实现方式中,该获取模块903,用于获取历史用户提问;在该历史用户提问中,获取与该第一类词语相似的该第二类词语;或,在该目标领域图谱中,获取与该第一类词语相似的该第二类词语。
在一种可能的实现方式中,该获取模块903,用于获取该第一类词语与该第二类词语之间的编辑距离,该编辑距离用于表征词语之间的相似度;将该第二词典中最大编辑距离对应的词语,确定为该目标词语。
在一种可能的实现方式中,该获取模块903,用于将该第二词典中包括的该第二类词语确定为该目标词语。
在一种可能的实现方式中,该纠错模块904,用于将该原始用户提问中的该第一类词语替换为该目标词语,得到该目标用户提问。
在一种可能的实现方式中,该获取模块903,还用于获取该目标领域的专有词语;
该获取模块903,还用于获取该目标领域的不同专有词语之间的关联关系;
该装置还包括:
创建模块,用于将该专有词语作为该目标领域图谱中的节点,在具有关联关系的任意两个节点之间创建一条边,得到该目标领域图谱。
在一种可能的实现方式中,该获取模块903,还用于获取与该目标领域中的专有词语字形相似的扩充词语;
该装置还包括:
添加模块,用于将该扩充词语添加至该目标领域图谱中。
需要说明的是:上述实施例提供的智能问答装置在进行智能问答时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的智能问答装置与智能问答方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10是本申请实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1001和一个或多个的存储器1002,其中,该一个或多个存储器1002中存储有至少一个计算机程序,该至少一个计算机程序由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1000还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由处理器执行以完成上述实施例中的智能问答方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中,服务器的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该服务器执行上述实施例中提供的智能问答方法的方法步骤。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过计算机程序及计算机程序相关的硬件完成,该计算机程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种智能问答方法,其特征在于,所述方法包括:
接收原始用户提问;
基于目标领域图谱和第一词典,对所述原始用户提问进行切词处理;其中,所述目标领域图谱用于记录属于目标领域的不同专有词语之间的关联关系,所述第一词典中包括属于不同领域的词语;
基于得到的切词结果获取候选词语集合,所述候选词语集合中包括第一类词语,所述第一类词语为所述原始用户提问中疑似输入错误的词语;
获取第二词典,所述第二词典中包括与所述第一类词语相似的第二类词语;
从所述第二词典中获取目标词语;基于所述目标词语对所述原始用户提问进行纠错处理,得到目标用户提问;输出与所述目标用户提问匹配的答案数据。
2.根据权利要求1所述的方法,其特征在于,所述基于目标领域图谱和第一词典,对所述原始用户提问进行切词处理,包括:
基于所述第一词典对所述原始用户提问进行切词处理,得到初步切词结果;
响应于所述初步切词结果包括的词语与所述目标领域图谱中的专有词语不一致,基于所述目标领域图谱中的专有词语,对所述初步切词结果进行修正,得到符合所述目标领域的切词规则的最终分词结果。
3.根据权利要求1所述的方法,其特征在于,所述原始用户序列为字符序列形式,所述基于目标领域图谱和第一词典,对所述原始用户提问进行切词处理,包括:
将所述目标领域图谱中的专有词语添加至所述第一词典中,得到第三词典;
响应于在所述第三词典中查询到所述原始用户提问的子字符序列,将所述子字符序列确定为切分出来的一个词语。
4.根据权利要求1所述的方法,其特征在于,所述基于得到的切词结果获取候选词语集合,包括:
将所述切词结果中不存在于所述目标领域图谱中的词语,确定为所述第一类词语;或,
将所述切词结果中出现频次小于目标阈值的词语,确定为所述第一类词语。
5.根据权利要求1所述的方法,其特征在于,所述获取第二词典,包括:
获取所述目标领域图谱中与所述第一类词语拼音相似的词语;
将所述与所述第一类词语音似的词语,确定为所述第二类词语。
6.根据权利要求1所述的方法,其特征在于,所述获取第二词典,包括:
获取所述目标领域图谱中与所述第一类词语字形相似的词语;
将所述与所述第一类词语字形相似的词语确定为所述第二类词语。
7.根据权利要求1所述的方法,其特征在于,所述获取第二词典,包括:
获取历史用户提问;在所述历史用户提问中,获取与所述第一类词语相似的所述第二类词语;或,
在所述目标领域图谱中,获取与所述第一类词语相似的所述第二类词语。
8.根据权利要求5所述的方法,其特征在于,所述从所述第二词典中获取目标词语,包括:
获取所述第一类词语与所述第二类词语之间的编辑距离,所述编辑距离用于表征词语之间的相似度;
将所述第二词典中最大编辑距离对应的词语,确定为所述目标词语。
9.根据权利要求6所述的方法,其特征在于,所述从所述第二词典中获取目标词语,包括:
将所述第二词典中包括的所述第二类词语确定为所述目标词语。
10.根据权利要求1所述的方法,其特征在于,所述基于所述目标词语对所述原始用户提问进行纠错处理,得到目标用户提问,包括:
将所述原始用户提问中的所述第一类词语替换为所述目标词语,得到所述目标用户提问。
11.根据权利要求1至10中任一项权利要求所述的方法,其特征在于,所述方法还包括:
获取所述目标领域的专有词语;
获取所述目标领域的不同专有词语之间的关联关系;
将所述专有词语作为所述目标领域图谱中的节点,在具有关联关系的任意两个节点之间创建一条边,得到所述目标领域图谱。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
获取与所述目标领域中的专有词语字形相似的扩充词语;
将所述扩充词语添加至所述目标领域图谱中。
13.一种智能问答装置,其特征在于,所述装置包括:
接收模块,用于接收原始用户提问;
切词模块,用于基于目标领域图谱和第一词典,对所述原始用户提问进行切词处理;其中,所述目标领域图谱用于记录属于目标领域的不同专有词语之间的关联关系,所述第一词典中包括属于不同领域的词语;
获取模块,用于基于得到的切词结果获取候选词语集合,所述候选词语集合中包括第一类词语,所述第一类词语为所述原始用户提问中疑似输入错误的词语;
所述获取模块,还用于获取第二词典,所述第二词典中包括与所述第一类词语相似的第二类词语;
所述获取模块,还用于从所述第二词典中获取目标词语;
纠错模块,用于基于所述目标词语对所述原始用户提问进行纠错处理,得到目标用户提问;
输出模块,用于输出与所述目标用户提问匹配的答案数据。
14.一种服务器,其特征在于,所述服务器包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的智能问答方法所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的智能问答方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110033927.5A CN112685550B (zh) | 2021-01-12 | 2021-01-12 | 智能问答方法、装置、服务器及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110033927.5A CN112685550B (zh) | 2021-01-12 | 2021-01-12 | 智能问答方法、装置、服务器及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112685550A true CN112685550A (zh) | 2021-04-20 |
CN112685550B CN112685550B (zh) | 2023-08-04 |
Family
ID=75457440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110033927.5A Active CN112685550B (zh) | 2021-01-12 | 2021-01-12 | 智能问答方法、装置、服务器及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685550B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326702A (zh) * | 2021-06-11 | 2021-08-31 | 北京猎户星空科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN113591457A (zh) * | 2021-07-30 | 2021-11-02 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN116610792A (zh) * | 2023-07-20 | 2023-08-18 | 深圳市吉斯凯达智慧科技有限公司 | 一种基于ai服务的智能政策问答机器人及方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN109885660A (zh) * | 2019-02-22 | 2019-06-14 | 上海乐言信息科技有限公司 | 一种知识图谱赋能的基于信息检索的问答系统和方法 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN111310440A (zh) * | 2018-11-27 | 2020-06-19 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN112016275A (zh) * | 2020-10-30 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 一种语音识别文本的智能纠错方法、系统和电子设备 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
CN112163077A (zh) * | 2020-09-28 | 2021-01-01 | 华南理工大学 | 一种面向领域问答的知识图谱构建方法 |
-
2021
- 2021-01-12 CN CN202110033927.5A patent/CN112685550B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
WO2019153996A1 (zh) * | 2018-02-09 | 2019-08-15 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN111310440A (zh) * | 2018-11-27 | 2020-06-19 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN109885660A (zh) * | 2019-02-22 | 2019-06-14 | 上海乐言信息科技有限公司 | 一种知识图谱赋能的基于信息检索的问答系统和方法 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110162611A (zh) * | 2019-04-23 | 2019-08-23 | 苏宁易购集团股份有限公司 | 一种智能客服应答方法及系统 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
CN112163077A (zh) * | 2020-09-28 | 2021-01-01 | 华南理工大学 | 一种面向领域问答的知识图谱构建方法 |
CN112016275A (zh) * | 2020-10-30 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 一种语音识别文本的智能纠错方法、系统和电子设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326702A (zh) * | 2021-06-11 | 2021-08-31 | 北京猎户星空科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN113326702B (zh) * | 2021-06-11 | 2024-02-20 | 北京猎户星空科技有限公司 | 语义识别方法、装置、电子设备及存储介质 |
CN113591457A (zh) * | 2021-07-30 | 2021-11-02 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113591457B (zh) * | 2021-07-30 | 2023-10-24 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN116610792A (zh) * | 2023-07-20 | 2023-08-18 | 深圳市吉斯凯达智慧科技有限公司 | 一种基于ai服务的智能政策问答机器人及方法 |
CN116610792B (zh) * | 2023-07-20 | 2023-11-03 | 深圳市吉斯凯达智慧科技有限公司 | 一种基于ai服务的智能政策问答机器人及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112685550B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789552B2 (en) | Question answering system-based generation of distractors using machine learning | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN112685550B (zh) | 智能问答方法、装置、服务器及计算机可读存储介质 | |
WO2021082982A1 (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN112131366A (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
CN109325040B (zh) | 一种faq问答库泛化方法、装置及设备 | |
CN115151903A (zh) | 文本抽取方法及装置、计算机可读存储介质以及电子设备 | |
CN110297893B (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
CN111694937A (zh) | 基于人工智能的面试方法、装置、计算机设备及存储介质 | |
CN111782826A (zh) | 知识图谱的信息处理方法、装置、设备及存储介质 | |
KR20210070904A (ko) | 다중 문서 질의 응답을 위한 방법 및 장치 | |
CN116824278A (zh) | 图像内容分析方法、装置、设备和介质 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN110633456B (zh) | 语种识别方法、装置、服务器及存储介质 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN117932022A (zh) | 一种智能问答方法、装置、电子设备及存储介质 | |
CN113342944A (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN111443973B (zh) | 备注信息的填入方法、装置、设备及存储介质 | |
CN110377706B (zh) | 基于深度学习的搜索语句挖掘方法及设备 | |
CN112100355A (zh) | 一种智能交互方法、装置及设备 | |
WO2021012040A1 (en) | Methods and systems for state navigation | |
CN113627186B (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
CN112966084B (zh) | 基于知识图谱的答案查询方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40042649 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |