CN109800879B - 知识库构建方法和装置 - Google Patents

知识库构建方法和装置 Download PDF

Info

Publication number
CN109800879B
CN109800879B CN201811574181.3A CN201811574181A CN109800879B CN 109800879 B CN109800879 B CN 109800879B CN 201811574181 A CN201811574181 A CN 201811574181A CN 109800879 B CN109800879 B CN 109800879B
Authority
CN
China
Prior art keywords
question
corpus
standard
questions
extension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811574181.3A
Other languages
English (en)
Other versions
CN109800879A (zh
Inventor
陆晓静
庄纪军
胡加学
黄永江
邱志国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201811574181.3A priority Critical patent/CN109800879B/zh
Publication of CN109800879A publication Critical patent/CN109800879A/zh
Application granted granted Critical
Publication of CN109800879B publication Critical patent/CN109800879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种知识库构建方法和装置,该方法包括:获取待构建知识库中已有的标准问以及与所述标准问关联的第一扩展问;根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;将所述第二扩展问从所述待挖掘语料库中转移存储至所述待构建知识库中,并将所述第二扩展问及与该第二扩展问语义匹配的所述标准问相关联,其中,存储至所述待构建知识库中的所述第二扩展问记为第一扩展问。本发明在构建知识库时,不需要人工标注,实现了知识库的自动构建,并节省了人力和财力,以及提升了知识库的构建效率、缩短了知识库的构建周期。

Description

知识库构建方法和装置
技术领域
本发明涉及人工智能技术领域,特别是涉及一种知识库构建方法和装置。
背景技术
知识库又称为智能数据库或人工智能数据库,是知识工程中针对某一(或某些)领域问题求解需要而构建的结构化、易操作、易利用且全面有组织的知识集群。知识库采用某种(或若干)知识表示方式在计算机中存储、组织、管理和使用,并具有相互的关联关系。知识库一般由知识点、标准问及其对应的拓展问构成。比如在智能客服系统中,某个知识点是“查话费”,标准问是“话费查询”,那么对应的拓展问有很多,可以是“我这个月打电话花了多少钱”、“我这个月用了多少话费”等等,而知识点是标准问的抽象表达。
而在智能客服领域,通常是基于知识库回答用户问题。因此,知识库的质量不仅会影响反馈给用户的答案的准确性,而且直接影响知识的推广和应用。因此,在构建知识库时,需要尽量使每个知识点的每个标准问对应有尽可能多且语义表达正确且丰富的扩展问。
为了扩充知识库中标准问对应的扩展问,传统方法是在海量语料库中对每个标准问可能对应的扩展问进行查看和确认,并结合实际场景,将确认无误的扩展问进行人工标注,然后将标注的扩展问补充至知识库中相应知识点的标准问下,在这个过程中,需要进行大量的人工查找与标注工作,不仅耗费巨大的人力、财力资源,而且效率低下。
由此可见,现有技术中的知识库构建方法普遍存在着人力、财力资源浪费以及构建周期长和构建效率低的问题。
发明内容
本发明提供了一种知识库构建方法和装置,以解决相关技术中的知识库构建方法所存在的人力、财力资源浪费以及构建周期长和构建效率低的问题。
为了解决上述问题,根据本发明的一个方面,本发明公开了一种知识库构建方法,包括:
获取待构建知识库中已有的标准问以及与所述标准问关联的第一扩展问;
根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
将所述第二扩展问从所述待挖掘语料库中转移存储至所述待构建知识库中,并将所述第二扩展问及与该第二扩展问语义匹配的所述标准问相关联,其中,存储至所述待构建知识库中的所述第二扩展问记为第一扩展问。
根据本发明的另一方面,本发明还公开了一种知识库构建装置,包括:
获取模块,用于获取待构建知识库中已有的标准问以及与所述标准问关联的第一扩展问;
挖掘模块,用于根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
构建模块,用于将所述第二扩展问从所述待挖掘语料库中转移存储至所述待构建知识库中,并将所述第二扩展问及与该第二扩展问语义匹配的所述标准问相关联,其中,存储至所述待构建知识库中的所述第二扩展问记为第一扩展问。
根据本发明的再一方面,本发明还公开了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的知识库构建程序,所述知识库构建程序被所述处理器执行时实现如上述任一项所述的知识库构建方法的步骤。
根据本发明的又一方面,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有知识库构建程序,所述知识库构建程序被处理器执行时实现如上述任一项所述的知识库构建方法中的步骤。
与现有技术相比,本发明包括以下优点:
本发明实施例通过从待构建知识库中抽取已有的标准问,以及标准问下的第一扩展问,并根据抽取的标准问以及标准问下的第一扩展问,来从待挖掘语料库中挖掘出与标准问以及该标准问下的扩展问语义匹配的第二扩展问,从而达到从待挖掘语料库中挖掘与已有标准问语义高度相似的第二扩展问的效果,并将第二扩展问从待挖掘语料库中转移到该待构建知识库中,以及将该第二扩展问与该第二扩展问命中的标准问相关联,从而达到对待构建知识库中各个标准问下扩展问的扩充的目的;那么经过多次的迭代挖掘,则每次挖掘时都可以使用待构建知识库中扩充了第一扩展问之后的数据,来在去除了被挖掘出的第二扩展问之后的待挖掘语料库中,挖掘各个标准问下可能存在的第二扩展问,从而能够提升挖掘的第二扩展问的准确率,并实现了知识库的自动构建。由于知识库构建过程中,不需要人工标注,则实现了知识库的自动构建,并节省了人力和财力,以及提升了知识库的构建效率、缩短了知识库的构建周期。
附图说明
图1是本发明的一种知识库构建方法实施例的步骤流程图;
图2是本发明的一种语义模型的网络结构示意图;
图3是本发明的一种知识库构建装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种知识库构建方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,获取待构建知识库中已有的标准问以及与所述标准问关联的第一扩展问;
其中,标准问为对知识点的标准描述,与标准问相比,和该标准问相关联的扩展问是与标准问语义相似并且语义信息更加丰富且具体的描述。标准问与扩展问都可以表达知识点的信息。
其中,该待构建知识库中包括预先通过人工标注而构建的已有标准问,以及通过人工标注构建与该标准问关联的多个扩展问(这里记为第一扩展问),当然,该待构建知识库中也可以包括未标注其所属标准问的候选扩展问,这些候选扩展问在待构建知识库中不具有与之关联的标准问。
由于标准问是与业务相关的,因此,可以在人工标注构建标准问的过程中,通过与业务人员充分协调沟通,来使得人工构建的标准问语义明确、而不同标准问之间也能够具有明显的区分,且尽量覆盖更广的业务。
本实施例中,可以从待构建知识库中抽取已有的标准问以及与该标准问关联的第一扩展问。
其中,抽取的标准问的数量,以及对每个标准问抽取的相关联的第一扩展问的数量可以根据需要灵活设定,对于从待构建知识库中抽取的标准问的数量,可以是待构建知识库中的部分标准问或全部标准问,而对每个标准问抽取的相关联的扩展问,也可以是待构建知识库中与每个标准问相关联的部分扩展问或全部扩展问,本发明对此并不做限制。
优选地,从待构建知识库中抽取全部的已有标准问。
而抽取得到的标准问,以及与每个标准问关联的第一扩展问可以存储在本地缓存之中。
可选地,当待构建知识库中已有的标准问的数量较少时(例如小于5个),那么使用少量的标准问,难以对待挖掘语料库作充分的扩展问挖掘,使得构建的知识库不够丰富。因此,本实施例的方法还可以对待构建知识库中的标准问进行丰富,然后,从丰富了标准问之后的待构建知识库中获取已有标准问(包括通过下述聚类方式得到的新构建的标准问)以及与其关联的第一扩展问。
对于丰富待构建知识库中标准问的步骤,本发明实施例的方法可以对待构建知识库中未标注所属标准问的候选扩展问进行聚类的方式,来构建标准问。从而使得待构建知识库中的标准问得到丰富,相应的,这些被聚类的候选扩展问则作为与新构建的标准问相关联的第一扩展问。
那么在步骤101获取的标准问被确定后,本发明实施例的方法就可以利用迭代挖掘的方法来从待挖掘语料库中,挖掘与步骤101获取的每个标准问相关联的新的第一扩展问,即下述挖掘第二扩展问的过程,来达到对标准问下第一扩展问的扩充目的;然后,再利用从步骤101获取的每个标准问,以及每个标准问下的扩充后的第一扩展问,来再次从待挖掘语料库中挖掘与每个标准问相关联的新的第一扩展问,实现对每个标准问下第一扩展问的不断扩充,最后不断扩充标准问下的第一扩展问的待构建知识库,即构成构建之后的知识库。
需要说明的是,在迭代挖掘的过程中,每次执行步骤101获取的标准问的数目以及内容可以是变化的,也可以是不变的。
优选地,每次执行步骤101获取的标准问的数目以及内容是不变的(即每次执行步骤101时,获取的都是相同的标准问),这样,可以确保对已有的每个标准问都从待挖掘语料库中挖掘扩展问。
另外,在本发明中,迭代挖掘的过程只是对标准问下的第一扩展问进行扩充的过程,无需对待构建知识库中的标准问进行扩充。
下述步骤102和步骤103描述了挖掘的过程:
步骤102,根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
其中,待挖掘语料库一般由厂商提供,而厂商提供的待挖掘语料可能是电话录音或者文本,如果是录音,则需要将录音转化为文本,然后构建到待挖掘语料库中。因此,待挖掘语料库可以包括文本形式的厂商提供的待挖掘语料。
本发明的目的在于从待挖掘语料库中挖掘出扩展问,从而利用挖掘出的扩展问来扩充待构建知识库中每个标准问下的扩展问。因此,待挖掘语料库与待构建知识库中的数据是相同领域内的数据。
其中,待挖掘语料库可以包括人机数据和/或人人数据。
对于人机数据,其由“用户输入”构成,可以理解为人机数据中的每个语料文本(即“用户输入”)都是扩展问语料;
对于人人数据,即原始客服数据,包括多个会话,每个会话包括“用户输入”文本和“客服回答”文本,一般情况下,“用户输入”是问题,“客服回答”是答案,而“用户输入”是各种各样的,“客服回答”的内容是标准的,因此,“客服回答”是“用户输入”的一个很重要的上下文信息。
那么本步骤中,就可以利用从待构建知识库中获取的标准问,以及获取到的该标准问下的第一扩展问,来从待挖掘语料库中挖掘出与所述标准问以及该标准问下的第一扩展问语义相似的第二扩展问。
其中,从待挖掘语料库中一次挖掘到的第二扩展问可以是一个,而该第二扩展问命中的标准问的数量也是一个。
另外,需要说明的是,当该待挖掘语料库包括人机数据时,则该第二扩展问可以为人机数据中的任意一个语料文本;当待挖掘语料库包括人人数据时,由于人人数据中包括“客服回答”,显然“客服回答”的文本并不属于问题,因此挖掘到的第二扩展问并不会命中“客服回答”,也只是可以为人人数据中的“用户输入”文本。
步骤103,将所述第二扩展问从所述待挖掘语料库中转移存储至所述待构建知识库中,并将所述第二扩展问及与该第二扩展问语义匹配的所述标准问相关联,其中,存储至所述待构建知识库中的所述第二扩展问记为第一扩展问。
其中,可以将从待挖掘语料库中挖掘到的第二扩展问存储至待构建知识库中,并将该第二扩展问与该待构建知识库中被该第二扩展问命中的一个标准问相关联,那么由于步骤101中,将待构建知识库中与标准问相关联的扩展问记为第一扩展问,因此,这里扩充到待构建知识库中的第二扩展问也记为第一扩展问。另外,为了进行下一轮的第二扩展问的挖掘,这里,还需要将从待挖掘语料库中挖掘到的第二扩展问,从该待挖掘语料库中删除。
在进行第二轮扩展问的挖掘,即对待构建知识库进行第二轮的扩展问扩充时,可以再次执行上述步骤101~步骤103。
需要说明的是,当再次执行步骤101时,从待构建知识库中获取的标准问与第一次执行步骤101时获取的标准问是完全相同的(例如第一次执行步骤101时,从待构建知识库中获取了标准问1、标准问2和标准问3,则第二次执行步骤101以及第N次执行步骤101时,都是获取标准问1、标准问2和标准问3),因为,迭代挖掘的过程是对相同的标准问进行其扩展问的不断扩充过程。而再次执行步骤101时,从待构建知识库中获取到的每个标准问下的第一扩展问却是扩充后的第一扩展问(即如果扩充有第二扩展问,则包括上一轮补充的第二扩展问)。
那么,在再次执行步骤102时,则是使用原有标准问,以及每个标准问下扩充后的第一扩展问,来从删除有上一轮被挖掘到的第二扩展问的待挖掘语料库中,再次挖掘新的第二扩展问。其中,由于上一轮挖掘到的第二扩展问已经从待挖掘语料库中删除,因此,这里挖掘的待挖掘语料库中不包括上一次被挖掘出的第二扩展问。
相应的,在再次执行步骤103时,则会继续将第二轮挖掘到的新的第二扩展问转移存储至待构建知识库中,并将该第二扩展问和其命中的标准问关联存储起来。
那么通过循环执行上述步骤101~步骤103进行迭代挖掘,可以对待构建知识库中各个标准问下的第一扩展问的不断扩充,以及对待挖掘语料库中的语料文本的不断削减,从而可以从待挖掘语料库中挖掘到与各个标准问语义相似的语料文本,并扩充到待构建知识库中各个标准问下,达到扩充待构建知识库中各个标准问下的扩展问的目的,实现知识库的构建。
借助于本发明上述实施例的技术方案,本发明实施例通过从待构建知识库中抽取已有的标准问,以及标准问下的第一扩展问,并根据抽取的标准问以及标准问下的第一扩展问,来从待挖掘语料库中挖掘出与标准问以及该标准问下的扩展问语义匹配的第二扩展问,从而达到从待挖掘语料库中挖掘与已有标准问语义高度相似的第二扩展问的效果,并将第二扩展问从待挖掘语料库中转移到该待构建知识库中,以及将该第二扩展问与该第二扩展问命中的标准问相关联,从而达到对待构建知识库中各个标准问下扩展问的扩充的目的;那么经过多次的迭代挖掘,则每次挖掘时都可以使用待构建知识库中扩充了第一扩展问之后的数据,来在去除了被挖掘出的第二扩展问之后的待挖掘语料库中,挖掘各个标准问下可能存在的第二扩展问,从而能够提升挖掘的第二扩展问的准确率,并实现了知识库的自动构建。由于知识库构建过程中,不需要人工标注,则实现了知识库的自动构建,并节省了人力和财力,以及提升了知识库的构建效率、缩短了知识库的构建周期。
可选地,在一个实施例中,在执行步骤101时,可以通过以下S401~S402来实现:
S401,获取待构建知识库中已有的标准问以及与所述标准问关联的预设数量的第一扩展问;
其中,由于待构建知识库中每个标准问下的扩展问都是人工标注而构建的,那么不同标准问下的扩展问的数量可能不太均衡,例如标准问1下有10条关联的扩展问,而标准问2下有100条关联的扩展问,那么如果直接使用待构建知识库中每个标准问下全部的扩展问,来对待挖掘语料库进行第二扩展问的挖掘,则挖掘到的第二扩展问更容易命中原本具有更多第一扩展问的标准问,使得原本具有较少第一扩展问的标准问更难从待挖掘语料库中挖掘到与之语义匹配的第二扩展问,造成构建的知识库中不同标准问下的扩展问数量不够均衡的问题。
那么为了解决上述问题,在本实施例中,仍旧从待构建知识库中获取已有的标准问,优选地,从待构建知识库中获取全部的已有标准问,而在获取各个标准问下的第一扩展问时,则可以对每个标准问都获取预设数量的与之关联的第一扩展问,例如从待构建知识库中标准问1下的10条扩展问中抽取5条扩展问(优选随机抽取,当然也可以采用其他预设抽取方式进行抽取,本发明对此并不限制),从待构建知识库中标准问2下的100条扩展问中也抽取5条扩展问,使得不同标准问下的原始第一扩展问的数量都是相同的,抽取的数量都是预设数量(例如5条),从而避免在进行第二扩展问的挖掘过程中,因为所使用的各个标准问下原始第一扩展问的数量不够均衡,所导致的构建的知识库不够准确、完善的问题。
其中,预设数量一般小于10,本实施例旨在从待构建知识库中已有的扩展问中抽取与标准问关联的少量的第一扩展问,以及结合少量第一扩展问所分别关联的标准问,来从待挖掘语料中挖掘大量的与各个标准问存在关联的第二扩展问,达到构建知识库的目的。
S402,将获取的所述标准问以及与所述标准问关联的预设数量的第一扩展问,存储在预设文件中;
其中,可以将S401从待构建知识库中获取到的每个标准问,以及每个标准问下与之关联的预设数量的第一扩展问,均存储在一个预设文件中,后续实施例将预设文件称之为种子文件。
那么后续在使用待构建知识库中的标准问以及其下的扩展问,来对待挖掘语料库中的扩展问进行挖掘时,则可以直接使用种子文件中的标准问以及标准问下的预设数量的扩展问来进行挖掘,具体参照下述实施例的步骤102和步骤103。
在本实施例中,在执行步骤102时,则可以根据所述预设文件中的所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
那么通过利用种子文件中的标准问及标准问下的扩展问,则可以在待挖掘语料库中挖掘更多标准问以及该标准问下的扩展问语义相似的语料文本(即第二扩展问),以完成高质量种子文件的构建。
那么在执行步骤103时,则可以将所述第二扩展问从所述待挖掘语料库中转移存储至所述预设文件中,并将所述预设文件中与所述第二扩展问语义匹配的所述标准问,与所述第二扩展问相关联,其中,存储至所述预设文件中的所述第二扩展问记为所述第一扩展问。
本步骤的执行原理与图1实施例的步骤103是类似的,这里不再赘述。
那么在迭代挖掘的过程中,由于本实施例在执行步骤101时是以S401和S402的步骤来实现的,即通过待构建知识库中原始的标准问以及每个标准问下预设数量的扩展问存储在种子文件中,且后续第二扩展问的扩充过程,也是将对标准问扩充的第二扩展问存储在种子文件中,因此,在进行后续的迭代挖掘过程中,只需要循环执行本实施例的步骤102和步骤103即可,无需重复执行步骤101。即通过使用扩充了标准问下的扩展问的种子文件中的数据,来对删除了被挖掘到的第二扩展问的待挖掘语料库进行进一步的挖掘,从而达到对种子文件中各个标准问下的扩展问不断扩充的目的,这里经过多次挖掘得到的种子文件即可以作为本实施例构建的高质量的知识库。
可选地,也可以将经过多次挖掘扩充后的种子文件再迁移到原始的待构建知识库中,而由于扩充后的种子文件与原始的待构建知识库之间存储重复的数据,因此,还可以在将种子文件中的数据迁移到原始的待构建知识库中之后,对待构建知识库中的重复数据进行清除,从而得到本发明实施例构建的高质量的知识库。
这样,本发明实施例通过从待构建知识库中获取已有的标准问,以及与标准问关联的预设数量(数量较少)的第一扩展问,并将获取的数据存储在预设文件中;然后,利用预设文件中的标准问以及标准问下少量的第一扩展问,来从待挖掘语料库中挖掘能够在语义上命中预设文件中标准问的第二扩展问,并将挖掘到的第二扩展问从待挖掘语料库转移到预设文件中,并与相应的标准问相关联,提升了挖掘到的第二扩展问的准确率(即第二扩展问命中的标准问的准确率较高);
此外,在迭代挖掘过程中,则无需在每次挖掘时,都从待构建知识库中获取标准问以及与之关联的第一扩展问,而是直接使用扩充后的预设文件中的标准问以及与之关联的第一扩展问即可,避免了对待构建知识库中的数据的重复获取,降低了数据处理量;
另外,由于本实施例中每次迭代挖掘时使用的都是预设文件中相同的多个标准问,且各个标准问原本相关联的第一扩展问的数量又是相同的,从而可以较为均衡的对每个标准问都挖掘出更多的第二扩展问,使得各个标准问之间被挖掘到第二扩展问的概率是相近的,不会存在某个标准问被挖掘到很多个第二扩展问,而某个标准问没有被挖掘到第二扩展问的问题,使得最后扩充的预设文件中不同标准问下的扩展问的数量是均衡的。
在详细阐述本发明的后续各个实施例时,为了便于读者理解,都以图1实施例包括种子文件为例进行说明,但是,需要注意的是,在后续实施例中,即便不包括种子文件,下述实施例同样可以实现。
可选地,在执行步骤102时,可以通过以下S201和S202来实现:
S201,计算待挖掘语料库中任意一个语料文本与每个所述第一扩展问之间的第一语义相似度;
其中,对于待挖掘语料库中的任意一个语料文本,本步骤可以计算该语料文本与种子文件中的每个第一扩展问之间的语义相似度,这里记为第一语义相似度。并且,为了确保挖掘结果的准确性,这里需要对待挖掘语料库中的每个语料文本都进行S201的操作。
另外,在实施例一中,该第一语义相似度可以是语料文本与第一扩展问这两个文本之间的语义相似度。那么在文本上与第一扩展问语义比较相似的语料文本可以被挖掘出来,从而被扩充到种子文件中。
在实施例二中,该第一语义相似度也可以是结合有该上文信息和/或下文信息的语料文本,与,结合有上文信息和/或下文信息的第一扩展问,之间的语义相似度。在这种情况下,即便语料文本与第一扩展问之间的语义相似度较低,但是结合有各自上文信息和/或下文信息后的语料文本与第一扩展问之间的语义相似度如果较高的话,该语料文本同样可以被挖掘到,从而补充到种子文件中。
S202,根据所述第一语义相似度,从所述待挖掘语料库中的多个语料文本中挖掘第二扩展问,以及在所述标准问中识别与所述第二扩展问语义匹配的标准问。
其中,所述待挖掘语料库中的语料文本的数量为至少两个。
其中,本发明实施例可以根据第一语义相似度,来从待挖掘语料库中的多个语料文本中挖掘出第二扩展问。
但是,对于待挖掘语料库中的任意一个被挖掘的第二扩展问(即被挖掘到的语料文本),在种子文件中可能存在与之语义相似度较高的多个第一扩展问,且多个第一扩展问所分别关联的标准问可能不同,因此,该第二扩展问可能命中多个标准问,所以还需要从种子文件中的多个标准问中识别出与该第二扩展问语义匹配的标准问,该标准问才是该第二扩展问实际命中的标准问,也即,该第二扩展问与种子文件中的这个标准问语义最匹配。
这样,本发明实施例通过计算待挖掘语料库中任意一个语料文本与每个第一扩展问之间的第一语义相似度,从而可以根据该第一语义相似度从待挖掘语料库的多个语料文本中挖掘出作为第二扩展问的语料文本,以及识别该第二扩展问命中的语义最匹配的标准问,提升了挖掘准确率。
可选地,在一个实施例中,如上述实施例一所述,当该第一语义相似度为语料文本与第一扩展问这两个文本之间的语义相似度时,在执行S201时,可以通过以下S2011~S2012来实现:
S2011,将待挖掘语料库中的每个语料文本,以及每个所述第一扩展问,分别输入至预先经过训练的语义模型,得到每个语料文本的语义特征,以及每个所述第一扩展问的语义特征;
其中,可以将待挖掘语料库中的每个语料文本分别输入至预先经过训练的语义模型,得到每个语料文本的语义特征;
此外,还可以将种子文件中的每个第一扩展问分别输入至该预先经过训练的语义模型,从而得到每个第一扩展问的语义特征。
语义模型的作用在于对输入的文本识别语义,输出语义特征。其中,语义特征的表现形式可以是向量。
对于语料文本、第一扩展问输入至语义模型的顺序,本发明对此并不做任何限制,只要可以得到各个语料文本的语义特征、各个第一扩展问的语义特征即可。
另外,需要说明的是,当待挖掘语料库包括人人数据时,由于人人数据的组成形式是多个会话,每个会话包括“用户输入”“和客服回答”,而由于客服回答”并不是问题语句,因此,其不需要被挖掘。所以优选地,在执行S2011时,可以只将人人数据中的“用户输入”作为语料文本输入到预先经过训练的语义模型中,来获取其语义特征,从而减少后续S2012步骤中的计算量。
当然,如果不区分人人数据中的“用户输入”和“客服回答”,而将人人数据中的每个语句均作为语料文本输入到预先经过训练的语义模型,那么由于“客服回答”的语义与种子文件中标准问、扩展问(都属于问题语句)的语义都是差异很大的,因此,在后续S2012的步骤中,这些“客服回答”的语句也是不会被挖掘到的。
S2012,计算所述待挖掘语料库中任意一个语料文本的语义特征与每个所述第一扩展问的语义特征之间的第一相似度。
其中,在计算两个语义特征之间的相似度时,可以通过计算两个向量之间的cosine值的方式,来得到两个语义特征之间的相似度。其中,cosine值得范围为[-1,1],两个文本的语义越相似,cosine值越接近于1,两个文本的语义越不相似,cosine值越接近于-1。
其中,在本实施例中所述第一相似度即为上述第一语义相似度。
例如,在人机数据挖掘中,cosine值的计算仅考虑种子文件中的扩展问的向量与待挖掘语料库中人机数据中语料文本的向量两者之间的相似度,假设种子文件中扩展问为qi,经过语义模型抽取后的向量为LSTM(qi),待挖掘语料库中语料文本为pi,经过语义模型抽取后的向量为LSTM(pi),则种子文件中的扩展问qi与待挖掘语料库中的语料文本pi之间的第一相似度表示为:
第一相似度=cosine(LSTM(qi),LSTM(pi));
这样,本发明实施例通过计算语料文本与第一扩展问之间在文本上相似度,来作为语料文本与第一扩展问之间的相似度,从而可以将待挖掘语料库中在文本本身方面,与标准问以及与其关联的第一扩展问相似度较高的语料文本挖掘到,也就是说挖掘到的第二扩展问一般为待挖掘语料库中与种子文件中的第一扩展问高度相似的语料文本;此外,本实施例中在计算两个文本之间的语义相似度时,利用预先经过训练的语义模型来将两个文本转换为语义特征,再计算两个语义特征之间的相似度,使得计算出的相似度准确度较高,提升了挖掘的第二扩展问的准确率。
可选地,在一个实施例中,在执行S2011之前,本发明实施例的方法还包括对语义模型的训练步骤。
训练语料,可以来自于运营商的语料库。
其中,需要说明的是,训练语料与待构建知识库、待挖掘语料库都是同一个领域内的数据。而训练语料与上述待挖掘语料库虽然领域相同,但是数据不同,待挖掘语料库中的数据为想要知道相关扩展问的数据,例如可以是最近6个月的客服记录数据。
类似的,该训练语料也可以包括人机数据和/或人人数据,具体定义见上述实施例,这里不再赘述。
其中,在对模型训练之前,可以对训练语料作正反例分配处理,从而得到训练数据,并采用正反例的形式进行训练。
当训练语料包括人机数据时,人机数据中的每个训练语料其实都是一个扩展问,可以预先对每个扩展问人工标注其对应的标准问,那么对于人机数据中的任意一个扩展问,其正例为人机数据中与其处于同一个标准问下的扩展问,其反例为人机数据中与其处于不同标准问下的扩展问。
因此,当训练语料包括人机数据时,训练数据包括:样本对(扩展问-标注有标准问,该扩展问的正例)、样本对(扩展问-标注有标准问,该扩展问的反例)。
而当训练语料包括人人数据(多个会话形式,每个会话包括用户输入以及客服回答)时,任意一个用户输入都是一个扩展问,该扩展问的正例为该扩展问对应的客服回答(即同一个会话中的客服回答),该扩展问的反例为其他会话中的客服回答。
因此,当训练语料包括人人数据时,训练数据包括:样本对(扩展问,该扩展问的正例)、样本对(扩展问,该扩展问的反例)。
对于待训练的语义模型的模型结构可以是任意一种神经网络模型,在本实施例中,如图2所示,该语义模型的结构为在双向BiLSTM(Long Short-Term Memory,长短期记忆网络)的基础上增加了highway层,使得训练后的语义模型更能够准确的对输入的文本进行语义特征的表示,其中,图2中的各个圆圈结构为传统的网络结构(例如卷积层),本发明对此不做限制。
当训练语料包括人机数据时,则可以使用上述训练数据:样本对(扩展问-标注有标准问,该扩展问的正例)、样本对(扩展问-标注有标准问,该扩展问的反例),来对上述语义模型进行有监督的训练,直至语义模型收敛。
而当训练语料包括人人数据时,则可以使用上述训练数据:样本对(扩展问,该扩展问的正例)、样本对(扩展问,该扩展问的反例),来对上述语义模型进行无监督的训练,直至语义模型收敛。
其中,相较于采用有标注的训练语料来对语义模型进行有监督训练,无监督训练的好处在于,无需人工标注,可以减少人工操作。
根据训练语料的组成的不同,该语义模型可以采用有监督和/或无监督的训练,当既采用有监督又采用无监督训练时,两种训练方式不分先后顺序,可以相互交叉,也可以先后处理,本发明对此并不做限制。
优选地,采用人人数据来对语义模型进行无监督训练。
此外,在将训练数据输入语义模型进行训练时,可以分为分字训练和分词训练两种训练方式。
其中,分字训练是指直接使用训练数据中的语句(即一个文本)来训练语义模型,其中,语句中的每个字以一个维度的向量来表示,那么在训练语料数据量比较大的情况下,相较于分词训练,分字训练的效果更好一些。
分词训练是指先对训练数据中的语句利用分词工具进行分词,使得每个语句由多个分词构成,然后,将每个训练数据的多个分词送入语义模型进行训练。
例如,一个语句由10个字构成,在分字训练时,一个字100维度,则采用分字训练得到的语义模型对输入的该语句,输出的向量的维度是10*100;而在分词训练时,例如上述语句分词处理后,得到5个词,每个词100维度,则采用分词训练得到的语义模型对输入的该语句,输出的向量的维度是5*100。
那么在训练语料数据量较小的情况下,相较于分字训练,分词训练的效果更好一些。
本文以采用分字训练来说明。其中,不论是分字训练,还是分词训练,扩展问的正例或反例,都是一个语句,与分字训练和分词训练无关。分字训练,分词训练只是对扩展问、其正例、其反例进行分字或分词处理。
其中,本发明实施例的语义模型的损失函数L=max{0,margin-cos(q,a+)+cos(q,a_)},其中q为训练数据中的扩展问本身的向量表示,a+为该扩展问的正例的向量表示,a_为该扩展问的反例的向量表示,margin为初始设定的阈值参数(训练后的语义模型的margin的数值优选0.1~0.15,包括临界值,当然,在语义模型训练时,该margin参数的数值也是需要调整的数值),在语义模型训练过程中,通过损失函数来对整个语义模型进行训练和参数更新,直至语义模型收敛。
如图2所示,由于本发明实施例的语义模型的网络结构为双向BiLSTM,即包括左右两个支路的BiLSTM结构以及Hiway结构。
那么当训练语料包括人机数据时,训练数据的形式为样本对(扩展问-标注有标准问,该扩展问的正例)、样本对(扩展问-标注有标准问,该扩展问的反例),那么对于任意一个样本对,该样本对中两个文本可以分别输入至图2中左右两个支路中的任意一个支路,例如样本对中的带标注的扩展问输入到左侧支路,而样本对中的正例或反例输入到图2中的右侧支路。
那么当训练数据只包括该人机数据时,则经过有监督训练后的语义模型可以对待挖掘语料库中的人机数据作语义特征识别,以及对待挖掘语料库中的人人数据中的“用户输入”文本进行语义特征识别,而无法对待挖掘语料库中的人人数据中的“客服回答”文本进行语义特征的识别。
优选地,当语义模型的训练数据只包括人机数据时,采用上述S2011和S2012的方法来计算待挖掘语料库中的人机数据中的任意一个语料文本、人人数据中的任意一个“用户输入”语料文本,与种子文件中每个第一扩展问之间在两个文本之间的语义相似度,无需考虑上下文信息,从而从待挖掘语料库中的人机数据、人人数据中的“用户输入”语料文本中挖掘出,与种子文件中的标准问最匹配的第二扩展问。因此,采用上述S2011和S2012的方法实施例可以对待挖掘语料库中的人机数据、人人数据中的“用户输入”语料文本进行第二扩展问的挖掘。
此外,当训练数据包括人人数据时,那么不论待挖掘语料库中包括人人数据和/或人机数据,经过训练后的语义模型可以对待挖掘语料库中的任意一个语句,即语料文本,作语义特征的识别,因为,经过训练后的语义模型中存在一个支路是由“客服回答”的训练语料训练过的。所以,可以对待挖掘语料库中的“客服回答”的语料文本进行语义特征的识别。例如只需要将该“客服回答”的语料文本输入至语义模型的由“客服回答”训练语料训练的支路,即可得到该“客服回答”的语料文本的语义特征。
可选地,在另一个实施例中,所述待挖掘语料库还可以包括每个所述语料文本的第二上文信息和/或第二下文信息。
也就是说,本实施例中,待挖掘语料库可以包括人人数据。
需要说明的是,人机数据中的语料文本并不具有上文信息和/或下文信息。
其中,待挖掘语料库中的人人数据包括多个会话,每个会话包括“用户输入”语料文本和“客服回答”语料文本,不论是“用户输入”语料文本,还是“客服回答”语料文本,都具有上文和/或下文信息。
以“用户输入”语料文本为例进行说明,本次会话中的“用户输入”的“客服回答”语料文本即为该“用户输入”语料文本的下文信息,而上次会话中客服的回答,即上一个“客服回答”语料文本,即为该“用户输入”语料文本的上文信息。而“客服回答”语料文本的上下文信息与这里的举例的原理类似,这里不再赘述。
另外,由于待挖掘语料库中人人数据包括“用户输入”语料文本和“客服回答”语料文本,如上述S2011所述,为了减少运算量,提升挖掘效率,S2011~S2015中的语料文本可以只包括“用户输入”语料文本,而不包括“客服回答”语料文本。当然,即便S2011~S2015中的语料文本为人人数据中的“用户输入”语料文本和“客服回答”语料文本中的任意一个,由于“客服回答”语料文本不属于问题语句,因此得到的第一语义相似度,在执行S202时不会命中种子文件中的标准问,即便结合了“客服回答”语料文本的上下文信息,得到该“客服回答”语料文本与匹配到的各个第一扩展问之间的第一语义相似度,依据该第一语义相似度在执行S202时,仍旧不会命中种子文件中的标准问。
如上述实施例二所述,当该第一语义相似度为结合有该上文信息和/或下文信息的语料文本,与,结合有上文信息和/或下文信息的第一扩展问,之间的语义相似度时,那么在本实施例中,在执行S201时,不仅可以包括上述实施例中的S2011~S2012,还可以包括以下S2013~S2016:
由于在S2011~S2012的实施例中,仅仅用种子文件中扩展问与待挖掘语料库中的扩展问(即用户输入)的cosine值作为其相似度的衡量方法,挖掘出的第二扩展问,一般为待挖掘语料库中与种子文件中的第一扩展问高度相似的语料文本。
但是,在本实施例中,由于待挖掘语料库还包括人人数据。因此,将上下文的信息加入相似度匹配的衡量中,即使扩展问之间在文本本身的语义相似度较低,但是两个扩展问之间其上下文的相似度较高,也可以认为这两个扩展问具有比较高的相似度,这样的衡量策略可以有助于从待挖掘语料库的人人数据中挖掘到与种子文件中的数据在语义向量上相似度不是很高,但是在实际语义上十分相近的第二扩展问,使得构建的知识库中的第二扩展问更加准确且丰富。具体详见下述步骤:
在S2012之后,S2013,根据所述待挖掘语料库中任意一个语料文本的语义特征与每个所述第一扩展问的语义特征之间的第一相似度,对每个所述第一扩展问配置第一上文信息和/或第一下文信息;
其中,由于S2012~S2015中的语料文本优选为待挖掘语料库中的“用户输入”语料文本,即可能被挖掘到的第二扩展问。因此,后续均以“语料文本”为“用户输入”语料文本为例进行说明。
参将上文所述,在待挖掘语料库中的人人数据中,每个可能被挖掘到的第二扩展问都是具有上文信息和/或下文信息的,但是种子文件中各个标准问下的第一扩展问并不具有上文信息,也不具有下文信息,因此,本步骤,需要对种子文件中的每个第一扩展问配置上文信息/或下文信息。这里为了便于区分,将待挖掘语料库中的语料文本的上文信息叫做第二上文信息,下文信息叫做第二下文信息,将种子文件中的第一扩展问的上文信息叫做第一上文信息,下文信息叫做第一下文信息。
那么在配置上文信息和/或下文信息时,由于S2012已经得到所述待挖掘语料库中任意一个语料文本的语义特征与种子文件中每个所述第一扩展问的语义特征之间的第一相似度,那么利用上述多个第一相似度,对于种子文件中的任意一个第一扩展问,例如扩展问1,可以在待挖掘语料库的多个语料文本中识别出语义特征与该扩展问1的语义特征的第一相似度最高的语料文本,例如,“用户输入”文本1。
然后,就可以将该“用户输入”文本1在待挖掘语料库中的上文信息(例如上一个会话中的“客服回答”语料文本1),配置为该种子文件中的扩展问1的第一上文信息,和/或,将该“用户输入”文本1在待挖掘语料库中的下文信息(例如本次会话中的“客服回答”语料文本2),配置为该种子文件中的扩展问1的第一下文信息。
这样,可以对种子文件中的每个第一扩展问配置上文信息和/或下文信息,而其上文信息和/或下文信息,就是待挖掘语料库中与该第一扩展问在文本上的语义特征最相似的语料文本的上文信息/或下文信息。
需要说明的是,如果与第一扩展问语义最相似的语料文本不具有上文信息,则不对该第一扩展问配置上文信息,类似的,如果与第一扩展问语义最相似的语料文本不具有下文信息,则不对该第一扩展问配置下文信息。
另外,对于一个语料文本的上文信息、下文信息的范围而言,可以通过窗口W1来确定该语料文本的上文信息包括哪些语句,以及下文信息包括哪些语句。
例如待挖掘语料库中的人人数据中,按照文本生成时间从早到晚的顺序,依次包括会话1(用户输入1,客服回答1)、会话2(用户输入2,客服回答2)、会话3(用户输入3,客服回答3)、会话4(用户输入4,客服回答4)。
以用户输入3为例,则其所有上文信息包括用户输入1,客服回答1、用户输入2,客服回答2,其所有下文信息包括客服回答3、用户输入4,客服回答4。
因此,待挖掘语料库中人人数据的语料文本的上文信息可以是零个,或零个以上,其下文信息也可以是零个,或零个以上,但是,上文信息和下文信息中只有一个信息的数量可以是零个。例如用户输入1的上文信息为零个,而下文信息有很多;再如客服回答4的上文信息有很多个,下文信息的数量为零个。
由上述描述可知,在待挖掘语料库中一个语料文本的上文信息、下文信息的数量是比较灵活的,而为了在进行第二扩展问的挖掘时,确保待挖掘语料库中每个“用户输入”语料文本的被挖掘的概率是较为均衡的,可以通过设置窗口W1的大小,来灵活的对种子文件中的每个第一扩展问配置上文信息和/或下文信息,此外,该窗口W1的大小,也是确定待挖掘语料库中每个语料文本的上文信息和/或下文信息的数量的条件。
其中,窗口W1的数值表示上文信息、下文信息的各自最大数量,且在确定上文信息、下文信息时,以时间就近的原则来确定。
例如W1=1,表示上文信息的数量最多为一个,下文信息的数量也最多为一个,用户输入3的上文信息为客服回答2,其下文信息为客服回答3;
再如W1=2,表示上文信息的数量最多为2个,下文信息的数量也最多为2个,用户输入3的上文信息包括客服回答2以及用户输入2,其下文信息包括客服回答3以及用户输入4。
例如,种子文件中的扩展问2与待挖掘语料库中的用户输入3之间的语义特征的第一相似度最高,因此,需要将用户输入3的上文信息、下文信息配置给扩展问2,而在确定用户输入3的上文信息和下文信息时,则可以利用窗口W1的数值,例如W1=1,则将客服回答2配置为扩展问2的上文信息,将客服回答3配置为扩展问2的下文信息;再如W1=2,则将客服回答2以及用户输入2配置为扩展问2的上文信息,将客服回答3以及用户输入4配置为扩展问2的下文信息。
当然,在本步骤中也可以不设置窗口W1,而在对一个第一扩展问配置其上文信息和/或下文信息时,将待挖掘语料库中与该第一扩展问语义特征最相似的语料文本的所有/部分上文信息(其中,部分上文信息,即为待挖掘语料库中距离该语料文本时间最近的一个上文信息)均配置为该第一扩展问的上文信息,以及将该语义特征最相似的语料文本的所有/部分下文信息(其中,部分下文信息,即为待挖掘语料库中距离该语料文本时间最近的一个下文信息)均配置为该第一扩展问的下文信息。
这样,本发明实施例通过将种子文件中的第一扩展问与待挖掘语料库中的语料文本进行遍历匹配,从而可以构建出包括上下文信息的种子文件。
S2014,计算所述任意一个语料文本的第二上文信息,与每个所述第一扩展问的第一上文信息之间的第二语义相似度,和/或,计算所述任意一个语料文本的第二下文信息,与每个所述第一扩展问的第一下文信息之间的第三语义相似度;
其中,上述S2011和S2012阐述了如何计算语料文本与第一扩展问在这两个文本之间的语义相似度,那么本步骤中,在计算所述任意一个语料文本的第二上文信息,与每个所述第一扩展问的第一上文信息之间的第二语义相似度时;和/或,在计算所述任意一个语料文本的第二下文信息,与每个所述第一扩展问的第一下文信息之间的第三语义相似度时,与上述计算第一相似度的原理是类似的,具体可以参照S2011和S2012。
区别在于,输入至预先经过训练的语义模型中的文本数据从语料文本、第一扩展问,更换为语料文本的第二上文信息、第一扩展问的第一上文信息,从而可以计算得到任意一个语料文本的第二上文信息的语义特征与每个第一扩展问的第一上文信息的语义特征之间的第二语义相似度;和/或,输入至预先经过训练的语义模型中的文本数据从语料文本、第一扩展问,更换为语料文本的第二下文信息、第一扩展问的第一下文信息,从而可以计算得到任意一个语料文本的第二下文信息的语义特征与每个第一扩展问的第一下文信息的语义特征之间的第三语义相似度。
此外,需要说明的是,由于不论是语料文本,还是第一扩展问,其上文信息、下文信息都可以是多个,且每个语料文本的上文信息的数量与每个第一扩展问的上文信息的数量之间有的相同,有的不同。
因此,可以灵活设置窗口W2的大小,只在该窗口W2大小范围内来对语料文本的上文信息与第一扩展问的上文信息进行语义特征的匹配,以及在该窗口W2大小范围内来对语料文本的下文信息与第一扩展问的下文信息进行语义特征的匹配,而在将待挖掘语料库中的任意一个语料文本的上文信息/下文信息,与种子文件中的每个第一扩展问的上文信息/下文信息遍历进行相似度的计算过程中,窗口W2的取值旨在使进行相似度计算的两个文本的上文信息的数量是相同的,以及使进行相似度计算的两个文本的下文信息的数量是相同的。
该窗口W2使用方法与上述窗口W1的使用原理是类似,都是距离文本最近的W2个上文信息,或最近的W2个下文信息。
继续以上述会话1~会话3来举例说明,例如在将用户输入3的上文信息与第一扩展问3的上文信息进行语义特征的相似度计算时,本次W2=2,例如第一扩展问3原本被配置有3个上文信息,距离该第一扩展问3时间由近到远依次为上文信息1、上文信息2和上文信息3,则这里在进行相似度计算时,由于W2=2,因此,只计算用户输入3的上文信息(包括客服回答2、用户输入2)与第一扩展问3的上文信息(包括上文信息1、上文信息2)之间的第二语义相似度。
具体为,利用经过训练的语义模型获取客服回答2的语义特征1、获取用户输入2的语义特征2、获取上文信息1的语义特征3、获取上文信息2的语义特征4,由于语义特征的表现形式为向量,因此,可以对语义特征1和语义特征2作向量求和,得到用户输入3这一语料文本的上文信息的语义特征O1,以及对语义特征3和语义特征4作向量求和,得到第一扩展问3的上文信息的语义特征O2,然后计算用户输入3的上文信息的语义特征O1与第一扩展问3的语义特征O2之间的cosine值,得到第二语义相似度:
对于下文信息之间的第三语义相似度的原理与这里举例的上文信息之间的第二语义相似度的计算原理类似,也是将多个下文信息的语义特征求和,来作为文本的下文信息的语义特征,这里不再赘述。
另外,由于每次计算语义相似度时的窗口W2的大小可以不同,例如在计算用户输入3的下文信息与第一扩展问3的下文信息的第三语义相似度时,W2的取值为1。
在上述过程中,当第一扩展问,或语料文本的上文信息/下文信息的数量为多个时,该第一扩展问的语义特征为其所有上文信息/下文信息的语义特征的和,该语料文本的语义特征为其所有上文信息/下文信息的语义特征的和;而在计算该第一扩展问与该语料文本之间的第二语义相似度,或第三语义相似度时,则是对求和后的语义特征进行cosine值的计算。
此外,需要说明的是,由于本实施例中输入到预先经过训练的语义模型的文本数据包括人人数据中“用户输入”语料文本的上下文信息,而其上下文信息则可以包括“客服回答”语料文本,因此,该语义模型的训练数据需要包括人人数据,这样,上述上下文信息输入到语义模型后,才可以准确的识别到上文信息的语义特征、下文信息的语义特征。
S2015,对待挖掘语料库中所述任意一个语料文本与所述每个所述第一扩展问之间的所述第一相似度、所述第二语义相似度和/或所述第三语义相似度进行加权求和,得到所述待挖掘语料库中所述任意一个语料文本与所述每个所述第一扩展问之间的第一语义相似度。
其中,第一相似度表达了两个文本之间的语义相似度,而第二语义相似度表达了两个文本的上文信息之间的语义相似度,而第三语义相似度则表达了两个文本的下文信息之间的语义相似度。
由于并非所有语料文本、所有第一扩展问均既有上文信息,也有下文信息,因此,这里的第二语义相似度与第三语义相似度之间是和/或的情况,但是第一相似度是必有的。
在窗口W2大小范围内,假设种子文件中扩展问qi的上文信息经过语义模型抽取向量后的向量和为LSTM(qpre_i),扩展问qi的下文信息经过语义模型抽取向量后的向量和为LSTM(qnext_i);同理可得待挖掘语料库中语料文本pi的上文信息经过语言模型抽取向量后的向量和为LSTM(ppre_i),语料文本pi的下文信息经过语义模型抽取向量后的向量和为LSTM(pnext_i),则计算扩展问qi与语料文本pi的第一语义相似度的方法如公式1所示:
Figure BDA0001916275890000231
两个weight是预先配置的两个权重,而这里上文信息和下文信息的权重都是0.5,当然也可以根据需要设置不同的权重,但是上文信息的权重和下文信息的权重之和需要为1。
其中,当扩展问qi与语料文本pi之间不具有上文信息之间的第二语义相似度时,则公式1中的
Figure BDA0001916275890000241
的取值为0,当扩展问qi与语料文本pi之间不具有下文信息之间的第三语义相似度时,则公式1中的
Figure BDA0001916275890000242
的取值为0。
这样,在本发明实施例中,在对待挖掘语料库中的人人数据(包括上下文信息)挖掘能够命中种子文件中的标准问的第二扩展问时,并不会仅仅用种子文件中第一扩展问与待挖掘语料库中的语料文本(例如“用户输入”语料文本)在文本上的第一相似度来作为二者的第一语义相似度的衡量方法,而且还可以将上下文的信息加入第一语义相似度的衡量中,那么即使第一扩展问与语料文本之间在文本本身方面的语义相似度较低,但是第一扩展问与语料文本之间各自上下文的相似度较高,也可以认为第一扩展问与语料文本具有比较高的相似度,这样的衡量策略可以有助于从待挖掘语料库的人人数据中挖掘到与种子文件中的数据在语义向量上相似度不是很高,但是在实际语义上十分相近的第二扩展问,使得构建的知识库中的第二扩展问更加准确且丰富。
综上,当语义模型的训练数据包括人人数据,或者进一步包括人机数据时,那么对于待挖掘语料库中的人机数据,或人人数据,可以利用语义模型来使用两个文本之间的向量匹配的方式对待挖掘语料库中的人机数据或人人数据进行第二扩展问的挖掘,对于待挖掘语料库中的人人数据,还可以利用语义模型对两个文本之间的向量匹配、以及两个文本的上下文之间的向量匹配的方式来对待挖掘语料库中的人人数据进行第二扩展问的挖掘。
可选地,在执行S202时,可以通过以下S2021~S2024来实现:
S2021,根据所述待挖掘语料库中任意一个语料文本pi与每个所述第一扩展问之间的第一语义相似度,识别数值最大的N个第一语义相似度,以及所述N个第一语义相似度对应的N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N};
具体而言,假设待挖掘语料库中的语料文本集合为P={p1,p2,p3,...,py},其中,语料文本集合中的任意一个语料文本记为pi
种子文件中的标准问集合为S={S1,S2,S3,...,Sh},种子文件中第i个标准问Si关联的k个第一扩展问表示为Si={qi,1,qi,2,qi,3,...,qi,k};
对待挖掘语料库(可选地,当存在多个待挖掘语料库时,则对每个待挖掘语料库都进行类似的操作即可)中的语料文本pi与种子文件中的所有第一扩展问之间的多个第一语义相似度,识别出第一语义相似度最高的N个第一语义相似度,其中,N为预先配置的参数。那么这N个第一语义相似度即对应于种子文件中的N个第一扩展问,这里将该语料文本pi在种子文件中命中的第一语义相似度前N高的N个第一扩展问构成的集合记为{q′1,q′2,q′3,...,q′N},可以从种子文件中获取这N个第一扩展问,加入到候选列表中。
S2022,识别与所述N个第一扩展问关联的M个标准问构成的集合{S′1,S′2,S′3,...,S′M},其中,0<M≤N,M和N均为整数;
其中,可以在种子文件中识别与上述N个第一扩展问分别关联的标准问,那么N个第一扩展问关联的标准问的集合记为{S′1,S′2,S′3,...,S′M},可以将这N个第一扩展问关联的标准问集合{S′1,S′2,S′3,...,S′M}也加入候选列表中。
其中,M≤N的原因在于筛选出的一些第一扩展问可能对应同一个标准问。
S2023,根据所述N个第一语义相似度、所述N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N},计算所述M个标准问构成的集合{S′1,S′2,S′3,...,S′M}中每个标准问S′i的得分;
可选地,在执行S2023时,可以通过S301~S302来实现:
S301,识别所述N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N}中,与每个标准问S′i关联的第一扩展问,其中,与每个标准问S′i关联的第一扩展问构成的集合为{q′i,1,q′i,2,q′i,3,…,q′i,t},其中,t≤N;
其中,虽然语料文本pi在种子文件中命中了N个第一扩展问以及M个标准问,但是这N个第一扩展问中与M个标准问中各个标准问相关联的第一扩展问的数量是存在差异的,因此,本步骤需要在N个第一扩展问中识别出,与各个标准问S′i分别关联的第一扩展问,需要说明的是,在种子文件中,一个第一扩展问只与一个标准问关联。
这里,将与标准问S′i关联的被筛选出的t个第一扩展问构成的集合记为{q′i,1,q′i,2,q′i,3,...,q′i,t},即,这个标准问S′i的哪t个第一扩展问被语料文本pi匹配到了。由于N个第一扩展问构成的集合命中了M个标准问,因此,M个标准问中的每个标准问在该第一扩展问的集合中至少具有与之关联的一个第一扩展问,所以t≤N。当然,不同标准问下的各个集合{q′i,1,q′i,2,q′i,3,...,q′i,t}之间,t的取值不一定相同。
S302,根据所述语料文本pi与所述集合{q′i,1,q′i,2,q′i,3,...,q′i,t}中的每个第一扩展问q′i,j之间的第一语义相似度计算所述标准问S′i的得分SCORE(S′i)。
可选地,可以按照如下公式2来计算所述标准问S′i的得分SCORE(S′i)。
当然,在其他实施例中,也可以采用其他方式进行计算,本发明对此并不做限制。
Figure BDA0001916275890000261
其中,cosinei,j为所述语料文本pi与所述第一扩展问q′i,j之间的第一语义相似度。
举例说明,语料文本1在种子文件中匹配到的第一语义相似度最高的N(例如N=3)个第一扩展问分别为扩展问1、扩展问2和扩展问3,第一语义相似度依次为0.8、0.7、0.6,而这三个扩展问分别与种子文件中的标准问1、标准问1和标准问2相关联,即语料文本1在种子文件中命中了标准问1下的扩展问1和扩展问2,以及命中了标准问2下的扩展问3。因此,需要计算标准问1的得分和标准问2的得分。
如上述所述,语料文本1与标准问1下的扩展问1的第一语义相似度为0.8,与扩展问2的第一语义相似度为0.7,那么根据上述公式2可知标准问1的得分SCORE1为:
Figure BDA0001916275890000262
其中,t=2,N=3;
如上述所述,语料文本1与标准问2下的扩展问3的第一语义相似度为0.6,类似的采用上述公式2计算标准问2的得分SCORE2为:
Figure BDA0001916275890000263
其中,t=1,N=3。
这样,本发明实施例在计算待挖掘语料库中的语料文本命中的M个标准问中每个标准问的得分时,可以通过利用该语料文本与匹配到的N个第一扩展问之间的N个第一语义相似度,以及该语料文本在命中的每个标准问下命中的t个第一扩展问,来计算每个标准问的得分,确保了各个标准问得分的准确性。
S2024,若M个标准问中得分最高的标准问对应的得分大于预设阈值,则从所述待挖掘语料库中挖掘所述语料文本pi,并将所述得分最高的标准问识别为与所述语料文本pi语义匹配的标准问,其中,挖掘得到的所述语料文本pi记为挖掘得到的第二扩展问pi
其中,本发明实施例预先可以配置分数的预设阈值,例如0.6。继续以上述SCORE1和SCORE2来说明,语料文本1命中的两个标准问的两个得分中,得分最高的是标准问1的得分SCORE1,其数值等于1,显然其大于0.6,那么就可以将该标准问1确定为种子文件中与该语料文本1语义匹配的标准问,而这个语料文本1就是从待挖掘语料库中被挖掘到的第二扩展问,相应的,在执行步骤103时,即可以将该语料文本1从待挖掘语料库中转移到种子文件中,并与种子文件中的标准问1相关联存储,即达到了对种子文件1中的标准问1下的扩展问进行扩充的目的,关联存储后的语料文本1则记为第一扩展问,从而进行下一轮的挖掘。
再如,例如上述SCORE1和SCORE2的数值分别为0.5和0.4,而预设阈值为0.6,则语料文本1在种子文件中命中的两个标准问中,标准问的最高得分也是小于该预设阈值0.6的,那么本轮挖掘中不对语料文本1进行挖掘。相反,只对那些命中标准问的最高得分大于预设阈值的语料文本进行挖掘,将挖掘到的语料文本作为扩充至种子文件中的第二扩展问。
这样,本发明实施例将语料文本与种子文件中第一扩展问的第一语义相似度处于前N个最大的第一语义相似度所命中的N个第一扩展问,作为与该语料文本命中的N个第一扩展问,并识别该N个第一扩展问命中的M个标准问,从而根据该语料文本在每个标准问下命中的多个第一扩展问对应的第一语义相似度,来计算命中的每个标准问的得分,并在最高得分大于预设阈值的情况下,才会将该语料文本从待挖掘语料库中挖掘出来,并作为该最高得分的标准问下扩充的第二扩展问,从而丰富了该种子文件中,该最高得分的标准问下的扩展问,针对待挖掘语料库中的其他语料文本也是采用上述方法进行挖掘。相反,如果该语料文本命中的标准问中,标准问的最高得分也是小于预设阈值的,则不对该语料文本进行挖掘。这种知识库的自动构建方法不仅节约了成本,还可以保证构建的知识库的质量以及构建效率。
借助于本发明实施例的上述知识库的构建方案,能够在待构建知识库中只有少量标准问和少量扩展问的冷启动场景下(表示数据单薄)场景下利用语义模型进行迭代挖掘,且只需要使用知识库中少量的标注数据(标准问以及少量第一扩展问),就可以直接从海量人人或人机数据中快速的挖掘出上述各个标准问下的大量的扩展问,从而得到高质量数据,能够快速丰富知识库中的标准问包含的扩展问的数目,形成了有效闭环,具有易用和可推广性,且能够在短时间内取得很好的效果。
此外,本发明实施例对于挖掘出的扩展问,可进行下一步的数据优化,为智能知识库的数据处理,以及后期完善提供了分析基础。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
与上述本发明实施例所提供的方法相对应,参照图3,示出了本发明一种知识库构建装置实施例的结构框图,具体可以包括如下模块:
获取模块31,用于获取待构建知识库中已有的标准问以及与所述标准问关联的第一扩展问;
挖掘模块32,用于根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
构建模块33,用于将所述第二扩展问从所述待挖掘语料库中转移存储至所述待构建知识库中,并将所述第二扩展问及与该第二扩展问语义匹配的所述标准问相关联,其中,存储至所述待构建知识库中的所述第二扩展问记为第一扩展问。
可选地,所述挖掘模块32包括:
计算子模块,用于计算待挖掘语料库中任意一个语料文本与每个所述第一扩展问之间的第一语义相似度;
挖掘子模块,用于根据所述第一语义相似度,从所述待挖掘语料库中的多个语料文本中挖掘第二扩展问,以及在所述标准问中识别与所述第二扩展问语义匹配的标准问。
可选地,所述计算子模块包括:
输入单元,用于将待挖掘语料库中的每个语料文本,以及每个所述第一扩展问,分别输入至预先经过训练的语义模型,得到每个语料文本的语义特征,以及每个所述第一扩展问的语义特征;
第一计算单元,用于计算所述待挖掘语料库中任意一个语料文本的语义特征与每个所述第一扩展问的语义特征之间的第一相似度。
可选地,所述待挖掘语料库包括每个所述语料文本的第二上文信息和/或第二下文信息;
相应的,所述计算子模块还包括:
配置单元,用于根据所述待挖掘语料库中任意一个语料文本的语义特征与每个所述第一扩展问的语义特征之间的第一相似度,对每个所述第一扩展问配置第一上文信息和/或第一下文信息;
第二计算单元,用于计算所述任意一个语料文本的第二上文信息,与每个所述第一扩展问的第一上文信息之间的第二语义相似度,和/或,计算所述任意一个语料文本的第二下文信息,与每个所述第一扩展问的第一下文信息之间的第三语义相似度;
第三计算单元,用于对待挖掘语料库中所述任意一个语料文本与所述每个所述第一扩展问之间的所述第一相似度、所述第二语义相似度和/或所述第三语义相似度进行加权求和,得到所述待挖掘语料库中所述任意一个语料文本与所述每个所述第一扩展问之间的第一语义相似度。
可选地,所述挖掘子模块包括:
第一识别单元,用于根据所述待挖掘语料库中任意一个语料文本pi与每个所述第一扩展问之间的第一语义相似度,识别数值最大的N个第一语义相似度,以及所述N个第一语义相似度对应的N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N};
第二识别单元,用于识别与所述N个第一扩展问关联的M个标准问构成的集合{S′1,S′2,S′3,...,S′M},其中,0<M≤N,M和N均为整数;
第四计算单元,用于根据所述N个第一语义相似度、所述N个第一扩展问构成的集合{q′1,q′2,q′3,…,q′N},计算所述M个标准问构成的集合{S′1,S′2,S′3,...,S′M}中每个标准问S′i的得分;
挖掘单元,用于若M个标准问中得分最高的标准问对应的得分大于预设阈值,则从所述待挖掘语料库中挖掘所述语料文本pi,并将所述得分最高的标准问识别为与所述语料文本pi语义匹配的标准问,其中,挖掘得到的所述语料文本pi记为挖掘得到的第二扩展问pi
可选地,所述第四计算单元包括:
识别子单元,用于识别所述N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N}中,与每个标准问S′i关联的第一扩展问,其中,与每个标准问S′i关联的第一扩展问构成的集合为{q′i,1,q′i,2,q′i,3,…,q′i,t},其中,t≤N;
计算子单元,用于根据所述语料文本pi与所述集合{q′i,1,q′i,2,q′i,3,…,q′i,t}中的每个第一扩展问q′i,j之间的第一语义相似度,计算所述标准问S′i的得分SCORE(S′i)。
可选地,所述获取模块31包括:
获取子模块,用于获取待构建知识库中已有的标准问以及与所述标准问关联的预设数量的第一扩展问;
存储子模块,用于将获取的所述标准问以及与所述标准问关联的预设数量的第一扩展问,存储在预设文件中;
所述挖掘模块32,还用于根据所述预设文件中的所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
所述构建模块33,还用于将所述第二扩展问从所述待挖掘语料库中转移存储至所述预设文件中,并将所述预设文件中与所述第二扩展问语义匹配的所述标准问,与所述第二扩展问相关联,其中,存储至所述预设文件中的所述第二扩展问记为所述第一扩展问。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
根据本发明的一个实施例,还提供了一种电子设备。
该电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的知识库构建程序,所述知识库构建程序被所述处理器执行时实现如上述任意一个实施例所述的知识库构建方法的步骤。
根据本发明的一个实施例,还提供了一种计算机可读存储介质。
该计算机可读存储介质上存储有知识库构建程序,所述知识库构建程序被处理器执行时实现如述任意一个实施例所述的知识库构建方法中的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种知识库构建方法和一种知识库构建装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种知识库构建方法,其特征在于,包括:
获取待构建知识库中已有的标准问以及第一扩展问,所述第一扩展问是与所述标准问语义相似且语义信息更丰富的自然语言;
根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
将所述第二扩展问从所述待挖掘语料库中转移存储至所述待构建知识库中,并将所述第二扩展问及与该第二扩展问语义匹配的所述标准问相关联,其中,存储至所述待构建知识库中的所述第二扩展问记为第一扩展问;
其中,所述根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问,包括:
计算待挖掘语料库中任意一个语料文本与每个所述第一扩展问之间的第一语义相似度,所述第一语义 相似度包括:所述语料文本与所述第一扩展问的语义相似度、所述语料文本的上文与所述第一扩展问上文的相似度、所述语料文本的下文与所述第一扩展问下文的相似度;
根据所述第一语义相似度选择多个第一扩展问,构成第一扩展问集合;
依据所述第一扩展问集合对应的所有标准问,构建所述语料文本的标准问集合;
对所述标准问集合中的每一个标准问,建立其的关联集合,所述关联集合包括:所有关联的第一扩展问、所述关联的第一扩展问的第一语义相似度;
依据所述标准问集合的所有关联集合,计算所述标准问集合中的每一个标准问与所述语料文本的相似度得分;
将所述语料文本记为所述相似度最高的标准问的第二扩展问。
2.根据权利要求1所述的方法,其特征在于,所述计算待挖掘语料库中任意一个语料文本与每个所述第一扩展问之间的第一语义相似度,包括:
将待挖掘语料库中的每个语料文本,以及每个所述第一扩展问,分别输入至预先经过训练的语义模型,得到每个语料文本的语义特征,以及每个所述第一扩展问的语义特征;
计算所述待挖掘语料库中任意一个语料文本的语义特征与每个所述第一扩展问的语义特征之间的第一相似度。
3.根据权利要求2所述的方法,其特征在于,所述待挖掘语料库包括每个所述语料文本的第二上文信息和/或第二下文信息;
所述计算待挖掘语料库中任意一个语料文本与每个所述第一扩展问之间的第一语义相似度,还包括:
根据所述待挖掘语料库中任意一个语料文本的语义特征与每个所述第一扩展问的语义特征之间的第一相似度,对每个所述第一扩展问配置第一上文信息和/或第一下文信息;
计算所述任意一个语料文本的第二上文信息,与每个所述第一扩展问的第一上文信息之间的第二语义相似度;和/或,计算所述任意一个语料文本的第二下文信息,与每个所述第一扩展问的第一下文信息之间的第三语义相似度;
对待挖掘语料库中所述任意一个语料文本与所述每个所述第一扩展问之间的所述第一相似度、所述第二语义相似度和/或所述第三语义相似度进行加权求和,得到所述待挖掘语料库中所述任意一个语料文本与所述每个所述第一扩展问之间的第一语义相似度。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一语义相似度,从所述待挖掘语料库中的多个语料文本中挖掘第二扩展问,以及在所述标准问中识别与所述第二扩展问语义匹配的标准问,包括:
根据所述待挖掘语料库中任意一个语料文本pi与每个所述第一扩展问之间的第一语义相似度,识别数值最大的N个第一语义相似度,以及所述N个第一语义相似度对应的N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N};
识别与所述N个第一扩展问关联的M个标准问构成的集合{S′1,S′2,S′3,...,S′M},其中,0<M≤N,M和N均为整数;
根据所述N个第一语义相似度、所述N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N},计算所述M个标准问构成的集合{S′1,S′2,S′3,...,S′M}中每个标准问S′i的得分;
若M个标准问中得分最高的标准问对应的得分大于预设阈值,则从所述待挖掘语料库中挖掘所述语料文本pi,并将所述得分最高的标准问识别为与所述语料文本pi语义匹配的标准问,其中,挖掘得到的所述语料文本pi记为挖掘得到的第二扩展问pi
5.根据权利要求4所述的方法,其特征在于,所述根据所述N个第一语义相似度、所述N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N},计算所述M个标准问构成的集合{S′1,S′2,S′3,...,S′M}中每个标准问S′i的得分,包括:
识别所述N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N}中,与每个标准问S′i关联的第一扩展问,其中,与每个标准问S′i关联的第一扩展问构成的集合为{q′i,1,q′i,2,q′i,3,…,q′i,t},其中,t≤N;
根据所述语料文本pi与所述集合{q′i,1,q′i,2,q′i,3,…,q′i,t}中的每个第一扩展问q′i,j之间的第一语义相似度,计算所述标准问S′i的得分SCORE(S′i)。
6.根据权利要求1所述的方法,其特征在于,
所述获取待构建知识库中已有的标准问以及与所述标准问关联的第一扩展问,包括:
获取待构建知识库中已有的标准问以及与所述标准问关联的预设数量的第一扩展问;
将获取的所述标准问以及与所述标准问关联的预设数量的第一扩展问,存储在预设文件中;
所述根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问,包括:
根据所述预设文件中的所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
所述将所述第二扩展问从所述待挖掘语料库中转移存储至所述待构建知识库中,并将所述第二扩展问与语义匹配的所述标准问相关联,包括:
将所述第二扩展问从所述待挖掘语料库中转移存储至所述预设文件中,并将所述预设文件中与所述第二扩展问语义匹配的所述标准问,与所述第二扩展问相关联,其中,存储至所述预设文件中的所述第二扩展问记为所述第一扩展问。
7.一种知识库构建装置,其特征在于,包括:
获取模块,用于获取待构建知识库中已有的标准问以及第一扩展问,所述第一扩展问是与所述标准问语义相似且语义信息更丰富的自然语言;
挖掘模块,用于根据所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
构建模块,用于将所述第二扩展问从所述待挖掘语料库中转移存储至所述待构建知识库中,并将所述第二扩展问及与该第二扩展问语义匹配的所述标准问相关联,其中,存储至所述待构建知识库中的所述第二扩展问记为第一扩展问;
其中,所述挖掘模块包括:
计算子模块,用于计算待挖掘语料库中任意一个语料文本与每个所述第一扩展问之间的第一语义相似度,所述第一语义 相似度包括以下至少一者:所述语料文本与所述第一扩展问的语义相似度、所述语料文本的上文与所述第一扩展问上文的相似度、所述语料文本的下文与所述第一扩展问下文的相似度;
第一扩展问集合构建子模块,用于根据所述第一语义相似度选择多个第一扩展问,构成第一扩展问集合;
标准问集合构建子模块,用于依据所述第一扩展问集合对应的所有标准问,构建所述语料文本的标准问集合;
关联集合构建子模块,用于对所述标准问集合中的每一个标准问,建立其的关联集合,所述关联集合包括:所有关联的第一扩展问、所述关联的第一扩展问的第一语义相似度;
识别子模块,用于依据所述标准问集合的所有关联集合,计算所述标准问集合中的每一个标准问与所述语料文本的相似度得分;
挖掘子模块,用于将所述语料文本记为所述相似度最高的标准问的第二扩展问。
8.根据权利要求7所述的装置,其特征在于,所述计算子模块包括:
输入单元,用于将待挖掘语料库中的每个语料文本,以及每个所述第一扩展问,分别输入至预先经过训练的语义模型,得到每个语料文本的语义特征,以及每个所述第一扩展问的语义特征;
第一计算单元,用于计算所述待挖掘语料库中任意一个语料文本的语义特征与每个所述第一扩展问的语义特征之间的第一相似度。
9.根据权利要求8所述的装置,其特征在于,所述待挖掘语料库包括每个所述语料文本的第二上文信息和/或第二下文信息;
所述计算子模块还包括:
配置单元,用于根据所述待挖掘语料库中任意一个语料文本的语义特征与每个所述第一扩展问的语义特征之间的第一相似度,对每个所述第一扩展问配置第一上文信息和/或第一下文信息;
第二计算单元,用于计算所述任意一个语料文本的第二上文信息,与每个所述第一扩展问的第一上文信息之间的第二语义相似度,和/或,计算所述任意一个语料文本的第二下文信息,与每个所述第一扩展问的第一下文信息之间的第三语义相似度;
第三计算单元,用于对待挖掘语料库中所述任意一个语料文本与所述每个所述第一扩展问之间的所述第一相似度、所述第二语义相似度和/或所述第三语义相似度进行加权求和,得到所述待挖掘语料库中所述任意一个语料文本与所述每个所述第一扩展问之间的第一语义相似度。
10.根据权利要求7所述的装置,其特征在于,所述挖掘子模块包括:
第一识别单元,用于根据所述待挖掘语料库中任意一个语料文本pi与每个所述第一扩展问之间的第一语义相似度,识别数值最大的N个第一语义相似度,以及所述N个第一语义相似度对应的N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N};
第二识别单元,用于识别与所述N个第一扩展问关联的M个标准问构成的集合{S′1,S′2,S′3,...,S′M},其中,0<M≤N,M和N均为整数;
第四计算单元,用于根据所述N个第一语义相似度、所述N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N},计算所述M个标准问构成的集合{S′1,S′2,S′3,...,S′M}中每个标准问S′i的得分;
挖掘单元,用于若M个标准问中得分最高的标准问对应的得分大于预设阈值,则从所述待挖掘语料库中挖掘所述语料文本pi,并将所述得分最高的标准问识别为与所述语料文本pi语义匹配的标准问,其中,挖掘得到的所述语料文本pi记为挖掘得到的第二扩展问pi
11.根据权利要求10所述的装置,其特征在于,所述第四计算单元包括:
识别子单元,用于识别所述N个第一扩展问构成的集合{q′1,q′2,q′3,...,q′N}中,与每个标准问S′i关联的第一扩展问,其中,与每个标准问S′i关联的第一扩展问构成的集合为{q′i,1,q′i,2,q′i,3,…,q′i,t},其中,t≤N;
计算子单元,用于根据所述语料文本pi与所述集合{q′i,1,q′i,2,q′i,3,…,q′i,t}中的每个第一扩展问q′i,j之间的第一语义相似度,计算所述标准问S′i的得分SCORE(S′i)。
12.根据权利要求7所述的装置,其特征在于,
所述获取模块包括:
获取子模块,用于获取待构建知识库中已有的标准问以及与所述标准问关联的预设数量的第一扩展问;
存储子模块,用于将获取的所述标准问以及与所述标准问关联的预设数量的第一扩展问,存储在预设文件中;
所述挖掘模块,还用于根据所述预设文件中的所述标准问和所述第一扩展问,从待挖掘语料库中挖掘与所述标准问和所述第一扩展问语义匹配的第二扩展问;
所述构建模块,还用于将所述第二扩展问从所述待挖掘语料库中转移存储至所述预设文件中,并将所述预设文件中与所述第二扩展问语义匹配的所述标准问,与所述第二扩展问相关联,其中,存储至所述预设文件中的所述第二扩展问记为所述第一扩展问。
CN201811574181.3A 2018-12-21 2018-12-21 知识库构建方法和装置 Active CN109800879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811574181.3A CN109800879B (zh) 2018-12-21 2018-12-21 知识库构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811574181.3A CN109800879B (zh) 2018-12-21 2018-12-21 知识库构建方法和装置

Publications (2)

Publication Number Publication Date
CN109800879A CN109800879A (zh) 2019-05-24
CN109800879B true CN109800879B (zh) 2022-02-01

Family

ID=66557387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811574181.3A Active CN109800879B (zh) 2018-12-21 2018-12-21 知识库构建方法和装置

Country Status (1)

Country Link
CN (1) CN109800879B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580339B (zh) * 2019-08-21 2023-04-07 华东理工大学 一种医疗术语知识库完善的方法和装置
CN111125374B (zh) * 2019-12-20 2022-12-06 科大讯飞股份有限公司 知识库构建方法、装置、电子设备和存储介质
US20210192327A1 (en) * 2019-12-24 2021-06-24 Industrial Technology Research Institute Apparatus and method for neural network computation
CN111125379B (zh) * 2019-12-26 2022-12-06 科大讯飞股份有限公司 知识库扩充方法、装置、电子设备和存储介质
CN113111155B (zh) * 2020-01-10 2024-04-19 阿里巴巴集团控股有限公司 信息展示方法、装置、设备及存储介质
CN113094351B (zh) * 2021-03-26 2024-02-06 鹏城实验室 一种工业自动化生产过程知识挖掘与迁移方法、智能终端及存储介质
CN113158688B (zh) * 2021-05-11 2023-12-01 科大讯飞股份有限公司 一种领域知识库构建方法、装置、设备及存储介质
US20230259791A1 (en) * 2022-02-15 2023-08-17 International Business Machines Corporation Method and system to transfer learning from one machine to another machine

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN105488185A (zh) * 2015-12-01 2016-04-13 上海智臻智能网络科技股份有限公司 一种知识库的优化方法和装置
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106649742A (zh) * 2016-12-26 2017-05-10 上海智臻智能网络科技股份有限公司 数据库维护方法和装置
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646091B (zh) * 2011-02-22 2014-03-12 日电(中国)有限公司 依存关系标注方法、装置和系统
CN105678324B (zh) * 2015-12-31 2019-03-26 上海智臻智能网络科技股份有限公司 基于相似度计算的问答知识库的建立方法、装置及系统
CN108804567A (zh) * 2018-05-22 2018-11-13 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678316A (zh) * 2012-08-31 2014-03-26 富士通株式会社 实体关系分类装置和实体关系分类方法
CN105488185A (zh) * 2015-12-01 2016-04-13 上海智臻智能网络科技股份有限公司 一种知识库的优化方法和装置
CN105975460A (zh) * 2016-05-30 2016-09-28 上海智臻智能网络科技股份有限公司 问句信息处理方法及装置
CN106649742A (zh) * 2016-12-26 2017-05-10 上海智臻智能网络科技股份有限公司 数据库维护方法和装置
CN108268643A (zh) * 2018-01-22 2018-07-10 北京邮电大学 一种基于多粒度lstm网络的深层语义匹配实体链接方法

Also Published As

Publication number Publication date
CN109800879A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109800879B (zh) 知识库构建方法和装置
CN108334891B (zh) 一种任务型意图分类方法及装置
CN111192692B (zh) 一种实体关系的确定方法、装置、电子设备及存储介质
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN110910283A (zh) 生成法律文书的方法、装置、设备和存储介质
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN110750630A (zh) 一种生成式机器阅读理解方法、装置、设备及存储介质
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN112307048A (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN113342948A (zh) 一种智能问答方法及装置
CN116842152A (zh) 一种微调语言大模型的科技政策问答方法及装置
CN111881264A (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN113961686A (zh) 问答模型的训练方法及装置、问答方法及装置
CN111046674B (zh) 语义理解方法、装置、电子设备和存储介质
CN113033912A (zh) 问题解决人推荐方法及装置
CN117407502A (zh) 问答对抽取方法、装置、电子设备及存储介质
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114139535A (zh) 一种关键词造句方法、装置、计算机设备及可读介质
CN111090720B (zh) 一种热词的添加方法和装置
CN109815323B (zh) 一种人机交互训练问答生成算法
CN113761152A (zh) 一种问答模型的训练方法、装置、设备及存储介质
CN117153197B (zh) 语音情感识别方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant