CN111159373B - 智能问答系统的知识库建立方法、装置和存储介质 - Google Patents
智能问答系统的知识库建立方法、装置和存储介质 Download PDFInfo
- Publication number
- CN111159373B CN111159373B CN201911366503.XA CN201911366503A CN111159373B CN 111159373 B CN111159373 B CN 111159373B CN 201911366503 A CN201911366503 A CN 201911366503A CN 111159373 B CN111159373 B CN 111159373B
- Authority
- CN
- China
- Prior art keywords
- learned
- twin
- standard
- knowledge base
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种智能问答系统的知识库建立方法,针对知识库建立初期缺乏交互日志的应用场景,提高用于训练知识库的训练语料质量,以辅助智能问答系统准确理解用户意图。智能问答系统的知识库建立方法,包括:显示知识库中每一知识点对应的待学习标准问题;接收针对所述待学习标准问题所提供的若干条孪生问题;针对任一孪生问题,确定该孪生问题与所述待学习标准问题之间的第一相似度值;根据该孪生问题对应的第一相似度值,确定所述孪生问题对应的第一问题类型,所述第一问题类型包括:已会问题、待学习问题或者放弃问题;根据所述待学习标准问题、所述已会问题和所述待学习问题生成所述知识库的训练语料集合。
Description
背景技术
智能问答系统能完成与人之间对话,其涉及到语音识别、语音合成、自然语言处理等技术。简单点说,语音识别就是将人的声音转换成文字便于智能语音交互设备计算与理解;语音合成就是将智能语音交互设备要说的文字内容转换为声音;自然语言处理相当于智能语音交互设备的大脑,负责回答用户提问的问题。但是,由于汉语语言表达方式丰富,针对同一问题可以有不同的提问方式,例如,针对“天气怎么样”这一问题,可以有以下几种提问方式:“今天下雨吗”、“今天需要带伞吗”、“今天气温多少度”等等,这些问题均可以视为同一问题,其对应的问题答案是相同的,智能问答系统针对不同的提问方式提供正确答案的前提是其能够准确理解用户意图,而其理解用户意图是依赖预先建立的知识库,知识库中包含有针对同一知识点提供的问题样例。知识库中包含的问题样例越丰富,智能问答系统越能够准确地识别用户的不同提问方式。
目前,自然语言处理中使用自学习训练智能问答系统的知识库以获取丰富的问题样例,但是,通过机器学习的方法对智能问答系统的知识库进行训练依赖于训练语料的质量。当前,训练语料主要有两个来源,一是人工编写,二是从智能问答系统的交互日志中筛选,在智能问答系统的知识库建设初期,没有交互日志,只能依赖人工编写,受制于编写人的语言水平和经验,同一问题的不同提问方式仍然存在覆盖范围不足的问题,特别是一些生僻的提问方式无法覆盖,影响了训练语料的质量,由此可见,如何提高训练语料的质量成为提高智能问答系统准确理解用户意图的关键技术问题之一。
发明内容
本发明实施例提供了一种智能问答系统的知识库建立方法,针对知识库建立初期缺乏交互日志的应用场景,提高用于训练知识库的训练语料质量,以辅助智能问答系统准确理解用户意图。
第一方面,提供了一种智能问答系统的知识库建立方法,包括:
显示知识库中每一知识点对应的待学习标准问题;
接收针对所述待学习标准问题所提供的若干条孪生问题;
针对任一孪生问题,确定该孪生问题与所述待学习标准问题之间的相似度值;
根据该孪生问题对应的相似度值,确定所述孪生问题对应的问题类型,所述问题类型包括:已会问题、待学习问题或者放弃问题;
根据所述待学习标准问题、所述已会问题和所述待学习问题生成所述知识库的训练语料集合。
在一种实施方式中,显示知识库中每一知识点对应的待学习标准问题之前,还包括:
分别确定所述知识库中每一知识点对应的显示优先级;以及
显示知识库中每一知识点对应的待学习标准问题,具体包括:
按照知识库中每一知识点对应的显示优先级由高到低的顺序,显示知识库中每一知识点对应的待学习标准问题。
在一种实施方式中,针对每一知识点,所述知识库中包含若干条问题样例;以及
分别确定所述知识库中每一知识点对应的显示优先级,具体包括:
针对所述知识库中每一知识点,统计该知识点对应的问题样例数量;
根据所述问题样例数量和该知识点对应的待学习标准问题的字数,确定该知识点对应的显示优先级。
在每一种实施方式中,本发明实施例提供的智能问答系统的知识库建立方法,还包括:
根据所述孪生问题对应的问题类型,确定所述孪生问题对应的评价参数;
针对提供所述孪生问题的编辑用户,统计每一编辑用户对应的评价参数之和;
根据所述评价参数之和,确定每一编辑用户对应的分配优先级;
根据各编辑用户的分配优先级和所述知识库中各知识点对应的显示优先级,为编辑用户分配待学习标准问题;以及
接收针对所述待学习标准问题所提供的若干条孪生问题,具体包括:
接收所述编辑用户根据分配的待学习标准问题所提供孪生问题。
在一种实施方式中,根据该孪生问题对应的相似度值,确定所述孪生问题对应的问题类型,具体包括:
如果该孪生问题对应的相似度值大于第一预设阈值,则确定该孪生问题为放弃问题;
如果该孪生问题对应的相似度值小于等于第一预设阈值且大于第二预设阈值,则确定该孪生问题为已会问题;
如果该孪生问题对应的相似度值小于等于第二预设阈值,则确定该孪生问题为待学习问题。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立方法,还包括:
利用所述训练语料集合中包含的训练语料对问题扩展模型进行训练;
根据所述问题扩展模型的输出结果,将待学习问题划分为难学习问题和容易学习问题;
根据所述难学习问题生成参考问题,所述参考问题用于指导后续编辑用户编写孪生问题。
在一种实施方式中,根据所述问题扩展模型的输出结果,将待学习问题划分为难学习问题和容易学习问题,具体包括:
在所述待学习问题中查找是否存在与所述输出结果内容相同的待学习问题;
如果是,则确定相应的待学习问题为难学习问题;
如果否,则确定相应的待学习问题为容易学习问题。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立方法,还包括:
统计所述待学习标准问题所对应的知识点中待学习问题的数量;
如果待学习问题的数量在该知识点中的占比小于等于第三预设阈值,则从待学习标准问题集合中删除所述待学习标准问题。
第二方面,还提供了一种智能问答系统的知识库建立装置,包括:
显示单元,用于显示知识库中每一知识点对应的待学习标准问题;
第一接收单元,用于接收针对所述待学习标准问题所提供的若干条孪生问题;
第一确定单元,用于针对任一孪生问题,确定该孪生问题与所述待学习标准问题之间的相似度值;
第二确定单元,用于根据该孪生问题对应的相似度值,确定所述孪生问题对应的问题类型,所述问题类型包括:已会问题、待学习问题或者放弃问题;
第一生成单元,用于根据所述待学习标准问题、所述已会问题和所述待学习问题生成所述知识库中的训练语料集合。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立装置,还包括第三确定单元,其中:
所述第三确定单元,用于在所述显示单元显示知识库中每一知识点对应的待学习标准问题之前,分别确定所述知识库中每一知识点对应的显示优先级;
所示显示单元,用于按照知识库中每一知识点对应的显示优先级由高到低的顺序,显示知识库中每一知识点对应的待学习标准问题。
在一种实施方式中,针对每一知识点,所述知识库中包含若干条问题样例;以及
所述第三确定单元,具体用于针对所述知识库中每一知识点,统计该知识点对应的问题样例数量;根据所述问题样例数量和该知识点对应的待学习标准问题的字数,确定该知识点对应的显示优先级。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立装置,还包括第四确定单元、第一统计单元、第五确定单元和分配单元,其中:
所述第四确定单元,用于根据所述孪生问题对应的问题类型,确定所述孪生问题对应的评价参数;
所述第一统计单元,用于针对提供所述孪生问题的编辑用户,统计每一编辑用户对应的评价参数之和;
所述第五确定单元,用于根据所述评价参数之和,确定每一编辑用户对应的分配优先级;
所述分配单元,用于根据各编辑用户的分配优先级和所述知识库中各知识点对应的显示优先级,为编辑用户分配待学习标准问题;
所述第一接收单元,具体用于接收所述编辑用户根据分配的待学习标准问题所提供孪生问题。
在一种实施方式中,所述第一确定单元,具体用于如果该孪生问题对应的相似度值大于第一预设阈值,则确定该孪生问题为放弃问题;如果该孪生问题对应的相似度值小于等于第一预设阈值且大于第二预设阈值,则确定该孪生问题为已会问题;如果该孪生问题对应的相似度值小于等于第二预设阈值,则确定该孪生问题为待学习问题。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立装置,还包括:
训练单元,用于利用所述训练语料集合中包含的训练语料对问题扩展模型进行训练;
第六确定单元,用于根据所述问题扩展模型的输出结果,将待学习问题划分为难学习问题和容易学习问题;
第二生成单元,用于根据所述难学习问题生成参考问题,所述参考问题用于指导后续编辑用户编写孪生问题。
在一种实施方式中,所述第六确定单元,具体用于在所述待学习问题中查找是否存在与所述输出结果内容相同的待学习问题;如果是,则确定相应的待学习问题为难学习问题;如果否,则确定相应的待学习问题为容易学习问题。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立装置,还包括:
第二统计单元,用于统计所述待学习标准问题所对应的知识点中待学习问题的数量;
删除单元,用于如果待学习问题的数量在该知识点中的占比小于等于第三预设阈值,则从待学习标准问题集合中删除所述待学习标准问题。
第三方面,提供了一种计算装置,所述计算装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一智能问答系统的知识库建立方法所述的步骤。
第四方面,提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一智能问答系统的知识库建立方法所述的步骤。
采用上述技术方案,本发明至少具有下列优点:
本发明所述的智能问答系统的知识库建立方法、装置和存储介质,针对接收到的待学习标准问题的孪生问题,确定其与待学校标准问题之间的相似度,并根据相似度将孪生问题划分为放弃问题、已会问题和待学习问题,进而根据已会问题和待学习问题以及待学习标准问题生成训练语料集合,通过上述过程,可以从孪生问题中筛选出与标准问题的提问方式差异较大的问题,从而提高了训练语料的覆盖范围,而且通过放弃相似度较低的问题,提高了训练效率。
附图说明
图1为根据本发明实施例的智能问答系统的知识库建立方法的网络拓扑结构示意图;
图2为根据本发明实施例的智能问答系统的知识库建立方法的实施流程示意图;
图3为根据本发明实施例的智能问答系统的知识库建立装置的结构示意图;
图4为根据本发明实施例的计算装置的结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
需要说明的是,本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
如图1所示,其为本发明实施例提供的智能问答系统的知识库建立的网络拓扑结构示意图。
编辑用户10通过智能终端11中的客户端访问服务器12,其中,客户端可以为网页的浏览器,也可以为安装于智能终端,如手机,平板电脑等中的应用程序客户端。为了便于描述,以下以客户端为浏览器为例进行说明。
智能终端11与服务器12之间通过网络进行通信连接,该网络可以为局域网、蜂窝网和广域网等。智能终端11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),服务器12可以为任何能够提供互联网服务的设备。
服务器12中存储有用于智能问答系统的知识库,知识库中包含有若干个知识点,每一知识点对应有标准问题,还可能对应有若干条的问题样例,应当理解,在知识库建立初期,知识点对应的问题样例条数可能为零。
其中,编辑用户10利用智能终端11通过向服务器12注册获得用户名,服务器12在用户进行注册成功后存储用户名以及与编辑用户10设置的用户密码作为认证信息,后续编辑用户10利用智能终端11再次登录服务器12时,服务器12向应用客户端返回登录页面,编辑用户10在应用客户端显示的登录页面输入认证信息(即用户名和用户密码)并提交给服务器12,服务器12比较编辑用户10提交认证信息与自身在用户注册时存储的认证信息是否一致以确定是否允许编辑用户10登录。
编辑用户10登录成功后进入问题编辑页面,通过问题编辑页面,服务器12向编辑用户显示待学习标准问题,编辑用户10根据页面显示的标准问题,编写待学习标准问题的其他提问方式提交给服务器12。为了便于描述本发明实施例中将与标准问题具有相同的答案,但是提问方式不同的问题称为孪生问题。
实施例一
下面结合图1的应用场景,参考图2来描述根据本发明实施例的智能问答系统的知识库建立方法。
如图2所示,其为本发明实施例提供的智能问答系统的知识库建立方法的实施流程示意图,可以包括以下步骤:
S21、显示知识库中每一知识点对应的待学习标准问题。
本步骤中,服务器可以从知识库中选择一个知识点的标准问题作为待学习标准问题并通过问题编辑页面向编辑用户显示。
S22、接收针对待学习标准问题所提供的若干条孪生问题。
本步骤中,编辑用户根据问题编辑页面显示的待学习标准问题,编写响应的孪生问题并提交给服务器。
S23、根据孪生问题对应的相似度值,确定孪生问题对应的问题类型。
具体实施时,本步骤中可以采用计算文本距离的方式来确定孪生问题和待学习标准问题之间的相似性度值,根据计算得到的相似度值将孪生问题划分为放弃问题、已会问题和待学习问题。
具体地,可以通过设定两个阈值将孪生问题划分为上述三个类型。其中,第一预设阈值可以设置为一个最高阈值,亦可称为太相似阈值,如果与待学习标准问题之间的相似度值大于第一预设阈值,则说明相应的孪生问题与标准问题非常接近,无需学习,因此,被划分到放弃问题中;第二预设置于可以设置为一个触发阈值,其小于第一预设阈值,如果与待学习标准问题之间的相似度值大于第二预设阈值,但是小于等于第一预设阈值,则说明相应的孪生问题智能问答系统已经能够正确回答,但是需要学习,用于加强训练模型,这类的孪生问题被划分到已会问题中;如果与待学习标准问题之间的相似度值小于等于第二预设阈值,说明对于相应的孪生问题,智能问答系统还不能正确回答,因此,被划分到待学习问题中。
S24、根据待学习标准问题、已会问题和待学习问题生成知识库的训练语料集合。
最后,可以确定由待学习标准问题、已会问题和待学习问题组成知识库的训练语料集合,得到的语料集合可以用于对问题扩展模型进行训练。
根据上述实施例一,通过将编辑用户提供的孪生问题根据其与待学习标准问题的相似度,选择相似度小的孪生问题生成训练语料,放弃与待学习标准问题相似度高的孪生问题,通过该方式选择出的训练语料,能够筛选出标准问题无法覆盖的一些提问方式,加大了训练语料的覆盖范围,而且,通过放弃与标准问题太过相似的孪生问题,减少了不必要的训练语料,提高训练效率。
实施例二
具体实施时,服务器可以从知识库中随机选择知识点,并显示该知识点的标准问题,也可以按照一定的规则或者优先级顺序选择知识点,本发明实施例对此不进行限定。
如果服务器按照显示优先级从知识库中选择知识点,则在实施步骤S21之前,还可以包括以下步骤:分别确定所述知识库中每一知识点对应的显示优先级。
在一个实施例中,服务器可以按照服务器可以按照各知识点对应的问题样例数量确定各知识点对应的显示优先级,数量越多的显示优先级越低。或者还可以预先设定一个数量阈值,对应的问题样例的数量大于该数量阈值的知识点对应的显示优先级低于对应的问题样例的数量小于该数量阈值的知识点。其中,各知识点对应的标准问题为各知识点的第一条问题样例。
在另一实施例中,服务器还可以根据各知识点对应的问题样例数量和标准问题的字数确定各知识点对应的显示优先级。这种实施方式中,服务器需要针对知识库中每一知识点,统计该知识点的问题样例数量和该知识点对应的标准问题的字数,根据问题样例数量和该知识点对应的待学习标准问题的字数,服务器可以按照以下公式确定各知识点对应的显示优先级:问题样例数量/标准问题字数,即具体实施时,对应的标准问题字数越多的知识点显示优先级越高,对应的问题样例数量越少的知识点显示优先级越高。
具体实施时,还可以根据实际需要按照其他方式确定各知识点对应的显示优先级,这里不再一一列举。
确定了各知识点对应的显示优先级之后,步骤S21中,服务器可以按照各知识点对应的显示优先级由高到低的顺序,显示知识库库每一知识点对应的待学习标准问题。
根据本发明实施例二,可以按照一定的显示优先级显示各知识点对应的待学习标准问题,由此可以筛选出亟需加大覆盖范围的知识点,优先提高这些知识点对应的问题样例的覆盖范围。
实施例三
在收集一定数量的训练语料之后,服务器可以利用训练语料集合中包含的训练语料对问题扩展模型进行训练,利用训练得到的问题扩展模型,可以区分出待学习问题中的容易学习问题和难学习问题。
对于任一待学习问题来说,如果其与其他训练语料交叉内容比较多,通过训练过程,可以提炼出其中的若干个关键词得到语义表达式,如果其与其他训练语料交叉内容较少,则无法学习,问题扩展模型将直接输出该训练语料自身的内容。
基于此,根据问题扩展模型的输出结果,可以将待学习问题划分为容易学习问题和难学习问题。其中,对于容易学习问题,问题扩展模型输出结果为抽象出的语义表达式,而对于难学习问题,问题扩展模型输出结果为训练语料自身内容。
在一种实施方式中,可以利用问题扩展模型的输出结果,在待学习问题中查找,如果能够查找到与输出结果内容相同的待学习问题,则可以确定相应的待学习问题为难学习问题,相反,如果没有查找到相同内容的待学习问题,则可以确定相应的待学习问题为容易学习问题。
根据确定出的难学习问题生成参考问题,并提供给编辑用户,作为编辑用户后续编写孪生问题的参考。
根据本发明实施例三,可以通过多次反复训练的方式,将编辑用户编辑孪生问题的难度不断提高,可以逐渐扩展一些生僻提问方式,进一步提高问题样例的覆盖范围,使得智能问答系统能够准确理解用户一些生僻问题实际所表达的意图,以便在此基础上能够准确的回答用户所提问的生僻问题。
实施例四
为了提高训练语料的覆盖面,提高训练语料质量,鼓励编辑用户提供生僻问题,本发明实施例中,还可以对各孪生问题的编写质量进行评价并反馈给编辑用户。
在一种实施方式中,可以根据孪生问题对应的问题类型,确定孪生问题对应的评价参数,不同的问题类型对应的评价参数不同,其中,已会问题评价参数大于放弃问题的评价参数,待学习问题的评价参数大于已会问题的评价参数。由此,针对提供孪生问题的编辑用户,可以统计其提供的孪生问题的评价参数之和,根据评价参数之和确定每一编辑用户对应的分配优先级。其中,评价参数越高,分配优先级越高。后续,可以根据各编辑用户的分配优先级和知识库中各知识点对应的显示优先级,为编辑用户分配待学习标准问题,例如,可以将对应的显示优先级高的知识点的待学习标准问题,分配给第三预设阈值高的编辑用户进行处理。相应地,在步骤S22中,服务器接收编辑用户根据分配的待学习标准问题所提供的孪生问题。
在本发明的实施例四中,通过统计编辑用户编写的孪生问题的评价参数,可以确定编辑用户编写生僻问题的占比,由此可以判断编辑用户编写孪生问题的质量,通过将高优先级的知识点分配给编写质量高的编辑用户,可以进一步提高训练语料质量。
一段时间后,可以统计待学习标准问题所对应的知识点中待学习问题的数量,如果待学习问题的数量在该知识点中的占比小于等于第三预设阈值,这说明该知识点的问题样例已经覆盖了大部分的提问方式,无需继续训练,可以从待学习标准问题集合中删除该待学习标准问题。
在一些实施方式中,如果编辑用户不是专业人员或者对孪生问题编写要求较高的情况下,可以对编辑用户编写的孪生问题进行人工审核,去掉与标准问题差异太大的无效孪生问题,并取消该孪生问题对应的评价参数。具体实施时,还可以设置人工审核的标准,例如,孪生问题与待学习标准问题低于预设相似度阈值时,才需要进行人工审核等等。
基于同一发明构思,本发明实施例中还提供了一种智能问答系统的知识库建立装置,由于上述装置解决问题的原理与智能问答系统的知识库建立方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,其为本发明实施例提供的智能问答系统的知识库建立装置的结构示意图,包括:
显示单元31,用于显示知识库中每一知识点对应的待学习标准问题;
第一接收单元32,用于接收针对所述待学习标准问题所提供的若干条孪生问题;
第一确定单元33,用于针对任一孪生问题,确定该孪生问题与所述待学习标准问题之间的相似度值;
第二确定单元34,用于根据该孪生问题对应的相似度值,确定所述孪生问题对应的问题类型,所述问题类型包括:已会问题、待学习问题或者放弃问题;
第一生成单元35,用于根据所述待学习标准问题、所述已会问题和所述待学习问题生成所述知识库中的训练语料集合。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立装置,还包括第三确定单元,其中:
所述第三确定单元,用于在所述显示单元显示知识库中每一知识点对应的待学习标准问题之前,分别确定所述知识库中每一知识点对应的显示优先级;
所示显示单元,用于按照知识库中每一知识点对应的显示优先级由高到低的顺序,显示知识库中每一知识点对应的待学习标准问题。
在一种实施方式中,针对每一知识点,所述知识库中包含若干条问题样例;以及
所述第三确定单元,具体用于针对所述知识库中每一知识点,统计该知识点对应的问题样例数量;根据所述问题样例数量和该知识点对应的待学习标准问题的字数,确定该知识点对应的显示优先级。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立装置,还包括第四确定单元、第一统计单元、第五确定单元和分配单元,其中:
所述第四确定单元,用于根据所述孪生问题对应的问题类型,确定所述孪生问题对应的评价参数;
所述第一统计单元,用于针对提供所述孪生问题的编辑用户,统计每一编辑用户对应的评价参数之和;
所述第五确定单元,用于根据所述评价参数之和,确定每一编辑用户对应的分配优先级;
所述分配单元,用于根据各编辑用户的分配优先级和所述知识库中各知识点对应的显示优先级,为编辑用户分配待学习标准问题;
所述第一接收单元,具体用于接收所述编辑用户根据分配的待学习标准问题所提供孪生问题。
在一种实施方式中,所述第一确定单元,具体用于如果该孪生问题对应的相似度值大于第一预设阈值,则确定该孪生问题为放弃问题;如果该孪生问题对应的相似度值小于等于第一预设阈值且大于第二预设阈值,则确定该孪生问题为已会问题;如果该孪生问题对应的相似度值小于等于第二预设阈值,则确定该孪生问题为待学习问题。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立装置,还包括:
训练单元,用于利用所述训练语料集合中包含的训练语料对问题扩展模型进行训练;
第六确定单元,用于根据所述问题扩展模型的输出结果,将所述待学习问题划分为难学习问题和容易学习问题;
第二生成单元,用于根据所述难学习问题生成参考问题,所述参考问题用于指导后续编辑用户编写孪生问题。
在一种实施方式中,所述第六确定单元,具体用于在所述待学习问题中查找是否存在与所述输出结果内容相同的待学习问题;如果是,则确定相应的待学习问题为难学习问题;如果否,则确定相应的待学习问题为容易学习问题。
在一种实施方式中,本发明实施例提供的智能问答系统的知识库建立装置,还包括:
第二统计单元,用于统计所述待学习标准问题所对应的知识点中待学习问题的数量;
删除单元,用于如果待学习问题的数量在该知识点中的占比小于等于第三预设阈值,则从待学习标准问题集合中删除所述待学习标准问题。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本发明示例性实施方式的智能问答系统的知识库建立方法和装置之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的智能问答系统的知识库建立方法中的步骤。例如,所述处理器可以执行如图2中所示的步骤S21、显示知识库中每一知识点对应的待学习标准问题,和步骤S22、接收针对待学习标准问题所提供的若干条孪生问题;以及步骤S23、根据孪生问题对应的相似度值,确定孪生问题对应的问题类型;步骤S24、根据待学习标准问题、已会问题和待学习问题生成知识库的训练语料集合。
下面参照图4来描述根据本发明的这种实施方式的计算装置40。图4显示的计算装置40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算装置40以通用计算设备的形式表现。计算装置40的组件可以包括但不限于:上述至少一个处理器41、上述至少一个存储器42、连接不同系统组件(包括存储器42和处理器41)的总线43。
总线43表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器42可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)421和/或高速缓存存储器422,还可以进一步包括只读存储器(ROM)423。
存储器42还可以包括具有一组(至少一个)程序模块424的程序/实用工具425,这样的程序模块424包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置40也可以与一个或多个外部设备44(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置40交互的设备通信,和/或与使得该计算装置40能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口45进行。并且,计算装置40还可以通过网络适配器46与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器46通过总线43与用于计算装置40的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本发明提供的智能问答系统的知识库建立方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的智能问答系统的知识库建立方法中的步骤,例如,所述计算机设备可以执行如图2中所示的步骤S21、显示知识库中每一知识点对应的待学习标准问题,和步骤S22、接收针对待学习标准问题所提供的若干条孪生问题;以及步骤S23、根据孪生问题对应的相似度值,确定孪生问题对应的问题类型;步骤S24、根据待学习标准问题、已会问题和待学习问题生成知识库的训练语料集合。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于智能问答系统的知识库建立的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
Claims (10)
1.一种智能问答系统的知识库建立方法,其特征在于,包括:
显示知识库中每一知识点对应的待学习标准问题;
接收针对所述待学习标准问题所提供的若干条孪生问题;
针对任一孪生问题,确定该孪生问题与所述待学习标准问题之间的相似度值;
根据该孪生问题对应的相似度值,确定所述孪生问题对应的问题类型,所述问题类型包括:已会问题、待学习问题和放弃问题;
根据所述待学习标准问题、所述已会问题和所述待学习问题生成所述知识库的训练语料集合;
其中,根据该孪生问题对应的相似度值,确定所述孪生问题对应的问题类型,具体包括:
如果该孪生问题对应的相似度值大于第一预设阈值,则确定该孪生问题为放弃问题;
如果该孪生问题对应的相似度值小于等于第一预设阈值且大于第二预设阈值,则确定该孪生问题为已会问题;
如果该孪生问题对应的相似度值小于等于第二预设阈值,则确定该孪生问题为待学习问题;
以及,根据所述待学习标准问题、所述已会问题和所述待学习问题生成所述知识库的训练语料集合,具体包括:
选择所述已会问题和所述待学习问题生成训练语料,放弃所述放弃问题。
2.根据权利要求1所述的方法,其特征在于,显示知识库中每一知识点对应的待学习标准问题之前,还包括:
分别确定所述知识库中每一知识点对应的显示优先级;以及
显示知识库中每一知识点对应的待学习标准问题,具体包括:
按照知识库中每一知识点对应的显示优先级由高到低的顺序,显示知识库中每一知识点对应的待学习标准问题。
3.根据权利要求2所述的方法,其特征在于,针对每一知识点,所述知识库中包含若干条问题样例;以及
分别确定所述知识库中每一知识点对应的显示优先级,具体包括:
针对所述知识库中每一知识点,统计该知识点对应的问题样例数量;
根据所述问题样例数量和该知识点对应的待学习标准问题的字数,确定该知识点对应的显示优先级。
4.根据权利要求2所述的方法,其特征在于,还包括:
根据所述孪生问题对应的问题类型,确定所述孪生问题对应的评价参数;
针对提供所述孪生问题的编辑用户,统计每一编辑用户对应的评价参数之和;
根据所述评价参数之和,确定每一编辑用户对应的分配优先级;
根据各编辑用户的分配优先级和所述知识库中各知识点对应的显示优先级,为编辑用户分配待学习标准问题;以及
接收针对所述待学习标准问题所提供的若干条孪生问题,具体包括:
接收所述编辑用户根据分配的待学习标准问题所提供孪生问题。
5.根据权利要求1所述的方法,其特征在于,还包括:
利用所述训练语料集合中包含的训练语料对问题扩展模型进行训练;
根据所述问题扩展模型的输出结果,将所述待学习问题划分为难学习问题和容易学习问题;
根据所述难学习问题生成参考问题,所述参考问题用于指导后续编辑用户编写孪生问题。
6.根据权利要求5所述的方法,其特征在于,根据所述问题扩展模型的输出结果,将所述待学习问题划分为难学习问题和容易学习问题,具体包括:
在所述待学习问题中查找是否存在与所述输出结果内容相同的待学习问题;
如果是,则确定相应的待学习问题为难学习问题;
如果否,则确定相应的待学习问题为容易学习问题。
7.根据权利要求1~6任一权利要求所述的方法,其特征在于,还包括:
统计所述待学习标准问题所对应的知识点中待学习问题的数量;
如果待学习问题的数量在该知识点中的占比小于等于第三预设阈值,则从待学习标准问题集合中删除所述待学习标准问题。
8.一种智能问答系统的知识库建立装置,其特征在于,包括:
显示单元,用于显示知识库中每一知识点对应的待学习标准问题;
第一接收单元,用于接收针对所述待学习标准问题所提供的若干条孪生问题;
第一确定单元,用于针对任一孪生问题,确定该孪生问题与所述待学习标准问题之间的相似度值;
第二确定单元,用于根据该孪生问题对应的相似度值,确定所述孪生问题对应的问题类型,所述问题类型包括:已会问题、待学习问题和放弃问题;
第一生成单元,用于根据所述待学习标准问题、所述已会问题和所述待学习问题生成所述知识库中的训练语料集合;
其中,根据该孪生问题对应的相似度值,确定所述孪生问题对应的问题类型,具体包括:
如果该孪生问题对应的相似度值大于第一预设阈值,则确定该孪生问题为放弃问题;
如果该孪生问题对应的相似度值小于等于第一预设阈值且大于第二预设阈值,则确定该孪生问题为已会问题;
如果该孪生问题对应的相似度值小于等于第二预设阈值,则确定该孪生问题为待学习问题;
以及,根据所述待学习标准问题、所述已会问题和所述待学习问题生成所述知识库的训练语料集合,具体包括:
选择所述已会问题和所述待学习问题生成训练语料,放弃所述放弃问题。
9.一种计算装置,其特征在于,所述计算装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911366503.XA CN111159373B (zh) | 2019-12-26 | 2019-12-26 | 智能问答系统的知识库建立方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911366503.XA CN111159373B (zh) | 2019-12-26 | 2019-12-26 | 智能问答系统的知识库建立方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159373A CN111159373A (zh) | 2020-05-15 |
CN111159373B true CN111159373B (zh) | 2023-04-07 |
Family
ID=70558220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911366503.XA Active CN111159373B (zh) | 2019-12-26 | 2019-12-26 | 智能问答系统的知识库建立方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159373B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220380A (zh) * | 2017-06-27 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的问答推荐方法、装置和计算机设备 |
CN108446321A (zh) * | 2018-02-10 | 2018-08-24 | 武汉市灯塔互动文化传播有限公司 | 一种基于深度学习的自动问答方法 |
CN110046240A (zh) * | 2019-04-16 | 2019-07-23 | 浙江爱闻格环保科技有限公司 | 结合关键词检索与孪生神经网络的目标领域问答推送方法 |
CN110347814A (zh) * | 2019-06-28 | 2019-10-18 | 银江股份有限公司 | 一种律师精准推荐方法及系统 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
-
2019
- 2019-12-26 CN CN201911366503.XA patent/CN111159373B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220380A (zh) * | 2017-06-27 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的问答推荐方法、装置和计算机设备 |
CN108446321A (zh) * | 2018-02-10 | 2018-08-24 | 武汉市灯塔互动文化传播有限公司 | 一种基于深度学习的自动问答方法 |
CN110046240A (zh) * | 2019-04-16 | 2019-07-23 | 浙江爱闻格环保科技有限公司 | 结合关键词检索与孪生神经网络的目标领域问答推送方法 |
CN110347814A (zh) * | 2019-06-28 | 2019-10-18 | 银江股份有限公司 | 一种律师精准推荐方法及系统 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
Non-Patent Citations (1)
Title |
---|
《自然语言处理领域中的自动问答研究进展》;郭天翼等;《武汉大学学报(理学版)》;第65卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111159373A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789552B2 (en) | Question answering system-based generation of distractors using machine learning | |
US10937413B2 (en) | Techniques for model training for voice features | |
JP6793975B2 (ja) | 動画基盤求人求職マッチングサーバーおよび方法ならびにその方法を遂行するためのプログラムが記録されたコンピュータ読み取り可能記録媒体 | |
CN109325091B (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
US11749255B2 (en) | Voice question and answer method and device, computer readable storage medium and electronic device | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
US10854189B2 (en) | Techniques for model training for voice features | |
CN110717337A (zh) | 信息处理方法、装置、计算设备和存储介质 | |
CN111507680A (zh) | 在线面试方法、系统、设备及存储介质 | |
CN110619772A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN112596731A (zh) | 一种融合智能教育的编程教学系统及方法 | |
CN113421551B (zh) | 语音识别方法、装置、计算机可读介质及电子设备 | |
CN114761944A (zh) | 域结构知识上的会话代理 | |
CN111159373B (zh) | 智能问答系统的知识库建立方法、装置和存储介质 | |
CN114757155B (zh) | 一种会议文档的生成方法及装置 | |
CN116842143A (zh) | 基于人工智能的对话模拟方法、装置、电子设备及介质 | |
CN116956902A (zh) | 一种文本改写方法、装置、设备及计算机可读存储介质 | |
CN114297353B (zh) | 数据处理方法、装置、存储介质及设备 | |
WO2023100050A1 (en) | Conversational agent counterfactual simulation | |
CN112231373B (zh) | 知识点数据的处理方法、装置、设备和计算机可读介质 | |
CN112925889B (zh) | 自然语言处理方法、装置、电子设备和存储介质 | |
CN111680148B (zh) | 针对用户问句进行智能应答的方法和装置 | |
CN114841157A (zh) | 基于数据分析的线上互动方法、系统、设备及存储介质 | |
CN113836932A (zh) | 交互方法、装置和系统,以及智能设备 | |
WO2020068858A9 (en) | Techniques for language model training for a reference language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |