CN105631032B - 基于抽象语义推荐的问答知识库建立方法、装置及系统 - Google Patents
基于抽象语义推荐的问答知识库建立方法、装置及系统 Download PDFInfo
- Publication number
- CN105631032B CN105631032B CN201511028179.2A CN201511028179A CN105631032B CN 105631032 B CN105631032 B CN 105631032B CN 201511028179 A CN201511028179 A CN 201511028179A CN 105631032 B CN105631032 B CN 105631032B
- Authority
- CN
- China
- Prior art keywords
- abstract semantics
- request message
- semantic
- original request
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
Abstract
一种基于抽象语义推荐的问答知识库建立方法、装置及系统,其中所述建立方法包括:提供抽象语义数据库,抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;接收初始请求信息;根据抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。本发明建立方法、建立装置及建立系统提高了智能问答知识库的建立效率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于抽象语义推荐的问答知识库建立方法、装置及系统。
背景技术
知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
知识库有着广泛的应用,典型的应用有智能问答系统或自动问题系统或者问答知识库,自动问题系统中存储着一些预设的问题,并存储预设问题对应的答案信息,在公众用户提出问题时,自动问题系统会将公众用户提出的问题与预设的问题进行匹配,若匹配成功,自动问题系统会将该预设问题对应的答案信息反馈给公众用户。
参考图1,图1为现有技术智能问答系统中的知识库建立装置的结构示意图,包括:人机界面10,用于输入待存储的问题;存入单元11,用于接收人机界面10输入的待存储问题,并将接收的待存储问题存入问题库12;问题库12,用于存储接收的待存储问题。
由于不同用户提出问题的角度不同以及表达方式不同,为了提高智能问答系统的准确性,在对问题库中的问题进行预设时,需要人工从人机界面输入不同表达方式的多个问题,耗时耗力,效率较低,因而现有的存储装置进行问题存储时的效率有待改善。
发明内容
本发明解决的问题是怎样提高智能问答知识库建立的效率。
为解决上述问题,本发明提供一种基于抽象语义推荐的问答知识库建立方法,包括:
提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;接收初始请求信息;根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。
可选的,所述抽象语义推荐处理包括:
对所述初始请求信息进行分词处理,得到若干单独词;
将每个单独词识别为语义规则词或非语义规则词;
分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
可选的,所述抽象语义推荐处理包括:
对所述初始请求信息进行分词处理,得到若干单独词;
分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
可选的,在进行匹配处理之前还包括:判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
可选的,所述抽象语义表达式还包括语义规则词;所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
可选的,与所述初始请求信息匹配的抽象语义表达式满足以下条件:
缺失语义成分对应的词性包括对应的填充内容的词性;
初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类;
该抽象语义表达式与初始请求信息的顺序相同。
可选的,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,还包括:
分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
可选的,所述打分处理采用以下一种或多种方式的结合:
缺失语义成分匹配的数量越多,得分越高;
设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
词性置信度越大,得分越高;
根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。
可选的,还包括:当无法获得与所述初始请求信息对应的抽象语义表达式时,通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。
可选的,还包括:将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。
本发明还提供了一种基于抽象语义推荐的问答知识库建立装置,包括:
抽象语义表达式获取单元,用于获取多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
接收单元,用于接收初始请求信息;
抽象语义推荐模块,用于根据所述抽象语义表达式获取单元获取的多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式;
填充单元,用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式;
存入单元,用于将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库。
可选的,所述抽象语义推荐模块包括:分词单元、规则词识别单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,
所述分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词;
规则词识别单元,用于将每个单独词识别为语义规则词或非语义规则词;
词性标注单元,用于分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
词类判断单元,用于分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
可选的,抽象语义推荐模块包括:分词单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,
分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词;
词性标注单元,用于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;
词类判断单元,用于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;
搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
可选的,所述抽象语义推荐模块还包括:数目判断单元、去除单元和补充单元,其中:数目判断单元,用于判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内;去除单元,用于当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;补充单元,用于当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
可选的,所述抽象语义表达式还包括语义规则词;所述搜索单元搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
可选的,所述匹配单元得到与所述初始请求信息匹配的抽象语义表达式满足以下条件:
缺失语义成分对应的词性包括对应的填充内容的词性;
初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于同一词类;
该抽象语义表达式与初始请求信息的顺序相同。
可选的,所述基于抽象语义推荐的问答知识库建立装置还包括打分单元,用于当抽象语义推荐模块获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
可选的,所述打分单元采用以下一种或多种方式的结合进行打分处理:
缺失语义成分匹配的数量越多,得分越高;
设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
词性置信度越大,得分越高;
根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。
可选的,还包括:答案提供单元,用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。
本发明还提供了一种基于抽象语义推荐的问答知识库建立系统,包括:
抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
上述的建立装置。
与现有技术相比,本发明的技术方案具有以下优点:
本发明基于抽象语义推荐的问答知识库建立方法,提供抽象语义数据库,在接收初始请求信息后,根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。因而本发明的方法用户只需要输入一条初始请求信息,本发明的方法可以对该初始请求信息进行自动的扩展,获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式),存入智能问答知识库,因此用户在建立智能问答知识库时,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库的建立效率。
进一步,对单独词进行词性标注处理,得到每个单独词的词性信息的目的是为后续将输入的初始信息与抽象语义表达式的匹配提供匹配的依据,提高了后续匹配的精度和效率。
进一步,分别对每个所述单独词进行词类判断处理的目的是为了判断每个单独词是否具有相应的词类,在进行匹配处理时,通过判断初始请求信息中部分内容与抽象语义表达式中的对应的语义规则词的是否属于同一词类,从而判断初始请求信息与该抽象语义表达式的匹配程度,提高了匹配的精度和效率。
进一步,对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选的目的是为了减少后续进行匹配处理时的负担以及减少处理时间,以提高系统的性能。
进一步,与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺失语义成分对应的词性(或属性)包括对应的填充内容的词性;初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类;该抽象语义表达式与初始请求信息的顺序相同,使得获得的抽象语义表达式与初始请求信息匹配程度较高。
进一步,在进行词性标注处理和词类判断处理之前,进行识别每个单独词为语义规则词或非语义规则词的步骤,然后对识别为非语义规则词的每个单独词进行词性标注处理,对识别为语义规则词的每个单独词进行词类判断处理,因而词性标注处理和词类判断处理的对象分别是部分单独词,减少了词性标注处理和词类判断处理所需的时间,提高了处理效率。
进一步,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,还包括:分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,因而可以将与初始请求信息最匹配的具体语义表达式存入智能问答知识库,从而保证建立的智能问答知识库具有较高的准确性。
本发明基于抽象语义推荐的问答知识库建立装置,接收单元在接收到用户输入的一条初始请求信息后,抽象语义推荐模块进行抽象语义的推荐处理,获得与所述初始请求信息对应的一个或多个具体语义表达式,填充单元在获得的一个或多个具体语义表达式表达的语义与初始请求信息所要表达的语义相同或近似,存入单元将一个或多个具体语义表达式及对应的初始请求信息存入智能问答知识库。本发明的建立装置,用户使用本发明的装置只需要输入一条初始请求信息,本发明的装置可以对该初始请求信息进行自动的扩展,获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式),存入智能问答知识库,因此用户在建立智能问答知识库时,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库的建立效率。
本发明基于抽象语义推荐的问答知识库建立系统,除了包括建立装置外还包括抽象语义数据库,抽象语义数据库用于提供抽象语义表达式,因而在智能问答知识库的建立时,一个抽象语义数据库可以向不同的建立装置提供数据信息。
附图说明
图1为现有技术智能问答系统中的知识库建立装置的结构示意图;
图2~图6为本发明实施例基于抽象语义推荐的问答知识库建立方法的流程示意图;
图7~图10为本发明实施例基于抽象语义推荐的问答知识库建立装置的结构示意图;
图11为本发明实施例基于抽象语义推荐的问答知识库建立系统的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施例做详细的说明。
图2~图6为本发明实施例基于抽象语义推荐的问答知识库建立方法的流程示意图;图7~图10为本发明实施例基于抽象语义推荐的问答知识库建立装置的结构示意图;图11为本发明实施例基于抽象语义推荐的问答知识库建立系统的结构示意图。
请参考图2,所述基于抽象语义推荐的问答知识库建立方法,包括步骤:
步骤S101,提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
步骤S102,接收初始请求信息;
步骤S103,根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理;
步骤S104,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式;
步骤S105,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。
下面对上述过程进行详细的描述。
进行步骤S101,提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分。
所述抽象语义数据库中存储有多个抽象语义表达式,每个抽象语义表达式包括缺失语义成分,后续在抽象语义表达式中的缺失语义成分对应的位置填充内容构成具体语义表达式。
所述抽象语义表达式中除了包括缺失语义成分之外,还可以包括语义规则词。在一实施例中,所述语义规则词还标注有词类信息,词类信息表示该规则词属于某一词类,一个词类中具有若干用法相同或语义相近的若干关键词。
所述抽象语义表达式可以只具有缺失语义成分,将这种形式的抽象语义表达式定义为默认集合。
一个抽象语义表达式中可以包括多个缺失语义成分,每个缺失语义成分具有对应的属性,并且不同缺失语义成分的属性不同,缺失语义成分的属性定义了填充该缺失语义成分对应的内容的属性,即初始请求信息中只有满足缺失语义成分对应属性的部分内容才能填充对应的缺失语义成分,从而形成具体语义表达式。
在一具体实施例中,所述抽象语义数据库中存储的若干抽象语义表达式包括:通过[concept1][action][concept2]($如何)办理;通过[concept]办理($如何)办理;[concept2]($如何)通过[concept1]办理;($如何)通过[concept]办理;通过[concept]($如何)办理;通过[concept1]($如何)办理[concept2];通过[concept][action]($如何)办理;[concept2]通过[concept1]($如何)办理;通过[concept1]($如何)开通[concept2];通过[concept1]($如何)[action][concept2];[action1][concept1]($如何)[action2][concept2];[action1][concept1]($如何)[action2][concept2];哪里可以[action][concept];[action][concept]的步骤;[concept1][action][concept2]。
上述语义表达式中,“[]”表示缺失语义成分,“[]”的内容表示该缺失语义成分的属性,语义表达式中其他内容表示语义规则词,具体的上述表达式中,“[concept]”,“[concept1]”,“[concept2]”,“[action]”,“[action1]”,“[action2]”表示缺失语义成分,“[]”的内容“concept”,“concept1”,“concept2”,“action”,“action1”,“action2”表示对应的缺失语义成分的属性,其中“concept”表示缺失语义成分“[concept]”为概念属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括初始请求信息中的一个具有名词词性的单独词,或者包括初始请求信息中一个具有名词词性的单独词以及若干具有其他词性的单独词的组合;“concept1”表示缺失语义成分“[concept1]”为第一个概念属性的缺失语义成分,其中“concept”和“1”结合表示该缺失语义成分的属性,“concept”表示概念属性,“1”表示位置属性,为第一个,后续填充该缺失语义成分的内容为至少包括初始请求信息中第一个具有名词词性的单独词,或者包括初始请求信息中第一个具有名词词性的单独词以及若干具有其他词性的单独词的组合;“concept2”表示缺失语义成分“[concept2]”为第二个概念属性的缺失语义成分,后续填充该缺失语义成分的内容为至少包括初始请求信息中第二个具有名词词性的单独词,或者包括初始请求信息中第二个具有名词词性的单独词以及若干其他词性的单独词的组合;“action”表示缺失语义成分“[action]”为动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括初始请求信息中的一个具有动词词性的单独词,或者包括初始请求信息中一个具有动词词性的单独词以及若干具有其他词性的单独词的组合;“action1”表示缺失语义成分“[action1]”为第一个具有动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括初始请求信息中的第一个具有动词词性的单独词,或者包括初始请求信息中第一个具有动词词性的单独词以及若干具有其他词性的单独词的组合;“action2”表示缺失语义成分“[action2]”为第二个具有动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括初始请求信息中的第二个具有动词词性的单独词,或者包括初始请求信息中第二个具有动词词性的单独词以及若干具有其他词性的单独词的组合。
上述各语义表达式中缺失语义成分之外的内容如“通过”,“($如何)”,“办理”,“开通”,“的步骤”等表示语义规则词,其中语义规则词“($如何)”表示“如何”这个语义规则词属于词类“$如何”,在一实施例中,所述“$如何”词类包括关键词“如何”,“怎么”,“怎么样”,“怎样”,词类可以在建立抽象语义表达式时同时建立。相应的通过表示这个语义规则词属于词类“$通过”,在一实施例,所述词类“$开通”中包括关键词“开通”、“办理”、“订购”“申请”。后续在进行缺失语义成分的填充形成具体语义时,具有词类的语义规则词可以用该词类中的其他关键词代替。
上述语义表达式中,将语义表达式“[concept1][action][concept2]”定义为默认集合。
需要说明的是,上述抽象语义表达式中缺失语义成分的表示方式以及词类信息的表示方式是为描述和表示的方便,仅作为一个示例,其不用限制本发明的保护范围,本发明的其他实施例中,对抽象语义表达式中缺失语义和词类信息可以采用其他的表示方式。
进行步骤S102,接收初始请求信息。
所述初始请求信息为需要进行抽象语义推荐的信息。
在一实施例中,所述初始请求信息为人机界面输入的信息,比如所述初始请求信息为键盘或触摸屏等输入的文本信息,或者所述初始信息也可以从话筒输入,然后经语音识别引擎转化为的文本信息。
以办理信用卡作为示例进行说明,本实施例中,所述接收的初始请求信息为“通过网上银行如何开通信用卡”。
进行步骤S103,根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式。
进行抽象语义推荐处理的目的是从抽象语义数据库中获得与所述初始请求信息对应的一个或多个抽象语义表达式,从而可以将初始请求信息部分内容填充在该一个或多个抽象语义表达式中的对应的缺失语义成分以得到一个或多个具体语义表达式,一个或多个具体语义表达式表达的语义与初始请求信息所要表达的语义相同或近似,后续可以将获得一个或多个具体语义表达式及对应的初始请求信息存入智能问答知识库,因而用户只需要输入一条初始请求信息,本发明的方法可以对该初始请求信息进行自动的扩展,获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式),存入智能问答知识库,提高了智能问答知识库的建立效率。
本实施例中可以将初始请求信息作为标准问,将具体语义表达式作为对应的扩展问,并将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库,从而形成智能问答知识库的一个知识点,后续可以不断对该知识点进行更新优化。
在一实施例中,请参考图3,步骤S103包括步骤S103a、步骤S103b、步骤S103c、步骤S103d和步骤S103h五个子步骤。
进行步骤S103a,对所述初始请求信息进行分词处理,得到若干单独词。
所述分词处理依据一定分词规则进行,在系统中预先设定分词的规则,进行分词处理时,调用设定的分词规则,对初始请求信息与对应的领域知识数据库中的预置知识分别进行分词处理,形成若干词条构成的两个词条串。
所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍历法或词频统计法,或其他合适的分词方法。
以接收的初始请求信息为“通过网上银行如何开通信用卡”作为示例进行说明。
对初始请求信息“通过网上银行如何开通信用卡”进行分词处理,得到若干单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡”。
进行步骤S103b,分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息。
对单独词进行词性标注处理,得到每个单独词的词性信息的目的是为后续将输入的初始信息与抽象语义表达式的匹配提供匹配的依据。
具体的,在一实施例中,标注上述的单独词“通过”的词性为第一个动词、介词,标注单独词“网上银行”的词性为第一个名词,标注单独词“如何”的词性为代词,标注单独词“开通”的词性为第二个动词,标注单独词“信用卡”的词性为第二个名词。需要说明的是词性标注为第一个名词时表示单独词“网上银行”为第一个具有名词词性的单独词,第二个名词、第一个动词或第二个动词的解释类似。
在另一实施例中,标注上述的单独词“通过”的词性为动词、介词,标注单独词“网上银行”的词性为第一个名词,标注单独词“如何”的词性为代词,标注单独词“开通”的词性为动词,标注单独词“信用卡”的词性为第二个名词。
在进行词性标注时,还可以结合上下文的语义环境,以提高词性标注的准确率。
进行步骤S103c,分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息。
分别对每个所述单独词进行词类判断处理的目的是为了判断每个单独词是否具有相应的词类,在一实施例中,其具体过程为:将每个单独词与词类库中的若干词类进行匹配,若某一词类中存在该单独词,则该单独词具有相应的词类,当单独词具有相应的词类,则对该单独词进行属于某一词类(或词类信息)的标记,后续在进行匹配处理时,通过判断初始请求信息中部分内容与抽象语义表达式中的对应的语义规则词的是否属于同一词类,从而判断初始请求信息与该抽象语义表达式的匹配程度,提高了匹配的精度和效率。
具体的,对单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡”进行词类判断处理,通过判断,单独词“如何”具有对应的词类“$如何”,所述“$如何”词类中包括关键词“如何”,“怎么”,“怎么样”,“怎样”,对单独词“如何”进行属于词类“$如何”的标记。单独词“开通”具有对应的词类“$开通”,所述词类“$开通”中包括关键词“开通”、“办理”、“订购”“申请”。后续在进行缺失语义成分的填充形成具体语义时,具有词类的某一单独词对某个缺失语义成分进行填充时,可以将该词类中的其他关键词代替该单独词对对应的某个缺失语义成分进行填充。
进行步骤S103d,对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式。
对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选的目的是为了减少后续进行匹配处理时的负担以及减少处理时间,以提高系统的性能。
所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。在一实施例中,进行搜索处理时,根据抽象语义数据库中的抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词是否相同或是否属于同一词类,若某个抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类,则将该抽象语义表达式作为抽象语义候选集中的一个抽象语义表达式。在其他实施例中,可以根据其他的搜索方式对抽象语义数据库进行搜索,得到与所述初始请求信息相关的抽象语义候选集。
在具体的实施例中,对抽象语义数据库进行搜索处理,得到与所述初始请求信息“通过网上银行如何开通信用卡”相关的抽象语义候选集包括抽象语义表达式:通过[concept1][action][concept2]($如何)办理;通过[concept]办理($如何)办理;[concept2]($如何)通过[concept1]办理;($如何)通过[concept]办理;通过[concept]($如何)办理;通过[concept1]($如何)办理[concept2];通过[concept1]($如何)开通[concept2];通过[concept][action]($如何)办理;通过[concept1]($如何)开通[concept2];[concept2]通过[concept1]($如何)办理;通过[concept1]($如何)[action][concept2];[action1][concept1]($如何)[action2][concept2];[action1][concept1]($如何)[action2][concept2]。上述抽象语义候选集中的抽象语义表达式部分语义规则词(通过,通过,办理或($如何))与所述初始请求信息中至少部分单独词(通过,办理或如何)相同或属于同一词类。
步骤S103h,根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
在一实施例中,与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺失语义成分对应的词性(或属性)包括对应的填充内容的词性;初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类;该抽象语义表达式与初始请求信息的顺序相同。即进行匹配时,根据以上条件进行匹配,当抽象语义候选集中某一个抽象语义表达式同时满足上述三个条件时,该抽象语义表达式即为与所述初始请求信息匹配的抽象语义表达式,以提高匹配的精度和准确度。即进行匹配处理时,根据上述条件判断某抽象语义表达式是否为与初始请求信息匹配的抽象语义表达式。
在其他实施例中,与所述初始请求信息匹配的抽象语义表达式可以只满足前述的一个或两个条件,具体为,与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺失语义成分对应的词性(或属性)包括对应的填充内容的词性。或者,与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺失语义成分对应的词性(或属性)包括对应的填充内容的词性;初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类。或者,与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺失语义成分对应的词性(或属性)包括对应的填充内容的词性;该抽象语义表达式与初始请求信息的顺序相同。
具体的,通过匹配处理,得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式包括:通过[concept1]($如何)[action][concept2],该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应,缺失语义成分[action]与单独词“开通”对应,缺失语义成分[concept2]与单独词“信用卡”对应;[action1][concept1]($如何)[action2][concept2],该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应,缺失语义成分[action1]与单独词“通过”对应;缺失语义成分[concept2]与单独词“信用卡”对应,缺失语义成分[action2]与单独词“开通”对应;通过[concept1]($如何)开通[concept2],该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应,缺失语义成分[concept2]与单独词“信用卡”对应。
在其他实施例中,当无法获得与所述初始请求信息对应的抽象语义表达式时,还可以通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。
在另一实施例中,请参考图4,步骤S103包括步骤S103a、步骤S103b、步骤S103c、步骤S103d、步骤S103e、步骤S103f、步骤S103g和步骤S103h八个子步骤,本实施例中与前一实施例的区别在于在进行步骤S103d之后以及步骤S103h之前,还要进行步骤S103e、步骤S103f、步骤S103g。本实施例中的目的是防止抽象语义候选集中的抽象语义表达式的数量过多或过少,以提高智能问答知识库的建立效率和精确度。
下面对步骤S103e、步骤S103f、步骤S103g进行详细说明,本实施例中的其他步骤请参考前述实施例,在此不再赘述。
在对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式后,进行步骤S103e,判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,进行步骤S103f,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,进行步骤S103g,从默认集合中补充部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目位于预定范围内时,直接进行步骤S103h,根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
所述预定范围可以预先设定,其可以是一个具体的数值,也可以是一个数值范围。
当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式,然后将抽象语义候选集中剩余的抽象语义表达式进行后续步骤S103h。在一实施例中,所述去除部分抽象语义表达式去除方式可以随机去除,或者按照一定的规则去除,比如去除序号为奇数(或偶数)的抽象语义表达式,或者每间隔固定数量的抽象语义表达式去除一个或多个抽象语义表达式。
当所述抽象语义候选集中抽象语义表达式的数目小于预定范围内时,从默认集合中补充部分抽象语义表达式,然后将补充默认集合的抽象语义候选集进行后续步骤S103h。
在又一实施例中,请参考图5,所述步骤S103包括步骤S103i、步骤S103j、步骤S103k、步骤S103l、步骤S103m和步骤S103n六个子步骤,具体包括:
步骤S103i,对所述初始请求信息进行分词处理,得到若干单独词;
步骤S103j,将每个单独词识别为语义规则词或非语义规则词;
步骤S103k,分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
步骤S103l,分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
步骤S103m,对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
步骤S103n,根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
本实施例与前述实施例的区别在于,在进行词性标注处理和词类判断处理之前,进行识别每个单独词为语义规则词或非语义规则词的步骤,然后对识别为非语义规则词的每个单独词进行词性标注处理,对识别为语义规则词的每个单独词进行词类判断处理,因而词性标注处理和词类判断处理的对象分别是部分单独词,减少了词性标注处理和词类判断处理所需的时间,提高了处理效率。
下面对步骤S103j进行详细说明,本实施例中步骤S103j之外的其他步骤与前述实施例的部分步骤类似,具体请参考前述实施例相关部分的描述,在此不再赘述。
进行步骤S103j,将每个单独词识别为语义规则词或非语义规则词。
识别单独词为语义规则词或语义规则词的过程为:提供语义规则词库,所述语义规则词库中包括若干语义规则词;判断若干单独词是否存在于语义规则词库中,若某一单独词存在于语义规则词库中,则该单独词为语义规则词,若某一单独词不存在于语义规则词库中,则该单独词为非语义规则词。
在具体的实施例中,提供的语义规则词库中包括语义规则词:“通过”,“如何”,“怎么”,“怎么办”等,初始请求信息为“通过网上银行如何开通信用卡”,通过分词处理,得到若干单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡”;判断单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡”是否存在于语义规则词库中。通过判断,单独词“如何”存在于语义规则库,因而识别单独词“如何”为语义规则词,单独词“通过”存在于语义规则库,因而识别单独词“通过”为语义规则词,而单独词“网上银行”,“开通”和“信用卡”不存在于语义规则词库中,则识别单独词“网上银行”,“开通”和“信用卡”为非语义规则词。后续在进行词类判断处理时,只对语义规则词“如何”和“通过”进行词类判断处理,获得语义规则词“如何”和“通过”的词类信息;在进行词性标注处理时,只对非语义规则词“网上银行”,“开通”和“信用卡”进行词性标注处理,分别获得非语义规则词“网上银行”,“开通”和“信用卡”的词性信息。
需要说明的是,在其他实施例中,在进行步骤S103m之后,进行步骤S103n之前,还可以包括步骤:判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
请继续参考图2,进行步骤S104,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式。
具体的,与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式包括:通过[concept1]($如何)[action][concept2],从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[concept1],从初始请求信息中提取单独词“开通”填充对应的缺失语义成分[action],从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[concept2],形成具体语义表达式:通过网上银行($如何)($开通)信用卡,($如何)表示语义规则词“如何”可以为关键词“怎么”、“怎么样”或“怎样”替代,($开通)表示单独词“开通”可以被“办理”、“订购”或“申请”替代;[action1][concept1]($如何)[action2][concept2],从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[concept1],从初始请求信息中提取单独词“通过”填充对应的缺失语义成分[action1],从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[concept2],从初始请求信息中提取单独词“开通”填充对应的缺失语义成分[action2],形成具体语义表达式:通过网上银行($如何)开通信用卡;通过[concept1]($如何)开通[concept2],从初始请求信息中提取单独词“网上银行”填充对应的缺失语义成分[concept1],从初始请求信息中提取单独词“信用卡”填充对应的缺失语义成分[concept2],形成具体语义表达式:通过网上银行($如何)开通信用卡。
在一实施例中,在进行步骤S104前,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,还包括:分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理。
具体请参考图6,步骤S104包括步骤S104a、步骤S104b、步骤S104c、步骤S104d四个子步骤。
首先进行步骤S104a,判断与所述初始请求信息匹配的抽象语义表达式的数目M是否大于需要存入智能问答知识库中具体语义表达式的数目N,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,进行步骤S104c;当与所述初始请求信息匹配的抽象语义表达式的数目M小于需要存入智能问答知识库中具体语义表达式的数目N时,进行步骤S104b;
步骤S104c,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,然后进行步骤S104d;
步骤S104d,从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式,接着进行步骤S105;
步骤S104b,从所述初始请求信息中提取与M个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到对应的M个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的M个具体语义表达式;然后进行步骤S105。
需要说明的是,当与所述初始请求信息匹配的抽象语义表达式的数目M等于需要存入智能问答知识库中具体语义表达式的数目N时,既可以进行步骤S104c,也可以进行步骤S104b。
进行打分处理的目的是将与初始请求信息最匹配的预定数目的具体语义表达式存入智能问答知识库。
在一实施例中,所述打分处理采用以下一种或多种方式的结合:
方式一,缺失语义成分匹配的数量越多,得分越高。
比如,通过匹配处理,得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式:通过[concept1]($如何)[action][concept2],该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应,缺失语义成分[action]与单独词“开通”对应,缺失语义成分[concept2]与单独词“信用卡”对应,每个缺失语义成分均有对应的填充内容,因而该抽象语义表达式的缺失语义成分匹配的数量很多,得分较高。
方式二,设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高。
比如,通过匹配处理,得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式,包括,抽象语义表达式1:通过[concept1]($如何)[action][concept2];抽象语义表达式2:[action1][concept1]($如何)[action2][concept2]。
设定缺失语义成分[concept2]为核心语义成分,由于抽象语义表达式2中,缺失语义成分[action1]距离核心语义成分[concept2]的距离大于抽象语义表达式1中缺失语义成分[concept1]距离核心语义成分[concept2]的距离,抽象语义表达式1的得分高于抽象语义表达式2的得分。
方式三,词性置信度越大,得分越高。当多个单独词构成的内容填充抽象语义表达式中对应的某一缺失语义成分时,若填充内容的某个位置的一个单独词为业务属性词汇时,则该抽象语义表达式得分较高。
在一实施例中,当至少两个单独词构成的内容填充抽象语义表达式中对应的某一缺失语义成分时,若所述内容的末尾的一个单独词为业务属性词汇,则该抽象语义表达式得分较高。
比如,当填充某一填充抽象语义表达式中某一缺失语义成分对应的内容为“个人信用卡”时,该内容有两个单独词“个人”和“信用卡”构成,“个人信用卡”中的末尾的一个单独词为“信用卡”,单独词“信用卡”属于业务属性词汇,则该抽象语义表达式得分较高。
方式四,根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高。
在建立抽象语义数据库时,可以定义抽象语义数据库中某些抽象语义表达式的优先级较高,在匹配处理时,如果得到该优先级较高的抽象语义表达式,则该优先级较高的抽象语义表达式的得分较高。
比如,在建立抽象语义数据库时,定义抽象语义表达式“通过[concept1]($如何)[action][concept2]”具有较高的优先级。在具体的实施例中,可以对该抽象语义表达式打上标记,该标记代表该抽象语义表达式的具有较高的优先级,或者该标记表示该抽象语义表达式的优先级别的高低。
通过匹配处理,得到与所述初始请求信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式为:通过[concept1]($如何)[action][concept2],由于该语义表达式的具有较高的优先级,因而得分较高。
方式五,根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。
请继续参考图2,进行步骤S105,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。
本实施例将该初始请求信息以及所述具体语义表达式存入智能问答知识库时,可以将该初始请求信息作为标准问,将具体语义表达式作为该存储的标准问下的扩展问。此外,将该初始请求信息以及所述具体语义表达式存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。所述与初始请求信息对应的答案为用户提供。
本实施例可以根据不同的设定,仅将得分最靠前的一个具体语义表达式及对应的初始请求信息一并存入智能问答知识库,也可以将得分最靠前的多个具体语义表达式及对应的初始请求信息一并存入智能问答知识库。
本发明实施例还提供了一种基于抽象语义推荐的问答知识库建立装置,请参考图7,包括:
抽象语义表达式获取单元302,用于获取多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
接收单元304,用于接收初始请求信息;
抽象语义推荐模块301,用于根据所述抽象语义表达式获取单元302获取的多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式;
填充单元303,用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式;
存入单元305,用于将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库306。
在一实施例中,抽象语义推荐模块301进行抽象语义推荐处理过程包括:
对所述初始请求信息进行分词处理,得到若干单独词;
分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;
分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;
对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
在一实施例中,抽象语义推荐模块301在进行匹配处理之前还包括:判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
需要说明的是,当抽象语义推荐模块无法获得与所述初始请求信息对应的抽象语义表达式时,通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。
需要说明的是,本实施例和后续实施例关于建立装置的某个单元(或模块)功能的其他限定或描述请参考前述基于抽象语义推荐的问答知识库建立方法部分的相关限定或描述,在此不再赘述。
在另一实施例中,所述建立装置还包括:答案提供单元,用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。
在另一实施例中,请参考图8,抽象语义推荐模块301包括:分词单元301a,用于对所述初始请求信息进行分词处理,得到若干单独词;词性标注单元301b,用于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;词类判断单元301c,用于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;搜索单元301d,用于对抽象语义表达式获取单元302获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;匹配单元301e,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
所述抽象语义表达式还包括语义规则词;所述搜索单元301d搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
所述匹配单元301e得到与所述初始请求信息匹配的抽象语义表达式满足以下条件:
缺失语义成分对应的词性包括对应的填充内容的词性;
初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于同一词类;
该抽象语义表达式与初始请求信息的顺序相同。
在另一实施例中,请参考图9,所述抽象语义推荐模块301包括:分词单元301a、规则词识别单元301f、词性标注单元301b、词类判断单元301c、搜索单元301d、匹配单元301e,其中,
所述分词单元301a,用于对所述初始请求信息进行分词处理,得到若干单独词;
规则词识别单元301f,用于将每个单独词识别为语义规则词或非语义规则词;
词性标注单元301b,用于分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
词类判断单元301c,用于分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
搜索单元301d,用于对抽象语义表达式获取单元302获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配单元301e,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
在另一实施例中,请参考图10,所述基于抽象语义推荐的问答知识库建立装置还包括打分单元304,用于当抽象语义推荐模块301获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
所述打分单元304采用以下一种或多种方式的结合进行打分处理:
缺失语义成分匹配的数量越多,得分越高;
设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
根据词性置信度,多个单独词填充某一的语义成分符时,多个单独词中某一位置单独词为某一属性词汇时,得分越高;
根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得分越高。
本发明还提供了一种基于抽象语义推荐的问答知识库建立系统,请参考图11,包括:
抽象语义数据库501,所述抽象语义数据库501包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
基于抽象语义推荐的问答知识库建立装置21,所述基于抽象语义推荐的问答知识库建立装置21包括:
抽象语义表达式获取单元302,用于从抽象语义数据库501中获取多个抽象语义表达式;
接收单元304,用于接收初始请求信息;
抽象语义推荐模块301,用于根据抽象语义表达式获取单元302获取的多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式;
填充单元303,用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式;
存入单元305,用于将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库306。
可以对对抽象语义数据库501中抽象语义表达式进行编辑操作,所述编辑操作包括:增加、删除、替换等操作。
需要说明的是,关于建立系统的各单元、模块的其他限定或描述,请参考前述实施例,在此不再赘述。
综上,本发明实施例基于抽象语义推荐的问答知识库建立方法,提供抽象语义数据库,在接收初始请求信息后,根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。因而本发明的方法用户只需要输入一条初始请求信息,本发明的方法可以对该初始请求信息进行自动的扩展,获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式),存入智能问答知识库,从而提高了基于抽象语义推荐的问答知识库建立效率。
本发明实施例基于抽象语义推荐的问答知识库建立装置,接收单元在接收到用户输入的一条初始请求信息后,抽象语义推荐模块进行抽象语义的推荐处理,获得与所述初始请求信息对应的一个或多个具体语义表达式,填充单元在获得的一个或多个具体语义表达式表达的语义与初始请求信息所要表达的语义相同或近似,存入单元将一个或多个具体语义表达式及对应的初始请求信息存入智能问答知识库。本发明的建立装置,用户使用本发明的装置只需要输入一条初始请求信息,本发明的装置可以对该初始请求信息进行自动的扩展,获得与该初始请求信息相关的若干条信息(一个或多个具体语义表达式),存入智能问答知识库,从而提高了基于抽象语义推荐的问答知识库建立效率。
本发明实施例基于抽象语义推荐的问答知识库建立系统,除了包括建立装置外还包括抽象语义数据库,抽象语义数据库用于提供抽象语义表达式,因而在基于抽象语义推荐的问答知识库建立时,一个抽象语义数据库可以向不同的建立装置提供数据信息。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (20)
1.一种基于抽象语义推荐的问答知识库建立方法,其特征在于,包括:
提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
接收初始请求信息,所述初始请求信息为需要进行抽象语义推荐的信息;
根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理,当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义表达式存入智能问答知识库。
2.如权利要求1所述的建立方法,其特征在于,所述抽象语义推荐处理包括:
对所述初始请求信息进行分词处理,得到若干单独词;
将每个单独词识别为语义规则词或非语义规则词;
分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
3.如权利要求1所述的建立方法,其特征在于,所述抽象语义推荐处理包括:
对所述初始请求信息进行分词处理,得到若干单独词;
分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
4.如权利要求2或3所述的建立方法,其特征在于,在进行匹配处理之前还包括:判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
5.如权利要求2或3所述的建立方法,其特征在于,所述抽象语义表达式还包括语义规则词;所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
6.如权利要求5所述的建立方法,其特征在于,与所述初始请求信息匹配的抽象语义表达式满足以下条件:
缺失语义成分对应的词性包括对应的填充内容的词性;
初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类;
该抽象语义表达式与初始请求信息的顺序相同。
7.如权利要求2或3所述的建立方法,其特征在于,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,还包括:
分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,从所述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对应的内容,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
8.如权利要求7所述的建立方法,其特征在于,所述打分处理采用以下一种或多种方式的结合:
缺失语义成分匹配的数量越多,得分越高;
设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
词性置信度越大,得分越高;
根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,
得分越高。
9.如权利要求1所述的建立方法,其特征在于,还包括:当无法获得与所述初始请求信息对应的抽象语义表达式时,通过人工方式在所述智能问答知识库中添加与所述初始请求信息对应的扩展问。
10.如权利要求1所述的建立方法,其特征在于,还包括:将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,
并将该答案一并存入智能问答知识库。
11.一种基于抽象语义推荐的问答知识库建立装置,其特征在于,包括:
抽象语义表达式获取单元,用于获取多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
接收单元,用于接收初始请求信息,所述初始请求信息为需要进行抽象语义推荐的信息;
抽象语义推荐模块,用于根据获取多个抽象语义表达式获取的所述多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式;
填充单元,用于当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式;
存入单元,用于将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库。
12.如权利要求11所述的建立装置,其特征在于,所述抽象语义推荐模块包括:分词单元、规则词识别单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,
所述分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词;
规则词识别单元,用于将每个单独词识别为语义规则词或非语义规则词;
词性标注单元,用于分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
词类判断单元,用于分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
13.如权利要求11所述的建立装置,其特征在于,抽象语义推荐模块包括:
分词单元、词性标注单元、词类判断单元、搜索单元和匹配单元,其中,
分词单元,用于对所述初始请求信息进行分词处理,得到若干单独词;
词性标注单元,用于分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;
词类判断单元,用于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;
搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配单元,用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。
14.如权利要求12或13所述的建立装置,其特征在于,所述抽象语义推荐模块还包括:数目判断单元、去除单元和补充单元,其中:数目判断单元,用于判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内;去除单元,用于当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;补充单元,用于当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。
15.如权利要求12或13所述的建立装置,其特征在于,所述抽象语义表达式还包括语义规则词;所述搜索单元搜索得到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单独词相同或属于同一词类。
16.如权利要求15所述的建立装置,其特征在于,所述匹配单元得到与所述初始请求信息匹配的抽象语义表达式满足以下条件:
缺失语义成分对应的词性包括对应的填充内容的词性;
初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于同一词类;
该抽象语义表达式与初始请求信息的顺序相同。
17.如权利要求12或13所述的建立装置,其特征在于,所述基于抽象语义推荐的问答知识库建立装置还包括打分单元,用于当抽象语义推荐模块获得的与所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目N时,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表达式。
18.如权利要求17所述的建立装置,其特征在于,所述打分单元采用以下一种或多种方式的结合进行打分处理:
缺失语义成分匹配的数量越多,得分越高;
设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失语义成分与该核心语义成分的距离越近,得分越高;
词性置信度越大,得分越高;
根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;
根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,
得分越高。
19.如权利要求11所述的建立装置,其特征在于,还包括:答案提供单元,
用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。
20.一种基于抽象语义推荐的问答知识库建立系统,其特征在于,包括:
抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
权利要求11~19任一项所述的建立装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511028179.2A CN105631032B (zh) | 2015-12-31 | 2015-12-31 | 基于抽象语义推荐的问答知识库建立方法、装置及系统 |
US15/390,118 US10394956B2 (en) | 2015-12-31 | 2016-12-23 | Methods, devices, and systems for constructing intelligent knowledge base |
US16/504,550 US11017178B2 (en) | 2015-12-31 | 2019-07-08 | Methods, devices, and systems for constructing intelligent knowledge base |
US16/504,546 US11227118B2 (en) | 2015-12-31 | 2019-07-08 | Methods, devices, and systems for constructing intelligent knowledge base |
US16/504,558 US11301637B2 (en) | 2015-12-31 | 2019-07-08 | Methods, devices, and systems for constructing intelligent knowledge base |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511028179.2A CN105631032B (zh) | 2015-12-31 | 2015-12-31 | 基于抽象语义推荐的问答知识库建立方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105631032A CN105631032A (zh) | 2016-06-01 |
CN105631032B true CN105631032B (zh) | 2018-12-28 |
Family
ID=56045965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511028179.2A Active CN105631032B (zh) | 2015-12-31 | 2015-12-31 | 基于抽象语义推荐的问答知识库建立方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105631032B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485328B (zh) * | 2016-10-31 | 2020-06-19 | 上海智臻智能网络科技股份有限公司 | 信息处理系统及方法 |
CN110059171B (zh) * | 2019-04-12 | 2021-01-01 | 中国工商银行股份有限公司 | 智能问答性能提升方法及系统 |
CN112232082B (zh) * | 2020-10-14 | 2022-02-18 | 海南大学 | 面向本质计算的多模态dikw内容多语义分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004118647A (ja) * | 2002-09-27 | 2004-04-15 | Communication Research Laboratory | 統計的検定を利用した質問応答方法,質問応答システム,質問応答プログラムおよび質問応答プログラムを記録した記録媒体 |
CN101398835A (zh) * | 2007-09-30 | 2009-04-01 | 日电(中国)有限公司 | 基于自然语言的服务选择系统与方法以及服务查询系统与方法 |
CN104850539A (zh) * | 2015-05-28 | 2015-08-19 | 宁波薄言信息技术有限公司 | 一种自然语言理解方法及基于该方法的旅游问答系统 |
CN105183716A (zh) * | 2015-09-21 | 2015-12-23 | 上海智臻智能网络科技股份有限公司 | 一种基于抽象语义的智能交互方法 |
-
2015
- 2015-12-31 CN CN201511028179.2A patent/CN105631032B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004118647A (ja) * | 2002-09-27 | 2004-04-15 | Communication Research Laboratory | 統計的検定を利用した質問応答方法,質問応答システム,質問応答プログラムおよび質問応答プログラムを記録した記録媒体 |
CN101398835A (zh) * | 2007-09-30 | 2009-04-01 | 日电(中国)有限公司 | 基于自然语言的服务选择系统与方法以及服务查询系统与方法 |
CN104850539A (zh) * | 2015-05-28 | 2015-08-19 | 宁波薄言信息技术有限公司 | 一种自然语言理解方法及基于该方法的旅游问答系统 |
CN105183716A (zh) * | 2015-09-21 | 2015-12-23 | 上海智臻智能网络科技股份有限公司 | 一种基于抽象语义的智能交互方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105631032A (zh) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105608218B (zh) | 智能问答知识库的建立方法、建立装置及建立系统 | |
CN105677795B (zh) | 抽象语义的推荐方法、推荐装置及推荐系统 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN105868179B (zh) | 一种智能问答方法及装置 | |
CN105912629B (zh) | 一种智能问答方法及装置 | |
CN106649742A (zh) | 数据库维护方法和装置 | |
EP2833271A1 (en) | Multimedia question and answer system and method | |
US10496756B2 (en) | Sentence creation system | |
CN105787134B (zh) | 智能问答方法、装置及系统 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN109829052A (zh) | 一种基于人机交互的开放式对话方法和系统 | |
KR102491172B1 (ko) | 자연어 질의응답 시스템 및 그 학습 방법 | |
CN116756295B (zh) | 知识库的检索方法、装置及存储介质 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN109271459A (zh) | 基于Lucene和文法网络的聊天机器人及其实现方法 | |
CN113569023A (zh) | 一种基于知识图谱的中文医药问答系统及方法 | |
CN105631032B (zh) | 基于抽象语义推荐的问答知识库建立方法、装置及系统 | |
CN113742446A (zh) | 一种基于路径排序的知识图谱问答方法及系统 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN106777080A (zh) | 短摘要生成方法、数据库建立方法及人机对话方法 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: The method, device and system for building a question answering knowledge base based on abstract semantic recommendation Effective date of registration: 20230223 Granted publication date: 20181228 Pledgee: China Construction Bank Corporation Shanghai No.5 Sub-branch Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd. Registration number: Y2023980033272 |