CN105912645A - 一种智能问答方法及装置 - Google Patents

一种智能问答方法及装置 Download PDF

Info

Publication number
CN105912645A
CN105912645A CN201610218251.6A CN201610218251A CN105912645A CN 105912645 A CN105912645 A CN 105912645A CN 201610218251 A CN201610218251 A CN 201610218251A CN 105912645 A CN105912645 A CN 105912645A
Authority
CN
China
Prior art keywords
abstract semantics
answer
information
input information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610218251.6A
Other languages
English (en)
Other versions
CN105912645B (zh
Inventor
曾永梅
李波
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201610218251.6A priority Critical patent/CN105912645B/zh
Publication of CN105912645A publication Critical patent/CN105912645A/zh
Application granted granted Critical
Publication of CN105912645B publication Critical patent/CN105912645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Abstract

一种智能问答方法及装置,所述方法包括:接收用户输入信息;当无法直接获得与用户输入信息对应的答案时,根据抽象语义数据库对用户输入信息进行抽象语义推荐处理,得到与用户输入信息对应的抽象语义类别和抽象语义表达式,抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式;根据抽象语义表达式从用户输入信息中提取对应于缺失语义成分的填充内容;根据处理方式的指示,从知识库提取与填充内容相关的目标信息并进行处理,以得到答案。上述方案可节省建立知识库的时间和知识库占用的存储资源,提高知识库维护效率。

Description

一种智能问答方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种智能问答方法及装置。
背景技术
知识库,又称为智能数据库或人工智能数据库,在知识库中,信息被有效组织以便进行检索和利用,例如在存储一些主体的信息时,除存储主体本身信息外,还建立主体及其属性的映射关系并记录具体的属性值等等,从而在检索到主体时可以查找到其属性,或者检索到属性时可以查找对应的主体有哪些。知识库广泛应用于人工智能领域,其中一个典型的应用就是智能问答系统,又称为自动问题系统。
应用于智能问答系统的知识库中存储多个知识点,每个知识点包括一个或多个预设的问题以及对应的答案信息。当用户通过输入请求信息提出问题时,计算请求信息与预设问题的语义相似度,如果最高语义相似度大于预设阈值,则将该问题对应的答案信息返回给用户。
然而,现有技术的这种通过建立知识点获取答案的方式存在知识库体量庞大,建立难且维护难的问题。例如,知识库中存储有多款手机及其价格的知识点,例如“三星galaxy5的价格”及对应答案的知识点,“苹果4的价格”及对应答案的知识点,“华为P6的价格”及对应答案的知识点等等。现有技术中,为了直接获得用户输入问句“三星galaxy5比苹果4贵多少”的答案,还需要建立“三星galaxy5比苹果4贵多少”及对应答案这一个知识点。同理,当用户输入问句“苹果4比华为P6贵多少”,如果知识库中没有建立“苹果4比华为P6贵多少”及对应答案这一知识点,则无法获取答案。
从上例可以看出,当用户输入问句是要获取与现有知识点有关的答案时,现有技术由于无法实现推理如何在现有知识点的基础上得到答案,而必须建立各种用户输入问句对应的知识点,导致知识点的建设十分繁杂和耗时。
发明内容
本发明解决的技术问题是节省建立知识库的时间,减少知识库占用的存储资源,并提高知识库的维护效率。
为解决上述技术问题,本发明实施例提供一种智能问答方法,所述方法包括:
接收用户输入信息;当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式;根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容;根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。
可选地,所述根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,包括:
根据所述处理方式指示的信息关联方式,从所述知识库提取与所述填充内容相关的目标信息;
根据所述处理方式指示的信息操作方法,对所述目标信息进行处理。
可选地,当所述抽象语义类别表征属性值差异度量时,所述从所述知识库提取与所述填充内容相关的目标信息包括:根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容相关的属性值;所述对所述目标信息进行处理包括:根据所述处理方式指示的信息操作方法,对所述属性值进行做差运算。
可选地,当所述抽象语义类别表征列举特定属性值范围内的对象时,所述从所述知识库提取与所述填充内容相关的目标信息包括:根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容中相关的对象及其属性值;所述对所述目标信息进行处理包括:根据所述处理方式指示的信息操作方法,筛选出属于所述特定属性值范围的所述属性值对应的对象。
可选地,所述知识库包括多个知识点以及多个实例,每个知识点包括答案以及多个问题,至少部分数目所述实例包括一个或多个属性,每个属性具有属性值;
当所述抽象语义类别表征主体的复加属性时,所述从知识库提取与所述填充内容相关的目标信息包括:
从知识库中提取答案为具有一个或多个属性的实例的知识点中的问题;
根据所述属性对每个所述问题进行虚拟化处理,使得每个所述问题对应一个或多个虚拟问题,所述虚拟问题中至少包括部分所述填充内容,所述虚拟问题作为目标信息;
对所述目标信息进行处理包括:
计算所述用户输入信息与所述虚拟问题的语义相似度,当最高语义相似度大于预设阈值时,将所述虚拟问题的答案作为所述用户输入信息的答案,所述虚拟问题的答案为对应属性的属性值。
可选地,通过以下其中一种方式或两种方式的结合使所述虚拟问题中至少包括部分所述填充内容:
第一种为在进行虚拟化处理之前对从知识库中提取的问题进行筛选处理,以使所述问题至少包括部分所述填充内容;
第二种为对虚拟化处理得到的问题进行筛选处理,以使所述问题至少包括部分所述填充内容。
可选地,在抽象语义推荐处理之前,所述方法还包括:提供知识库,所述知识库包括多个知识点,每个知识点包括答案以及多个问题;当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,判定无法直接获得与所述用户输入信息对应的答案;否则,向用户提供所述最高语义相似度值对应的知识点中的答案。
可选地,所述抽象语义推荐处理包括:
对所述用户输入信息进行分词处理,得到若干单独词;分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;对所述抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
本发明实施例还提供一种智能问答装置,所述装置包括:
接收单元,适于接收用户输入信息;
抽象语义推荐处理单元,适于当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式;
提取单元,适于根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容;
处理单元,适于根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。
可选地,所述处理单元包括:
目标信息提取子单元,适于根据所述处理方式指示的信息关联方式,从所述知识库提取与所述填充内容相关的目标信息;
目标信息处理子单元,适于根据所述处理方式指示的信息操作方法,对所述目标信息进行处理。
可选地,所述目标信息提取子单元还适于:当所述抽象语义类别表征属性值差异度量时,根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容相关的属性值;所述目标信息处理子单元,还适于当所述抽象语义类别表征属性值差异度量时根据所述处理方式指示的信息操作方法,对所述属性值进行做差运算。
可选地,所述目标信息提取子单元还适于:当所述抽象语义类别表征列举特定属性值范围内的对象时,根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容中相关的对象及其属性值;所述目标信息处理子单元,还适于当所述抽象语义类别表征列举特定属性值范围内的对象时,根据所述处理方式指示的信息操作方法,筛选出属于所述特定属性值范围的所述属性值对应的对象。
可选地,所述知识库包括多个知识点以及多个实例,每个知识点包括答案以及多个问题,至少部分数目所述实例包括一个或多个属性,每个属性具有属性值,所述目标信息提取子单元还适于:当所述抽象语义类别表征主体的复加属性时,从知识库中提取答案为具有一个或多个属性的实例的知识点中的问题,根据所述属性对每个所述问题进行虚拟化处理,使得每个所述问题对应一个或多个虚拟问题,所述虚拟问题中至少包括部分所述填充内容,所述虚拟问题作为目标信息;所述目标信息处理子单元还适于:当所述抽象语义类别表征主体的复加属性时,计算所述用户输入信息与所述虚拟问题的语义相似度,当最高语义相似度大于预设阈值时,将所述虚拟问题的答案作为所述用户输入信息的答案,所述虚拟问题的答案为对应属性的属性值。
可选地,所述目标信息提取子单元通过以下其中一种方式或两种方式的结合使所述虚拟问题中至少包括部分所述填充内容:
第一种为在进行虚拟化处理之前对从知识库中提取的问题进行筛选处理,以使所述问题至少包括部分所述填充内容;
第二种为对虚拟化处理得到的问题进行筛选处理,以使所述问题至少包括部分所述填充内容。
可选地,所述智能问答装置,还包括:
知识库,适于提供多个知识点,每个知识点包括答案以及多个问题;
预处理单元,适于在进行抽象语义推荐处理之前,获取所述用户输入信息与所述知识库中问题的最高语义相似度值,并判断所述最高语义相似度值与预设相似度阈值的大小;
判断单元,当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,判定无法直接获得与所述用户输入信息对应的答案;
答案直接提供单元,适于当所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,向用户提供所述最高语义相似度值对应的知识点中的答案。
可选地,所述抽象语义推荐处理单元包括:
分词子单元,适于对所述用户输入信息进行分词处理,得到若干单独词;
词性标注子单元,适于分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
词类判断子单元,适于分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
搜索子单元,适于对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配子单元,适于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例通过接收用户输入信息,当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式,根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容,根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。上述过程由于实现了在用户输入信息无法直接从知识库获取答案时,可以根据用户输入信息对应的抽象语义类别确定需要从知识库中获取的目标信息以及处理目标信息的方式,进而完成根据用户输入信息进行推理和运算的过程,从而可以在现有已建立知识点的基础上获得用户输入信息对应的答案,避免按现有技术必须建立与用户输入信息对应的知识点的方式才能获取答案的情况,从而节省了建立知识点的时间,也即节省了建立知识库的时间。与此同时,由于不需要再建立各种可能用户输入信息对应的知识点,则可节省知识库占用的存储资源,并且也不需要再维护繁杂的知识点,进而提高知识库的维护效率。
附图说明
图1是本发明实施例中的一种智能问答方法的流程图;
图2是本发明实施例中的一种抽象语义推荐处理方法的流程图;
图3是本发明实施例中的一种智能问答装置的结构示意图。
具体实施方式
现有技术的这种通过建立知识点获取答案的方式存在知识库体量庞大,建立难且维护难的问题。例如,知识库中存储有多款手机及其价格的知识点,例如“三星galaxy5的价格”及对应答案的知识点,“苹果4的价格”及对应答案的知识点,“华为P6的价格”及对应答案的知识点等等。现有技术中,为了直接获得用户输入问句“三星galaxy5比苹果4贵多少”的答案,还需要建立“三星galaxy5比苹果4贵多少”及对应答案这一个知识点。同理,当用户输入问句“苹果4比华为P6贵多少”,如果知识库中没有建立“苹果4比华为P6贵多少”及对应答案这一知识点,则无法获取答案。
从上例可以看出,当用户输入问句是要获取与现有知识点有关的答案时,现有技术由于无法实现推理如何在现有知识点的基础上得到答案,而必须建立各种用户输入问句对应的知识点,导致知识点的建设十分繁杂和耗时。
本发明实施例通过接收用户输入信息,当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式,根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容,根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。上述过程由于实现了在用户输入信息无法直接从知识库获取答案时,可以根据用户输入信息对应的抽象语义类别确定需要从知识库中获取的目标信息以及处理目标信息的方式,进而完成根据用户输入信息进行推理和运算的过程,从而可以在现有已建立知识点的基础上获得用户输入信息对应的答案,避免按现有技术必须建立与用户输入信息对应的知识点的方式才能获取答案的情况,从而节省了建立知识点的时间,也即节省了建立知识库的时间。与此同时,由于不需要再建立各种可能用户输入信息对应的知识点,则可节省知识库占用的存储资源,并且也不需要再维护繁杂的知识点,进而提高知识库的维护效率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例中的一种智能问答方法的流程图。下面参照图1所示的步骤进行说明。
步骤S101:接收用户输入信息。
在具体实施中,所述用户输入信息可以通过键盘或触摸屏等人机交互装置输入的文本信息,也可以是通过语音输入后经过转换得到的文本信息。
步骤S102:当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式。
在具体实施中,在进行抽象语义推荐处理之前,首先判断是否可以直接从知识库中获得与所述用户输入信息对应的答案。具体而言,判断是否可以从知识库中获得与所述用户输入信息对应的答案可以按如下方式进行:
提供知识库,所述知识库包括多个知识点,每个知识点包括答案以及多个问题;将所述用户输入信息与所述知识库中的问题进行相似度计算;当所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,直接向用户提供所述最高语义相似度值对应的知识点中的答案;当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,再实施本步骤S102进行所述抽象语义推荐处理。
需要说明的是,在具体实施中,当所述用户输入信息与所述知识库中问题的最高语义相似度值等于预设相似度阈值时,可以直接向用户提供所述最高语义相似度值对应的知识点中的答案,也可以实施本步骤S102进行所述抽象语义推荐处理并继续后续操作,在此不做限制。
本发明对所述用户输入信息进行抽象语义推荐处理得到的抽象语义类别表征了某一类用户问题所应对应答案的语义,例如,当抽象语义类别为概念说明(如:[concept]是什么),表征了对应答案内容应该表达对某个概念的说明、定义或介绍。其他抽象语义类别的示例有:行为方式(如:[concept]如何[action])、行为原因(如:[concept]为什么会[action])、主体关系介绍(如:[concept]的[attribute]是谁)。其中,[concept]、[action]和[attribute]为抽象语义的缺失语义成分。[concept]表示主体或客体成份的词或短语,[action]表示动作成分的词或短语,[attribute]表示属性成份的词或短语。
需要说明的是,所述抽象语义类别可以预先进行区分和定义,即预先建立好抽象语义表达式与抽象语义的类别之间的对应关系,但具体的对应关系不限于上述示例。
所述抽象语义数据库中存储有多个抽象语义表达式,每个类别的抽象语义包括一个或多个抽象语义表达式。每个抽象语义表达式包括一个或多个缺失语义成分,后续根据抽象语义表达式中的缺失语义成分可以从所述用户输入信息中提取对应的填充内容。
下面以用户输入信息为“通过网上银行如何开通信用卡”为例说明本文所指的抽象语义表达式以及抽象语义推荐处理操作。
在一具体实施例中,所述抽象语义数据库中存储的若干抽象语义表达式包括:通过[concept1][action][concept2]($如何)办理;通过[concept]办理($如何)办理;[concept2]($如何)通过[concept1]办理;($如何)通过[concept]办理;通过[concept]($如何)办理;通过[concept1]($如何)办理[concept2];通过[concept][action]($如何)办理;[concept2]通过[concept1]($如何)办理;通过[concept1]($如何)开通[concept2];通过[concept1]($如何)[action][concept2];[action1][concept1]($如何)[action2][concept2];[action1][concept1]($如何)[action2][concept2];哪里可以[action][concept];[action][concept]的步骤;[concept1][action][concept2]。
上述语义表达式中,“[]”表示缺失语义成分,“[]”的内容表示该缺失语义成分的属性,语义表达式中其他内容表示语义规则词,具体的上述表达式中,“[concept]”,“[concept1]”,“[concept2]”,“[action]”,“[action1]”,“[action2]”表示缺失语义成分,方框“[]”的内容“concept”,“concept1”,“concept2”,“action”,“action1”,“action2”表示对应的缺失语义成分的属性,其中“concept”表示缺失语义成分“[concept]”为概念属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括用户输入信息中的一个具有名词词性的单独词,或者包括用户输入信息中一个具有名词词性的单独词以及若干具有其他词性的单独词的组合;“concept1”表示缺失语义成分“[concept1]”为第一个概念属性的缺失语义成分,其中“concept”和“1”结合表示该缺失语义成分的属性,“concept”表示概念属性,“1”表示位置属性,为第一个,后续填充该缺失语义成分的内容为至少包括用户输入信息中第一个具有名词词性的单独词,或者包括用户输入信息中第一个具有名词词性的单独词以及若干具有其他词性的单独词的组合;“concept2”表示缺失语义成分“[concept2]”为第二个概念属性的缺失语义成分,后续填充该缺失语义成分的内容为至少包括用户输入信息中第二个具有名词词性的单独词,或者包括用户输入信息中第二个具有名词词性的单独词以及若干其他词性的单独词的组合;“action”表示缺失语义成分“[action]”为动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括用户输入信息中的一个具有动词词性的单独词,或者包括用户输入信息中一个具有动词词性的单独词以及若干具有其他词性的单独词的组合;“action1”表示缺失语义成分“[action1]”为第一个具有动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括用户输入信息中的第一个具有动词词性的单独词,或者包括用户输入信息中第一个具有动词词性的单独词以及若干具有其他词性的单独词的组合;“action2”表示缺失语义成分“[action2]”为第二个具有动作属性的缺失语义成分,后续填充该缺失语义成分的内容至少包括用户输入信息中的第二个具有动词词性的单独词,或者包括用户输入信息中第二个具有动词词性的单独词以及若干具有其他词性的单独词的组合。
上述各语义表达式中缺失语义成分之外的内容如“通过”,“($如何)”,“办理”,“开通”,“的步骤”等表示语义规则词,其中语义规则词“($如何)”表示“如何”这个语义规则词属于词类“$如何”,在一实施例中,所述“$如何”词类包括“如何”,“怎么”,“怎么样”,“怎样”等一组词义相近的词语,词类可以在建立抽象语义表达式时同时建立。相应的通过表示这个语义规则词属于词类“$通过”,在一实施例,所述词类“$开通”中包括关键词“开通”、“办理”、“订购”“申请”。后续在进行缺失语义成分的填充形成具体语义时,具有词类的语义规则词可以用该词类中的其他关键词代替。
需要说明的是,上述抽象语义表达式中缺失语义成分的表示方式以及词类信息的表示方式是为描述和表示的方便,仅作为一个示例,其不用限制本发明的保护范围,本发明的其他实施例中,对抽象语义表达式中缺失语义和词类信息可以采用其他的表示方式。
通过上述说明,可以了解到用户输入信息对应的抽象语义表达式及抽象语义类别的概念。下面参照图2所示说明步骤S102中所述的抽象语义推荐处理操作。通过抽象语义推荐处理操作,可以得到抽象语义表达式及抽象语义类别。所述抽象语义推荐处理可以包括步骤S102a、步骤S102b、步骤S102c、步骤S102d和步骤S102h。
进行步骤S102a,对所述用户输入信息进行分词处理,得到若干单独词。
所述分词处理依据一定分词规则进行,在系统中预先设定分词的规则,进行分词处理时,调用设定的分词规则,对用户输入信息与对应的领域知识数据库中的预置知识分别进行分词处理。
所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍历法或词频统计法,或其他合适的分词方法。
下面仍以接收的用户输入信息为“通过网上银行如何开通信用卡”作为示例进行说明。
对用户输入信息“通过网上银行如何开通信用卡”进行分词处理,得到若干单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡”。
进行步骤S102b,分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息。
对单独词进行词性标注处理,得到每个单独词的词性信息的目的是为后续将用户输入信息与抽象语义表达式的匹配提供匹配的依据。
具体以上例进行说明,标注上述的单独词“通过”的词性为第一个动词、介词,标注单独词“网上银行”的词性为第一个名词,标注单独词“如何”的词性为代词,标注单独词“开通”的词性为第二个动词,标注单独词“信用卡”的词性为第二个名词。需要说明的是词性标注为第一个名词时表示单独词“网上银行”为第一个具有名词词性的单独词,第二个名词、第一个动词或第二个动词的解释类似。
进行步骤S102c,分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息。
分别对每个所述单独词进行词类判断处理的目的是为了判断每个单独词是否具有相应的词类,在一实施例中,其具体过程为:将每个单独词与词类库中的若干词类进行匹配,若某一词类中存在该单独词,则该单独词具有相应的词类,当单独词具有相应的词类,则对该单独词进行属于某一词类(或词类信息)的标记,后续在进行匹配处理时,通过判断用户输入信息中部分内容与抽象语义表达式中的对应的语义规则词的是否属于同一词类,从而判断用户输入信息与该抽象语义表达式的匹配程度,提高了匹配的精度和效率。
进行步骤S102d,对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式。
对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集的目的是为了减少后续进行匹配处理时的负担以及减少处理时间,以提高系统的性能。
所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述用户输入信息中至少部分单独词相同或属于同一词类。在一实施例中,进行搜索处理时,若某个抽象语义表达式的至少部分语义规则词与所述用户输入信息中至少部分单独词相同或属于同一词类,则将该抽象语义表达式作为抽象语义候选集中的一个抽象语义表达式。在其他实施例中,可以根据其他的搜索方式对抽象语义数据库进行搜索,得到与所述用户输入信息相关的抽象语义候选集。
在具体的实施例中,对抽象语义数据库进行搜索处理,得到与所述用户输入信息“通过网上银行如何开通信用卡”相关的抽象语义候选集包括抽象语义表达式:通过[concept1][action][concept2]($如何)办理;通过[concept]办理($如何)办理;[concept2]($如何)通过[concept1]办理;($如何)通过[concept]办理;通过[concept]($如何)办理;通过[concept1]($如何)办理[concept2];通过[concept1]($如何)开通[concept2];通过[concept][action]($如何)办理;通过[concept1]($如何)开通[concept2];[concept2]通过[concept1]($如何)办理;通过[concept1]($如何)[action][concept2]。上述抽象语义候选集中的抽象语义表达式部分语义规则词(通过,通过,办理或($如何))与所述用户输入信息中至少部分单独词(通过,办理或如何)相同或属于同一词类。
步骤S102h,根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
具体的,通过匹配处理,得到与所述用户输入信息“通过网上银行如何开通信用卡”匹配的抽象语义表达式包括:通过[concept1]($如何)[action][concept2],该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应,缺失语义成分[concept2]与单独词“信用卡”对应,缺失语义成分[action]与单独词“开通”对应;通过[concept1]($如何)开通[concept2],该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应,缺失语义成分[concept2]与单独词“信用卡”对应。
此外,得到抽象语义表达式后,可以判断该抽象语义表达式属于哪一种类别,例如上述用户输入信息的抽象语义表达式为通过[concept1]($如何)[action][concept2],该抽象语义表达式属于行为方式介绍这个类别。需要说明的是,本领域技术人员应该可以理解如何将得到的抽象语义表达式划分到预定义的某个类别。
通过上述步骤S102a至步骤S102h可以得到用户输入信息对应的抽象语义表达式及抽象语义类别,以及该抽象语义表达式的各缺失语义成分。
在具体实施中,每个抽象语义类别具有对应的处理方式,所述处理方式指示如何根据抽象语义类别和用户输入信息确定计算答案所需要的目标信息,以及如何根据获取的这些目标信息进行答案的计算。
在具体实施中,所述处理方式可以指示信息关联方式,所述信息关联方式指示从知识库中提取哪些具体有关所述填充内容的目标信息。所述信息关联方式抽象语义的类别有关。例如,用户输入信息的对应抽象语义类别为身高差异度量,表征需要获得两个主体间的身高差值,那么对应建立的所述信息关联方式可以是去获取用户输入信息中两个主体各自的身高值。
在具体实施中,所述处理方式还指示了信息操作方法,所述信息操作方法指示具体如何根据获取的所述目标信息进行处理,该处理可以是具体的一些数值运算操作,也可以是一些比较和筛选操作,或者其他处理目标信息的操作。
需要说明的是,所述信息操作方法并限于上述示例,上述示例的抽象语义类别也只是为了说明本实施例的方法步骤,不应限制本发明的范围。
步骤S103:根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容。
关于如何从所述用户输入信息中提取对应与缺失语义成分的填充内容在上述抽象语义推荐处理中已经有相应说明,不再赘述。
本实施例中提取所述填充内容是为了将填充内容作为后续获取所述目标信息的其中一个依据。例如,用户输入信息的对应抽象语义类别为身高差异度量,表征需要获得两个主体间的身高差值,那么对应建立的所述信息关联方式可以是去获取用户输入信息中两个主体各自的身高值,在这种情况下,所述填充内容可以用于后续确定获取的身高值的主体。较为常见的是,如果需要获取具体属性值来计算答案,所述填充内容主要是用于确定该具体属性值的主体。
上述主体实际上是知识库中的实例。所述实例是指一个特定的对象,该对象具有相应的一个或多个属性。例如,“三星Exynos7420”就是一个实例,是属于手机这个类别的一个具体对象,“三星Exynos7420”具有相应的一个或多个属性(如价格,频率,颜色等),并具有各属性对应的值。知识库除包括多个知识点,每个知识点包括答案以及对应的多个问题外,还包括多个实例。其中,至少部分数目所述实例包括一个或多个属性,每个属性具有属性值。
步骤S104:根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。
在本步骤的具体实施中,根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理可以是:根据所述处理方式指示的信息关联方式,从所述知识库提取与所述填充内容相关的目标信息,并根据所述处理方式指示的信息操作方法,对所述目标信息进行处理。所述信息关联方式指示获取答案需要哪些信息,也即目标信息,所述处理方式指示在获取目标信息后,如何将所述目标信息进行处理得到答案。
在一实施例中,当所述抽象语义类别表征属性值差异度量时,用户输入信息的意图是期望获得某两个属性值之间相差的数值。例如,用户输入信息为“A比B高多少”,该问句是期望获取A和B身高这一属性值的差值;又如,“三星galaxy比苹果4贵多少”,该问句是期望获取价格这一属性值的差值。可以理解的是,其他属于属性值差异度量的问句见于温度差异、面价差异等等。在期望获得两个属性值之间差值的情况下,所述信息关联方式指示需要从知识库中获取的所述目标信息为与用户输入信息中主体内容有关的属性值,所述信息操作方法指示的是对获取的所述属性值进行做差运算。
下面以一示例说明上述实施例的实施过程。
示例1.1:用户输入信息为“三星galaxy比苹果4贵多少”。
实施步骤S101:接收用户输入信息“三星galaxy比苹果4贵多少”。
实施步骤S102:经将“三星galaxy比苹果4贵多少”与知识库中问题进行相似度计算后,得到该用户输入信息与知识库中问题的最高语义相似度值小于预设相似度阈值,判定无法直接获得与所述用户输入信息对应的答案,则根据抽象语义数据库对“三星galaxy比苹果4贵多少”进行抽象语义推荐处理,得到对应的抽象语义类别为价格属性值差异度量和抽象语义表达式为[concept1]比[concept2]贵多少,该抽象语义表达式包括了对应的缺失语义成分[concept1]和[concept2],该抽象语义类别具有对应的处理方式,所述处理方式指示的信息关联方式要求从知识库中获取填充内容的价格属性值,所述处理方式指示的信息操作方法要求将获取的价格属性值进行做差运算。
实施步骤S103:根据上述抽象语义表达式从“三星galaxy比苹果4贵多少”中提取对应于缺失语义成分的填充内容,得到所述填充内容为“三星galaxy”和“苹果4”。实施步骤S104:按照步骤S102得到的所述信息关联方式,从知识库中获取填充内容“三星galaxy”对应的价格属性值和填充内容“苹果4”的价格属性值;与此同时,按照步骤S102得到的所述信息操作方法,将“三星galaxy”对应的价格属性值和“苹果4”的价格属性值做差,得到所述用户输入信息的答案。
从上述示例可以看出,本发明实施例不需要再通过建立“三星galaxy比苹果4贵多少”及对应答案这知识点的方式去获取答案,而只需要在用户输入该问句时,根据其抽象语义类别对应的处理方式,获取相应的价格属性值并做差即可得到答案,从而实现了根据用户输入信息和知识库中已知的知识点进行推理。在实际应用中,类似用户输入问句以期获取现有知识点中各实例的属性值间差异的问题还有很多。就价格属性而言,具有价格属性的实例是很多的,如果都按现有的方式建立标识各种实例的价格属性间的比较的问题,无疑增加了建立知识库的时间和知识库的维护难度,以及知识库所占用的存储空间,而本实施例可以避免针对这种用户输入问题建立而知识点,而是通过推理利用现有的知识点获取答案。如:知识库中包括10种手机的价格信息时,现有技术中需要建立45个知识点才可以向用户提供任意两种手机之间的价格差,在实际的知识库中仅涉及价格信息的知识点就万条以上了,如需进行对比,则需要建设的知识点数目非常庞大,而使用本发明技术则可以节省这些知识点的建设成本和建设时间。在另一实施例中,当所述抽象语义类别表征列举特定属性值范围内的对象时,用户输入信息的意图是期望获得在特定属性值范围的对象。例如,用户输入信息为“4000元以上的手机有哪几款”,该问句是期望获取价格这一属性值大于4000元的手机;又如,用户输入信息为“4000元以下的手机有哪几款”,该问句是期望获取价格这一属性值小于4000元的手机;再如,用户输入信息为“2000元至4000元以下的手机有哪几款”,该问句是期望获取价格这一属性值在2000元至4000元之间的手机。当然可以理解的是,用户输入信息也可以是询问其他属性的属性值范围,如温度、面积等。
在具体实施中,在确定属性值范围时,可以根据从所述用户输入信息中提取出的填充内容中的数值进行确定。例如,如果抽象语义类别表征的是期望获得大于某具体价格的对象,则从填充内容中提取的数值则表示了下限价格值;如果抽象语义类别表征的是期望获得小于某具体价格的对象,则从填充内容中提取的数值则表示了上限价格值;如果抽象语义类别表征的是期望获得价格在某个区间的对象,则从填充内容中提取的两个大小不同的数值则可确定一数值区间。
在期望获取特定属性值范围的对象的情况下,所述信息关联方式指示所述知识库中提取与所述填充内容中相关的对象及其属性值,所述信息操作方法指示如何筛选出属于所述特定属性值范围的所述属性值对应的对象。
需要注意的是,在本实施例中,当得到的抽象语义表达式中包括一些特定的语义规则词时,由该特定的语义规则词确定所述属性值范围。例如,这些特定的语义规则词可以是“差不多”,该语义规则词对应的属性值范围可以预先被设定,例如“差不多”对应的属性值范围根据用户输入信息中主体的价格属性值上下浮动一定价格比例得到,从而可以根据该语义规则词确定所述属性值范围。
下面以示例2.1和示例2.2说明当所述抽象语义类别表征列举特定属性值范围内的对象时的实施过程。
示例2.1:用户输入信息为“4000元以上的手机有哪几款”。
实施步骤S101:接收用户输入信息“4000元以上的手机有哪几款”。
实施步骤S102:经将“4000元以上的手机有哪几款”与知识库中问题进行相似度计算后,得到该用户输入信息与知识库中问题的最高语义相似度值小于预设相似度阈值,判定无法直接获得与所述用户输入信息对应的答案,则根据抽象语义数据库对“4000元以上的手机有哪几款”进行抽象语义推荐处理,得到对应的抽象语义类别为特定范围内价格主体推荐,抽象语义表达式为[@人民币]以上的[concept],该抽象语义表达式包括了对应的缺失语义成分[@人民币]和[concept],该抽象语义类别表征列举价格属性值大于特定价格下限的对象,该抽象语义类别具有对应的处理方式,所述处理方式指示的信息关联方式要求从知识库中获取与填充内容的相关的对象及其价格属性值,并所述处理方式指示的信息操作方法要求筛选出价格属性值大于特定价格下限的对象。需要说明的是,抽象语义表达式“[@人民币]以上的[concept]”中的符号“@”表示[]内的内容属于一个特殊的词类,这种词类一般都是表示时间,手机号码等的数词。
实施步骤S103:根据所述抽象语义表达式从“4000元以上的手机有哪几款”中提取对应于缺失语义成分的填充内容,得到所述填充内容为“4000元”和“手机”。其中,填充内容中含有数值4000,语义规则词有以上,则确定该数值4000为所述特定价格下限。
实施步骤S104:按照步骤S102中得到的信息关联方式,从知识库中获取与填充内容“手机”相关的对象具体是指获取属于手机这个类别的所有手机及价格属性值。假设从知识库中获取到属于手机这个类别的手机及价格属性值有:小米2S,2000元;华为P6,4200元;三星Note3,5000元。接下来,按照步骤S102中得到的信息操作方式,筛选出大于价格属性值大于特定价格下限4000的对象。可以理解的是,该信息操作方式中的筛选操作具体可以是依次比较所获得的各个对象的属性值与特定价格下限之间的大小,具体地,将各个对象的属性值与4000做差,当差值大于0时,则判定该对象为其中一个答案。通过上述信息操作方式可以确定大于4000的价格属性值为4200和5000,对应对象分别为华为P6和三星Note3。可以看出,当上例中手机的价格属性值即具体价格发生变化时,答案无疑发生变化,本实施例可以动态获取用于计算答案的价格属性值,从而可以得到准确的答案。
示例2.2:用户输入信息为“和三星S6的价格差不多的手机有哪几款”。
实施步骤S101:接收用户输入信息“和三星S6的价格差不多的手机有哪几款”。
实施步骤S102:经将“和三星S6的价格差不多的手机有哪几款”与知识库中问题进行相似度计算后,得到该用户输入信息与知识库中问题的最高语义相似度值小于预设相似度阈值,判定无法直接获得与所述用户输入信息对应的答案,则根据抽象语义数据库对“和三星S6的价格差不多的手机有哪几款”进行抽象语义推荐处理,得到对应的抽象语义类别为特定范围内价格主体推荐,抽象语义表达式为和[concept1]的[attribute](attribute表示属性这一缺失语义成分)差不多的[concept2]有哪些。该抽象语义表达式包括了对应的缺失语义成分[concept1]、[attribute]和[concept2]和语义规则词“差不多”,该抽象语义类别表征列举特定价格属性值范围的对象。该抽象语义类别具有对应的处理方式,所述处理方式指示的信息关联方式要求从知识库中获取与填充内容中的主体内容相关的对象及其价格属性值以作为目标信息,并且所述处理方式指示的信息操作方法要求筛选出价格属性值符合所述特定范围的对象。
实施步骤S103:根据抽象语义表达式和[concept1]的[attribute]差不多的[concept2]从“和三星S6的价格差不多的手机有哪几款”中提取对应于缺失语义成分的填充内容,得到填充内容“三星S6”、“价格”和“手机”,其中的主体填充内容,即为一个实例的填充内容为“三星S6”。
实施步骤S104:按照步骤S102中得到的信息关联方式,从知识库中获取与填充内容“手机”和“价格”相关的对象。具体是指获取属于手机这个类别的所有手机及价格属性值。接下来,按照步骤S102中得到的信息操作方式,筛选出价格属性值特定范围的对象,由于语义规则词中含有“差不多”,该语义规则词确定了根据主体填充内容确定价格属性值范围时需要在填充内容“三星S6”的价格属性值的基础上下浮动的比例,例如比例为10%,从而可以在获取“三星S6”的价格属性值后,根据浮动比例10%计算出价格区间,从而确定特定属性值范围,进而可以通过比较属于手机这个类别的对象的价格属性与价格属性值范围的上限值与下限值的大小,当某对象的价格属性值大于下限值且小于上限值时,确定该对象为其中一个对象。
从上例可以看出,本发明实施例不需要针对每个询问属性值范围内对象的问题都建立相应的知识点,只要按照抽象语义类别对应的处理方式的指示获取属性值及其所述对象,并按该处理方式从所述对象中筛选出符合特定范围的对象即得到答案,从而可以节省建立类似问题的相应知识点的时间。
在又一实施例中,当所述抽象语义类别表征主体的复加属性时,该抽象语义类别表征期望获得某一属性的属性值。例如,用户输入信息为“三星s6手机的cpu频率是多少”,期望获得的答案为三星s6手机的CPU属性的频率属性的属性值。
当所述抽象语义类别表征主体的复加属性时,所述从知识库提取与所述填充内容相关的目标信息包括以下两步。
步骤a:从知识库中提取答案为具有一个或多个属性的实例的知识点中的问题。具体地,由于知识库中的知识点建立了问题与答案的对应关系,从知识库中提取答案即可得到该知识点的相应的问题。当知识点中存在一答案为实例,且该实例具有相应属性时,则将该答案对应的问题提取出来。
步骤b:根据所述属性对每个所述问题进行虚拟化处理,使得每个所述问题对应一个或多个虚拟问题,所述虚拟问题中至少包括部分所述填充内容,所述虚拟问题作为目标信息。具体地,根据作为答案的这些实例的属性把提取出的问题进行虚拟化处理,使得每个所述问题扩展出一个或多个虚拟问题,每个问题对应的虚拟问题的数目与属性值的数目相同。
同时,当所述抽象语义类别表征主体的复加属性时,对所述目标信息进行处理包括:
计算所述用户输入信息与所述虚拟问题的语义相似度,当最高语义相似度大于预设阈值时,将所述虚拟问题的答案作为所述用户输入信息的答案,所述虚拟问题的答案为对应属性的属性值。
下面分别以示例3说明当所述抽象语义类别表征主体的复加属性时,步骤S101至步骤S104的具体实施。
示例3:用户输入信息为“三星s6的cpu频率是多少”。
实施步骤S101:接收用户输入信息“三星s6的cpu频率是多少”。
实施步骤S102:经将“三星s6的cpu频率是多少”与知识库中问题进行相似度计算后,得到该用户输入信息与知识库中问题的最高语义相似度值小于预设相似度阈值,判定无法直接获得与所述用户输入信息对应的答案。根据抽象语义数据库对“三星s6的cpu频率是多少”进行抽象语义推荐处理,得到对应的抽象语义类别为复加属性值获取,抽象语义表达式为[concept]的[attribute1][attribute2]是多少,该抽象语义表达式包括了对应的缺失语义成分概念[concept]、第一属性[attribute1]和第二属性[attribute2],该抽象语义类别表征主体的复加属性,即表征获取复加属性的最后一个属性的值,该抽象语义类别具有对应的处理方式,所述处理方式指示的信息关联方式要求从知识库中获取与填充内容相关的虚拟问题作为目标信息,并指示了获取虚拟问题的方式,所述处理方式指示的信息操作方法要求提取最高语义相似度对应的虚拟问题中对应于实例属性的属性值作为答案。
实施步骤S103:根据抽象语义表达式从“三星s6的cpu频率是多少”中提取对应于缺失语义成分的填充内容,得到“三星s6”、“cpu”和“频率”。
实施步骤S104:从知识库中提取答案为具有一个或多个属性的实例的知识点中的问题。例如知识库中以实例为答案的知识点中,实例有“三星Exynos7420”、“小米2充电器”和“乐视T4电视机”,这些实例均有各自属性,这些实例作为知识点中的答案对应一个或多个问题,则将这些问题提取出来。其中“三星Exynos7420”对应的一个问题为“三星s6手机的cpu是什么”。接下来,根据“三星Exynos7420”的三个属性(价格、功率和频率)对问题“三星s6手机的cpu是什么”进行虚拟化处理,得到问题“三星s6手机的cpu是什么”对应的三个虚拟问题。所述虚拟化处理,是指根据“三星Exynos7420”的三个属性将问题“三星s6手机的cpu是什么”进行扩展,以对应得到三个虚拟问题,本例中得到“三星s6手机的cpu价格是什么”、“三星s6手机的cpu功率什么”以及“三星s6手机的cpu频率是什么”这三个虚拟问题。
同样地,根据其他另两个实例的属性也可以对其对应的知识点中的问题进行虚拟化处理,假设分别得到B个问题和C个问题。由此,共得到3+B+C个问题,其中,由于所述虚拟问题需要至少包括部分填充内容“三星s6”、“cpu”或“频率”,则上述3+B+C个问题中,只有“三星s6的价格是什么”、“三星s6的cpu功率是什么”以及“三星s6的cpu频率是什么”属于所述虚拟问题,其中的填充内容“三星s6”相同,而其他问题中没有包括上述填充内容。上述过程得到至少包括部分填充内容的所述虚拟问题即为所述目标信息。
接下来,对目标信息进行处理包括:计算所述用户输入信息“三星s6的cpu频率是多少”与上述三个虚拟问题的语义相似度,得到用户输入信息与其中的“三星s6手机的cpu频率是什么”的语义相似度最高,由于该虚拟问句中的“频率”属性是通过实例“三星Exynos7420”的“频率”得到的,则将这一属性的具体值作为用户输入信息对应的答案。在具体实施中,可以通过以下其中一种方式或两种方式的结合使所述虚拟问题中至少包括部分所述填充内容:
第一种为在进行虚拟化处理之前对从知识库中提取的问题进行筛选处理,以使所述问题至少包括部分所述填充内容;
第二种为对虚拟化处理得到的问题进行筛选处理,以使所述问题至少包括部分所述填充内容。
对应上述示例,为了使得所述虚拟问题中至少包括部分填充内容“三星s6”或“cpu频率”,可以在进行虚拟化处理之前,即在根据各实例的属性扩展问题之前,对提取出的问题进行筛选,选出填充内容具有“三星s6”或“cpu频率”的问题,也可以在根据各实例的属性扩展问题后得到所有的问题,再进行筛选处理,上述示例的实施中采用了第二种方式。
需要说明的是,也可以结合两种方式进行处理得到虚拟问题,在此不做限制。
从上述说明可以看出,当所述抽象语义类别表征主体的复加属性时,可以通过作为答案的实例推理出用户输入信息对应的答案,从而无论当用户输入信息问的是什么属性的具体值,都可以根据一个实例推理出答案。在实际应用中,只要“三星S6”用的CPU是“三星Exynos7420”,只需要建立以实例“三星Exynos7420”为答案的知识点,即可根据其属性动态的得到虚拟问题,从而当确定最高语义相似度对应的虚拟问题时,即可将对应该虚拟问题的“三星Exynos7420”的那一个属性的具体值作为答案,从而无论CPU的属性有多少个,都可以根据该实例的属性得到答案,因此,在建立知识点时,可以不需要针对每一个属性都建立相应的问题与答案,例如不需要针对CPU价格、CPU频率和CPU功率都建立相应的知识点,具体而言,不需要都建立“三星S6的CPU价格是多少”及对应答案,“三星S6的CPU频率是多少”及对应答案,以及“三星S6的CPU功率是多少”及对应答案,从而可以节省建立知识库的时间和简化智能问答系统中知识点的维护。如:只要建立了“三星Exynos7420”这个实例,所有使用该CPU的电子设备的CPU信息就都可以查询了。
综上,本发明实施例由于实现了在用户输入信息无法直接从知识库获取答案时,可以根据用户输入信息对应的抽象语义类别确定需要从知识库中获取的目标信息以及处理目标信息的方式,进而完成根据用户输入信息进行推理和运算的过程,从而可以在现有已建立知识点的基础上获得用户输入信息对应的答案,避免按现有技术必须建立与用户输入信息对应的知识点的方式才能获取答案的情况,从而节省了建立知识点的时间,也即节省了建立知识库的时间。与此同时,由于不需要再建立各种可能用户输入信息对应的知识点,则可节省知识库占用的存储资源,并且也不需要再维护繁杂的知识点,进而提高知识库的维护效率。
图3是本发明实施例中的一种智能问答装置的结构示意图。如图所示的智能问答装置,可以包括:接收单元301,抽象语义推荐处理单元302,提取单元303和处理单元304。
所述接收单元301,适于接收用户输入信息。
所述抽象语义推荐处理单元302,适于当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式。
所述提取单元303,适于根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容。
所述处理单元304,适于根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。
在具体实施中,所述处理单元304可以包括:目标信息提取子单元,适于根据所述处理方式指示的信息关联方式,从所述知识库提取与所述填充内容相关的目标信息;目标信息处理子单元,适于根据所述处理方式指示的信息操作方法,对所述目标信息进行处理。
在具体实施中,所述目标信息提取子单元还适于:当所述抽象语义类别表征属性值差异度量时,根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容相关的属性值;所述目标信息处理子单元:还适于当所述抽象语义类别表征属性值差异度量时根据所述处理方式指示的信息操作方法,对所述属性值进行做差运算。
在具体实施中,所述目标信息提取子单元还适于:当所述抽象语义类别表征列举特定属性值范围内的对象时,根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容中相关的对象及其属性值;所述目标信息处理子单元,还适于当所述抽象语义类别表征列举特定属性值范围内的对象时,根据所述处理方式指示的信息操作方法,筛选出属于所述特定属性值范围的所述属性值对应的对象。
在具体实施中,所述知识库包括多个知识点以及多个实例,每个知识点包括答案以及多个问题,至少部分数目所述实例包括一个或多个属性,每个属性具有属性值,所述目标信息提取子单元还适于:当所述抽象语义类别表征主体的复加属性时,从知识库中提取答案为具有一个或多个属性的实例的知识点中的问题;所述目标信息处理子单元还适于:当所述抽象语义类别表征主体的复加属性时,计算所述用户输入信息与所述虚拟问题的语义相似度,当最高语义相似度大于预设阈值时,将所述虚拟问题的答案作为所述用户输入信息的答案,所述虚拟问题的答案为对应属性的属性值。
在具体实施中,可以通过以下其中一种方式或两种方式的结合使所述虚拟问题中至少包括部分所述填充内容:
第一种为在进行虚拟化处理之前对从知识库中提取的问题进行筛选处理,以使所述问题至少包括部分所述填充内容;
第二种为对虚拟化处理得到的问题进行筛选处理,以使所述问题至少包括部分所述填充内容。
在具体实施中,所述智能问答装置还可以包括:
知识库,适于提供多个知识点,每个知识点包括答案以及多个问题;
预处理单元,适于在进行抽象语义推荐处理之前,获取所述用户输入信息与所述知识库中问题的最高语义相似度值,并判断所述最高语义相似度值与预设相似度阈值的大小;
判断单元,当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,判定无法直接获得与所述用户输入信息对应的答案;
答案直接提供单元,适于当所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,向用户提供所述最高语义相似度值对应的知识点中的答案。
在具体实施中,所述抽象语义推荐处理单元包括:
分词子单元,适于对所述用户输入信息进行分词处理,得到若干单独词;
词性标注子单元,适于分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
词类判断子单元,适于分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
搜索子单元,适于对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配子单元,适于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
本发明实施例通过接收用户输入信息,当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式,根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容,根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。上述过程由于实现了在用户输入信息无法直接从知识库获取答案时,可以根据用户输入信息对应的抽象语义类别确定需要从知识库中获取的目标信息以及处理目标信息的方式,进而完成根据用户输入信息进行推理和运算的过程,从而可以在现有已建立知识点的基础上获得用户输入信息对应的答案,避免按现有技术必须建立与用户输入信息对应的知识点的方式才能获取答案的情况,从而节省了建立知识点的时间,也即节省了建立知识库的时间。与此同时,由于不需要再建立各种可能用户输入信息对应的知识点,则可节省知识库占用的存储资源,并且也不需要再维护繁杂的知识点,进而提高知识库的维护效率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (16)

1.一种智能问答方法,其特征在于,包括:
接收用户输入信息;
当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式;
根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容;
根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。
2.根据权利要求1所述的智能问答方法,其特征在于,所述根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,包括:
根据所述处理方式指示的信息关联方式,从所述知识库提取与所述填充内容相关的目标信息;
根据所述处理方式指示的信息操作方法,对所述目标信息进行处理。
3.根据权利要求2所述的智能问答方法,其特征在于,当所述抽象语义类别表征属性值差异度量时,所述从所述知识库提取与所述填充内容相关的目标信息包括:根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容相关的属性值;所述对所述目标信息进行处理包括:根据所述处理方式指示的信息操作方法,对所述属性值进行做差运算。
4.根据权利要求2所述的智能问答方法,其特征在于,当所述抽象语义类别表征列举特定属性值范围内的对象时,所述从所述知识库提取与所述填充内容相关的目标信息包括:根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容中相关的对象及其属性值;所述对所述目标信息进行处理包括:根据所述处理方式指示的信息操作方法,筛选出属于所述特定属性值范围的所述属性值对应的对象。
5.根据权利要求2所述的智能问答方法,其特征在于,所述知识库包括多个知识点以及多个实例,每个知识点包括答案以及多个问题,至少部分数目所述实例包括一个或多个属性,每个属性具有属性值;
当所述抽象语义类别表征主体的复加属性时,所述从知识库提取与所述填充内容相关的目标信息包括:
从知识库中提取答案为具有一个或多个属性的实例的知识点中的问题;
根据所述属性对每个所述问题进行虚拟化处理,使得每个所述问题对应一个或多个虚拟问题,所述虚拟问题中至少包括部分所述填充内容,所述虚拟问题作为目标信息;
对所述目标信息进行处理包括:
计算所述用户输入信息与所述虚拟问题的语义相似度,当最高语义相似度大于预设阈值时,将所述虚拟问题的答案作为所述用户输入信息的答案,所述虚拟问题的答案为对应属性的属性值。
6.根据权利要求5所述的智能问答方法,其特征在于,通过以下其中一种方式或两种方式的结合使所述虚拟问题中至少包括部分所述填充内容:
第一种为在进行虚拟化处理之前对从知识库中提取的问题进行筛选处理,以使所述问题至少包括部分所述填充内容;
第二种为对虚拟化处理得到的问题进行筛选处理,以使所述问题至少包括部分所述填充内容。
7.根据权利要求1所述的智能问答方法,其特征在于,在抽象语义推荐处理之前,还包括:提供知识库,所述知识库包括多个知识点,每个知识点包括答案以及多个问题;当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,判定无法直接获得与所述用户输入信息对应的答案;否则,向用户提供所述最高语义相似度值对应的知识点中的答案。
8.根据权利要求1所述的智能问答方法,其特征在于,所述抽象语义推荐处理包括:
对所述用户输入信息进行分词处理,得到若干单独词;
分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
对所述抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
9.一种智能问答装置,其特征在于,包括:
接收单元,适于接收用户输入信息;
抽象语义推荐处理单元,适于当无法直接获得与所述用户输入信息对应的答案时,根据抽象语义数据库对所述用户输入信息进行抽象语义推荐处理,得到与所述用户输入信息对应的抽象语义类别和抽象语义表达式,所述抽象语义数据库包括多个类别的抽象语义,每个类别的抽象语义包括一个或多个抽象语义表达式,所述抽象语义表达式包括缺少语义成分,每个类别的抽象语义具有对应的处理方式;
提取单元,适于根据所述抽象语义表达式从所述用户输入信息中提取对应于缺失语义成分的填充内容;
处理单元,适于根据所述处理方式的指示,从知识库提取与所述填充内容相关的目标信息并进行处理,以得到答案。
10.根据权利要求9所述的智能问答装置,其特征在于,所述处理单元包括:
目标信息提取子单元,适于根据所述处理方式指示的信息关联方式,从所述知识库提取与所述填充内容相关的目标信息;
目标信息处理子单元,适于根据所述处理方式指示的信息操作方法,对所述目标信息进行处理。
11.根据权利要求10所述的智能问答装置,其特征在于,所述目标信息提取子单元还适于:当所述抽象语义类别表征属性值差异度量时,根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容相关的属性值;所述目标信息处理子单元,还适于当所述抽象语义类别表征属性值差异度量时根据所述处理方式指示的信息操作方法,对所述属性值进行做差运算。
12.根据权利要求10所述的智能问答装置,其特征在于,所述目标信息提取子单元还适于:当所述抽象语义类别表征列举特定属性值范围内的对象时,根据所述处理方式指示的信息关联方式,从所述知识库中提取与所述填充内容中相关的对象及其属性值;所述目标信息处理子单元,还适于当所述抽象语义类别表征列举特定属性值范围内的对象时,根据所述处理方式指示的信息操作方法,筛选出属于所述特定属性值范围的所述属性值对应的对象。
13.根据权利要求10所述的智能问答装置,其特征在于,所述知识库包括多个知识点以及多个实例,每个知识点包括答案以及多个问题,至少部分数目所述实例包括一个或多个属性,每个属性具有属性值,所述目标信息提取子单元还适于:当所述抽象语义类别表征主体的复加属性时,从知识库中提取答案为具有一个或多个属性的实例的知识点中的问题,根据所述属性对每个所述问题进行虚拟化处理,使得每个所述问题对应一个或多个虚拟问题,所述虚拟问题中至少包括部分所述填充内容,所述虚拟问题作为目标信息;所述目标信息处理子单元还适于:当所述抽象语义类别表征主体的复加属性时,计算所述用户输入信息与所述虚拟问题的语义相似度,当最高语义相似度大于预设阈值时,将所述虚拟问题的答案作为所述用户输入信息的答案,所述虚拟问题的答案为对应属性的属性值。
14.根据权利要求13所述的智能问答装置,其特征在于,所述目标信息提取子单元通过以下其中一种方式或两种方式的结合使所述虚拟问题中至少包括部分所述填充内容:
第一种为在进行虚拟化处理之前对从知识库中提取的问题进行筛选处理,以使所述问题至少包括部分所述填充内容;
第二种为对虚拟化处理得到的问题进行筛选处理,以使所述问题至少包括部分所述填充内容。
15.根据权利要求9所述的智能问答装置,其特征在于,还包括:
知识库,适于提供多个知识点,每个知识点包括答案以及多个问题;
预处理单元,适于在进行抽象语义推荐处理之前,获取所述用户输入信息与所述知识库中问题的最高语义相似度值,并判断所述最高语义相似度值与预设相似度阈值的大小;
判断单元,当所述用户输入信息与所述知识库中问题的最高语义相似度值小于预设相似度阈值时,判定无法直接获得与所述用户输入信息对应的答案;
答案直接提供单元,适于当所述用户输入信息与所述知识库中问题的最高语义相似度值大于预设相似度阈值时,向用户提供所述最高语义相似度值对应的知识点中的答案。
16.根据权利要求9所述的智能问答装置,其特征在于,所述抽象语义推荐处理单元包括:
分词子单元,适于对所述用户输入信息进行分词处理,得到若干单独词;
词性标注子单元,适于分别对每个单独词进行词性标注处理,得到每个单独词的词性信息;
词类判断子单元,适于分别对每个单独词进行词类判断处理,得到每个单独词的词类信息;
搜索子单元,适于对抽象语义数据库进行搜索处理,得到与所述用户输入信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;
匹配子单元,适于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述用户输入信息匹配的抽象语义表达式。
CN201610218251.6A 2016-04-08 2016-04-08 一种智能问答方法及装置 Active CN105912645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610218251.6A CN105912645B (zh) 2016-04-08 2016-04-08 一种智能问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610218251.6A CN105912645B (zh) 2016-04-08 2016-04-08 一种智能问答方法及装置

Publications (2)

Publication Number Publication Date
CN105912645A true CN105912645A (zh) 2016-08-31
CN105912645B CN105912645B (zh) 2019-03-05

Family

ID=56744819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610218251.6A Active CN105912645B (zh) 2016-04-08 2016-04-08 一种智能问答方法及装置

Country Status (1)

Country Link
CN (1) CN105912645B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649752A (zh) * 2016-12-26 2017-05-10 北京云知声信息技术有限公司 一种答案获取方法及装置
CN106844686A (zh) * 2017-01-26 2017-06-13 武汉奇米网络科技有限公司 基于solr的智能客服问答机器人及其实现方法
CN106874441A (zh) * 2017-02-07 2017-06-20 腾讯科技(上海)有限公司 智能问答方法和装置
CN107798123A (zh) * 2017-11-10 2018-03-13 上海智臻智能网络科技股份有限公司 知识库及其建立、修改、智能问答方法、装置及设备
CN107807933A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 一种针对提问的回复方法和装置
CN109344249A (zh) * 2018-08-14 2019-02-15 阿里巴巴集团控股有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN109947908A (zh) * 2017-11-22 2019-06-28 上海智臻智能网络科技股份有限公司 机器人知识库的建设方法及建设系统
CN110119814A (zh) * 2019-04-29 2019-08-13 武汉开目信息技术股份有限公司 基于对象关系链的知识规则建模和推理方法
CN110310739A (zh) * 2018-03-20 2019-10-08 贺丽君 信息处理系统及方法、健康信息专家系统
CN110674621A (zh) * 2018-07-03 2020-01-10 北京京东尚科信息技术有限公司 一种属性信息填充方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060204945A1 (en) * 2005-03-14 2006-09-14 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN1952928A (zh) * 2005-10-20 2007-04-25 梁威 建立自然语言知识库及其自动问答检索的计算机系统
CN101398835A (zh) * 2007-09-30 2009-04-01 日电(中国)有限公司 基于自然语言的服务选择系统与方法以及服务查询系统与方法
CN101889281A (zh) * 2008-03-10 2010-11-17 松下电器产业株式会社 内容检索装置及内容检索方法
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060204945A1 (en) * 2005-03-14 2006-09-14 Fuji Xerox Co., Ltd. Question answering system, data search method, and computer program
CN1952928A (zh) * 2005-10-20 2007-04-25 梁威 建立自然语言知识库及其自动问答检索的计算机系统
CN101398835A (zh) * 2007-09-30 2009-04-01 日电(中国)有限公司 基于自然语言的服务选择系统与方法以及服务查询系统与方法
CN101889281A (zh) * 2008-03-10 2010-11-17 松下电器产业株式会社 内容检索装置及内容检索方法
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107807933A (zh) * 2016-09-09 2018-03-16 阿里巴巴集团控股有限公司 一种针对提问的回复方法和装置
CN106649752A (zh) * 2016-12-26 2017-05-10 北京云知声信息技术有限公司 一种答案获取方法及装置
CN106844686A (zh) * 2017-01-26 2017-06-13 武汉奇米网络科技有限公司 基于solr的智能客服问答机器人及其实现方法
CN106874441A (zh) * 2017-02-07 2017-06-20 腾讯科技(上海)有限公司 智能问答方法和装置
CN107798123A (zh) * 2017-11-10 2018-03-13 上海智臻智能网络科技股份有限公司 知识库及其建立、修改、智能问答方法、装置及设备
CN109947908A (zh) * 2017-11-22 2019-06-28 上海智臻智能网络科技股份有限公司 机器人知识库的建设方法及建设系统
CN110310739A (zh) * 2018-03-20 2019-10-08 贺丽君 信息处理系统及方法、健康信息专家系统
CN110310739B (zh) * 2018-03-20 2022-06-24 贺丽君 健康信息处理方法、及其系统
CN110674621A (zh) * 2018-07-03 2020-01-10 北京京东尚科信息技术有限公司 一种属性信息填充方法和装置
CN109344249A (zh) * 2018-08-14 2019-02-15 阿里巴巴集团控股有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN109344249B (zh) * 2018-08-14 2023-02-17 创新先进技术有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN110119814A (zh) * 2019-04-29 2019-08-13 武汉开目信息技术股份有限公司 基于对象关系链的知识规则建模和推理方法
CN110119814B (zh) * 2019-04-29 2022-04-29 武汉开目信息技术股份有限公司 基于对象关系链的知识规则建模和推理方法

Also Published As

Publication number Publication date
CN105912645B (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
CN105912645B (zh) 一种智能问答方法及装置
CN107798136B (zh) 基于深度学习的实体关系抽取方法、装置及服务器
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN105912629B (zh) 一种智能问答方法及装置
CN108829682B (zh) 计算机可读存储介质、智能问答方法及智能问答装置
CN105787134B (zh) 智能问答方法、装置及系统
CN106156083A (zh) 一种领域知识处理方法及装置
US10824816B2 (en) Semantic parsing method and apparatus
CN109145301B (zh) 信息分类方法及装置、计算机可读存储介质
CN110929038A (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN106886567A (zh) 基于语义扩展的微博突发事件检测方法及装置
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN111178701A (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN111090755B (zh) 一种文本关联关系判别方法及存储介质
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN103034657B (zh) 文档摘要生成方法和装置
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN105786929A (zh) 一种信息监测方法及装置
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN112015895A (zh) 一种专利文本分类方法及装置
CN111401055A (zh) 从金融资讯提取脉络信息的方法和装置
CN111930959A (zh) 用于图谱知识生成文本的方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant