CN105678324A - 基于相似度计算的问答知识库的建立方法、装置及系统 - Google Patents
基于相似度计算的问答知识库的建立方法、装置及系统 Download PDFInfo
- Publication number
- CN105678324A CN105678324A CN201511030353.7A CN201511030353A CN105678324A CN 105678324 A CN105678324 A CN 105678324A CN 201511030353 A CN201511030353 A CN 201511030353A CN 105678324 A CN105678324 A CN 105678324A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- request message
- original request
- similarity
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于相似度计算的问答知识库的建立方法、装置及系统,其中建立方法包括:提供领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;接收初始请求信息;将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库。本发明的建立方法、建立装置及建立系统提高了智能问答知识库的建立效率。
Description
技术领域
本发明涉及数据处理技术,特别涉及一种基于相似度计算的问答知识库的建立方法、装置及系统。
背景技术
知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
知识库有着广泛的应用,典型的应用有智能问答系统或自动问题系统或问答知识库,自动问题系统中存储着一些预设的问题,并存储预设问题对应的答案信息,在公众用户提出问题时,自动问题系统会将公众用户提出的问题与预设的问题进行匹配,若匹配成功,自动问题系统会将该预设问题对应的答案信息反馈给公众用户。
参考图1,图1为现有技术智能问答系统中的知识库建立装置的结构示意图,包括:人机界面10,用于输入待存储的问题;存入单元11,用于接收人机界面10输入的待存储问题,并将接收的待存储问题存入问题库12;问题库12,用于存储接收的待存储问题。
由于不同用户提出问题的角度不同以及表达方式不同,为了提高智能问答系统的准确性,在对问题库中的问题进行预设时,需要人工从人机界面输入不同表达方式的多个问题,耗时耗力,效率较低,因而现有的存储装置进行问题存储时的效率有待改善。
发明内容
本发明解决的问题是怎样提高智能问答知识库建立的效率。
为解决上述问题,本发明提供一种基于相似度计算的问答知识库的建立方法,包括:
提供领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;接收初始请求信息;将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库。
可选的,所述语义相似度计算采用以下一种或多种方式的结合:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
可选的,分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
可选的,所述相似度阈值大于或等于0.7且小于或等于1.0。
可选的,在进行相似度计算之前还包括:对所述初始请求信息进行文本预处理,从待更新信息中抽取出有代表性的特征,作为相似度计算的基础。
可选的,所述文本预处理包括分词处理和去停用词处理。
可选的,所述方法还包括:将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。
可选的,所述方法还包括:当停止接收初始请求信息之后,从领域知识数据库中至少提取未存入智能问答知识库的部分数目的预置知识,并将提取的预置知识存入智能问答知识库,所述预置知识还包括答案。
本发明还提供了一种基于相似度计算的问答知识库的建立装置,包括:
预置知识获取单元,用于获取多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
接收单元,用于接收初始请求信息;
计算单元,用于将所述初始请求信息与所述预置知识进行语义相似度计算;
判断单元,用于判断语义相似度计算结果的最大值是否大于相似度阈值;
存入单元,用于当相似度计算结果的最大值大于相似度阈值时,将相似度计算结果的最大值对应的预置知识中的标准问和扩展问以及对应的初始请求信息存入智能问答知识库。
可选的,所述计算单元采用以下一种或多种方式的结合进行语义相似度计算:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
可选的,所述计算单元分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
可选的,所述相似度阈值大于或等于0.7且小于或等于1.0。
可选的,所述装置还包括文本预处理单元:用于对所述初始请求信息进行文本预处理,从待更新信息中抽取出有代表性的特征,作为相似度计算的基础。
可选的,还包括:答案提供单元,用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。
可选的,其特征在于,还包括:提取单元,用于当接收单元停止接收初始请求信息之后,从预置知识获取单元中至少提取未存入智能问答知识库的部分数目的预置知识;所述存入单元将提取单元提取的预置知识存入智能问答知识库。
本发明还提供一种基于相似度计算的问答知识库的建立系统,包括:
领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
前述的建立装置。
与现有技术相比,本发明的技术方案具有以下优点:
本发明基于相似度计算的问答知识库的建立方法,在接收初始请求信息后,将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库。本发明的方法,在接收到用户输入的一条初始请求信息后,在进行语义相似度计算以及将相似度计算结果与相似度阈值进行比较后,将相似度计算结果的最大值对应的预置知识及对应的初始请求信息存储到智能问答知识库中存储到智能问答知识库中,因而用户在建立智能问答知识库时,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库建立效率。
进一步,在进行语义相似度计算之前,可对初始请求信息与领域知识数据库中的预置知识进行文本预处理,以从初始请求信息与领域知识数据库中的预置知识中抽取出有代表性的特征,作为相似度计算的基础,以提高进行相似度计算时的准确性。
进一步,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库的同时,将领域知识数据库存储的与该预置知识对应的答案也一并存储到智能问答知识库中,进一步提高了智能问答知识库建立效率。
本发明基于相似度计算的问答知识库的建立装置,接收单元在接收到用户输入的一条初始请求信息后,计算单元将所述初始请求信息与所述预置知识进行语义相似度计算,判断单元将所述初始请求信息与所述预置知识进行语义相似度计算,存入单元在当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库,因而用户在使用本发明的装置建立智能问答知识库时,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库建立效率。
本发明基于相似度计算的问答知识库的建立系统,除了包括建立装置外还包括领域知识数据库,领域知识数据库用于提供预置知识,因而在基于相似度计算的问答知识库的建立时,一个领域知识数据库可以向不同的建立装置提供数据信息。
附图说明
图1为现有技术智能问答系统中的知识库建立装置的结构示意图;
图2为本发明实施例基于相似度计算的问答知识库的建立方法的流程示意图;
图3~图4为本发明实施例基于相似度计算的问答知识库的建立装置的结构示意图;
图5为本发明实施例基于相似度计算的问答知识库的建立系统的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施例做详细的说明。
图2为本发明实施例基于相似度计算的问答知识库的建立方法的流程示意图;图3~图4为本发明实施例基于相似度计算的问答知识库的建立装置的结构示意图;图5为本发明实施例基于相似度计算的问答知识库的建立系统的结构示意图。
请参考图2,所述基于相似度计算的问答知识库的建立方法,包括步骤:
步骤S101,提供领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
步骤S102,接收初始请求信息;
步骤S103,将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算;
步骤S104,判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,则进行步骤S105;
步骤S105,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库。
下面对上述过程进行详细的描述。
进行步骤S101,提供领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问。
所述领域知识数据库中包括(存储)有多个预置知识,在一实施例中,每个预置知识包括一个标准问以及一个或多个扩展问。所述扩展问为标准问的不同表达形式,其均表达同一语义。
针对同一领域,为了使得对应的领域知识数据库可以用于建立多个不同的智能问答数据库,所述领域知识数据库中的预置知识可以是本领域的通用知识。
需要说明的是,所述标准问和所述扩展问均既可以采用语义表达式的形式,也可以采用具体的问句形式,其都在本发明的保护范围中。
在另一实施例中,所述预置知识除了包括一个标准问以及一个或多个扩展问,还可以包括与该标准问以及一个或多个扩展问对应的答案。
本实施例中以电信领域的关于如何开通彩铃作为示例进行说明,所述领域知识数据库中存储有与“彩铃如何开通”有关的预置知识包括:“彩铃如何开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃怎么办”,“如何开通彩铃”。将上述问题的其中一个问题作为标准问,其他三个问题作为扩展问。在一实施例中,比如可以将排在最前面的一个问题“彩铃如何开通”作为标准问,将另外的三个问题作为相应的扩展问,在其他实施例中也可以指定其它问题为标准问。
所述领域知识数据库中还存储有“彩铃如何开通”对应的答案。
所述领域知识数据库中还可以存储其他的预置知识,例如,如何开通GPRS的预置知识、如何办理停机手续的预置知识、如何开通长途优惠业务的预置知识。
在一实施例中,所述领域知识数据库中存储的预置知识以文本的形式存在,预置知识为多个时,不同的预置知识具有对应的存储区间以及对应的存储地址。
在其他实施例中,所述预置知识可以以其他的形式存在,比如预置知识中的标准问和扩展问可以以文本的形式存在,而对应的答案可以以语音或视频等多媒体形式存在。
本发明中不限定具体的领域,如:通信领域、金融领域、电子政务领域、电子商务领域、日常生活领域、智能家居领域以及智能交通领域等。
进行步骤S102,接收初始请求信息。
所述初始请求信息为需要与所述领域知识数据库中的预置知识进行语义相似度计算的信息。
在一实施例中,所述初始请求信息为人机界面输入的信息,比如所述初始请求信息为键盘或触摸屏等输入的文本信息,或者所述初始信息也可以从话筒输入,然后经语音识别引擎转化为的文本信息。
以如何开通彩铃作为示例进行说明,本实施例中,所述接收的初始请求信息为“我要怎样才能开通彩铃”。
进行步骤S103,将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算。
语义相似度是指初始请求信息与领域知识数据库中的预置知识基于字与词语上的匹配程度、和(或者)语义上的符合程度。
所述预置知识为多个时,将所述初始请求信息依次与所述领域知识数据库中的预置知识进行语义相似度计算,获得相应的语义相似度结果。
在一实施例中,当每个领域知识包括一个标准问以及一个或多个扩展问,分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
在一实施例中,语义相似度计算的过程为依据一种相似度计算方法分别对初始请求信息与领域知识数据库中的预置知识进行相似度计算处理,获得与初始请求信息对应的第一特征值,以及与预置知识对应的第二特征值,然后将第一特征值和第二特征值进行比较或处理获得相似度值(或者语义相似度计算结果)。所述比较或处理可以为相比运算、相减运算或者其他形式的运算。所述第一特征值与第二特征值越接近,表明初始请求信息与对应的预置知识的相似度越高,反之则越低。
需要说明的是,在进行语义相似度计算时,获得第一特征值和第二特征值过程可以并行进行(同时进行计算),也可以串行进行(先后进行计算)。
所述语义相似度计算依据相似度计算方法采用以下一种或多种方式的结合:基于向量空间模型(VectorSpaceModel,VSM)的计算方法、基于隐形语义索引模型(LatentSemanticIndexing,LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。需要说明的是,所述相似度计算方法还可以为其他的语义相似度的计算方法。
本实施例中,以基于向量空间模型的计算方法对初始请求信息与领域知识数据库中的预置知识进行语义相似度计算作为示例,初始请求信息与领域知识数据库中的预置知识被看作是由相互独立的词条组(T1,T2,…….,Tn)构成,对于每一个词条Ti(1≤i≤n),根据其在句中的重要程度赋以一定的权值Wi,并将T1,T2,…….,Tn看成一个n维系坐标系中的坐标轴,W1,W2,…….,Wn为对应的坐标值,这样由(T1,T2,…….,Tn)分解而得到的正交字条矢量组就构成一个向量空间,词条则映射成为空间中的一个点。对于初始请求信息与领域知识数据库中的预置知识都可以映射到此向量空间中,用词条矢量(T1,W1,T2,W2,…….,Tn,Wn)来表示,从而将语句信息的匹配问题转化为向量空间中矢量匹配的问题。具体到初始请求信息与领域知识数据库中的预置知识,两者的语义相似度计算结果为两向量对应的交角的比值,具体为预置知识对应的词条矢量在向量空间中对应的第一角度(第一特征值)与初始请求信息对应的词条矢量在向量空间中对应的第二角度(第二特征值)之比,所述比值越接近于1表示两者的相似度越高。在其他实施例中,两者的相似度计算结果也可用向量之间的夹角来表示,夹角越小,说明两者相似度越高,所述夹角(相似度值)为预置知识对应的词条矢量在向量空间中对应的第一角度(第一特征值)减去初始请求信息对应的词条矢量在向量空间中对应的第二角度(第二特征值)。
需要说明的是,在进行语义相似度计算之前,可对初始请求信息与领域知识数据库中的预置知识进行文本预处理,以从初始请求信息与领域知识数据库中的预置知识中抽取出有代表性的特征,作为相似度计算的基础,以提高进行相似度计算时的准确性。在一实施例中,所述文本预处理包括分词处理和去停用词处理。此外,文本预处理还可以去除部分无意义词语,如:“我”“想”“吗”等。
所述分词处理依据一定分词规则进行,在系统中预先设定分词的规则,进行分词处理时,调用设定的分词规则,对初始请求信息与对应的领域知识数据库中的预置知识分别进行分词处理,形成若干词条构成的两个词条串。
去停用词处理是预先建立一个停用词列表,去停用词时,每一个词条与停用词列表中的词进行匹配,如果该词条存在于停用词列表中,则将该词条从中文分词处理后的词条串中删除。
所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍历法或词频统计法,或其他合适的分词方法。去停用词处理是是去除句子中识别意义不大但出现频率很高的词,这些词在计算相似度的过程中会引入较大的误差,可用看成是一种噪音,比如:“这,的,和”等词。
以如何开通彩铃作为示例进行说明,将接收的初始请求信息“我要怎样才能开通彩铃”分别与领域知识数据库中若干预置知识进行语义相似度计算。
以初始请求信息为“我要怎样才能开通彩铃”与一个预置知识(“彩铃如何开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃怎么办”,“如何开通彩铃”)进行语义相似度计算为例,将初始请求信息为“我要怎样才能开通彩铃”分别与“彩铃如何开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃怎么办”,“如何开通彩铃”进行语义相似度计算,获得四个语义相似度值,将四个语义相似度值中的最大值作为语义相似度计算结果。
领域知识数据库中有若干预置知识,相应的获得若干相似度计算结果。
进行步骤S104,判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,则进行步骤S105。
相似度阈值为预先设置。在一实施例中,所述相似度阈值大于或等于0.7且小于或等于1.0。需要说明的是,所述相似度阈值可以为其他的数值。
当相似度计算结果的最大值大于相似度阈值时,则进行步骤S105,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问一并存入智能问答知识库。
本实施例将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库的时候,可以将该初始请求信息作为存储的标准问,而将相似度计算结果的最大值对应的预置知识中的标准问以及扩展问作为该存储的标准问下的扩展问。
在一实施例中,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。所述提供的与所述初始请求信息对应的答案为用户自己提供的答案,该答案与初始请求信息具有对应关系。此时存入智能问答知识库的答案更加准确。
在另一实施例中,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库的同时,将领域知识数据库存储的与该预置知识对应的答案也一并存储到智能问答知识库中。此时建库的效率更高。
当相似度计算结果的最大值大于相似度阈值时,说明初始请求信息与相应的预置知识相似度很高,表示该预置知识为用户希望存储到智能问答知识库的预置知识。本发明实施例的方法,在接收到用户输入的一条初始请求信息后,在进行语义相似度计算以及将相似度计算结果与相似度阈值进行比较后,将达到相似度阈值的预置知识及对应的初始请求信息存储到智能问答知识库中,因而用户在建立智能问答知识库,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库建立效率。
以如何开通彩铃作为示例进行说明,初始请求信息为“我要怎样才能开通彩铃”与预置知识(“彩铃如何开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃怎么办”,“如何开通彩铃”)的相似度计算结果大于相似度阈值,将该预置知识(“彩铃如何开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃怎么办”,“如何开通彩铃”)存入智能问答知识库中。
需要说明的是,在一实施例中,当相似度计算结果等于相似度阈值时,也进行步骤S105。
由于用户输入的初始请求信息的数目是有限的,且用户输入的初始请求信息也很难与领域知识库中所有的预置知识都对应,即通过步骤S103、步骤S104和步骤S105也很难将领域知识库中所有的预置知识都存入智能问答知识库,因此当停止接收初始请求信息之后,本发明还可以从领域知识数据库中至少提取未存入智能问答知识库的部分数目的预置知识,并将提取的预置知识存入智能问答知识库,所述预置知识还包括答案。
在一个具体例子中,领域知识库中包括1000个预置知识,用户输入的500条初始请求信息分别与500个预置知识的语义相似度计算结果的最大值都大于相似度阈值,从而将这500个预置知识的标准问和扩展问都存入了智能问答知识库,但是仍剩余500个预置知识未包括在智能问答知识库中。由于领域知识库中的知识多为本领域的通用知识,因此可以有效利用剩余的500个预置知识,在不输入对应的初始请求信息的前提下,将这500个预置知识直接存入智能问答知识库中,在智能问答知识库中新增500个知识点。
需要说明的是,将预置知识直接存入智能问答知识库时,预置知识的标准问作为智能问答知识库中对应知识点的标准问,预置知识的扩展问作为智能问答知识库中对应知识点的扩展问,预置知识的答案作为智能问答知识库中对应知识点的答案,从而在高效利用领域知识库的同时,进一步提高了问答知识库的建立效率。
为了防止领域知识库中的预置知识不符合智能问答知识库的要求,可以对未存入智能问答知识库的预置知识进行筛选,从而仅将部分数目的预置知识存入智能问答知识库,以保证建库的准确性。
本发明实施例还提供了一种基于相似度计算的问答知识库的建立装置,请参考图3,包括:
预置知识获取单元201,用于获取多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
接收单元202,用于接收初始请求信息;
计算单元203,用于将所述初始请求信息与所述预置知识进行语义相似度计算;
判断单元204,用于判断语义相似度计算结果的最大值是否大于相似度阈值;
存入单元205,用于当相似度计算结果的最大值大于相似度阈值时,将相似度计算结果的最大值对应的预置知识中的标准问以及扩展问以及对应的初始请求信息存入智能问答知识库206。
所述计算单元203采用以下一种或多种方式的结合进行语义相似度计算:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
所述计算单元203分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
在一实施例中,所述相似度阈值大于或等于0.7且小于或等于1.0。
在一实施例中,所述建立装置还包括:答案提供单元,用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。
在另一实施例中,所述建立装置还包括:提取单元,用于当接收单元停止接收初始请求信息之后,从预置知识获取单元中至少提取未存入智能问答知识库的部分数目的预置知识;所述存入单元将提取单元提取的预置知识存入智能问答知识库。
在另一实施例中,请参考图4,所述建立装置还包括文本预处理单元207,用于对所述初始请求信息进行文本预处理,从待更新信息中抽取出有代表性的特征,作为相似度计算的基础。在一实施例中,所述文本预处理包括分词处理和去停用词处理。此外,文本预处理还可以去除部分无意义词语,如:“我”“想”“吗”等。
需要说明的是,本实施例和前述实施例以及后续实施例关于建立装置的某个单元(或模块)功能的其他限定或描述请参考前述基于相似度计算的问答知识库的建立方法部分的相关限定或描述,在此不再赘述。
本发明还提供了一种基于相似度计算的问答知识库的建立系统,请参考图5,包括:
领域知识数据库401,所述领域知识数据库401包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
基于相似度计算的问答知识库的建立装置21,所述基于相似度计算的问答知识库的建立装置21包括:
预置知识获取单元201,用于从领域知识数据库401中获取多个预置知识;
接收单元202,用于接收初始请求信息;
计算单元203,用于将所述初始请求信息与所述预置知识进行语义相似度计算;
判断单元204,用于判断语义相似度计算结果的最大值是否大于相似度阈值;
存入单元205,用于当相似度计算结果的最大值大于相似度阈值时,将相似度计算结果的最大值对应的预置知识中的标准问以及扩展问以及对应的初始请求信息存入智能问答知识库206。
可以对领域知识数据库401中预置知识进行编辑操作,所述编辑操作包括:增加、删除、替换等操作。
需要说明的是,关于建立系统的各单元、模块的其他限定或描述,请参考前述实施例,在此不再赘述。
综上,本发明实施例的基于相似度计算的问答知识库的建立方法,在接收初始请求信息后,将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库。本发明的方法,在接收到用户输入的一条初始请求信息后,在进行语义相似度计算以及将相似度计算结果与相似度阈值进行比较后,将相似度计算结果的最大值对应的预置知识及对应的初始请求信息存储到智能问答知识库中存储到智能问答知识库中,因而用户在建立智能问答知识库,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库建立效率。
本发明实施例的基于相似度计算的问答知识库的建立装置,接收单元在接收到用户输入的一条初始请求信息后,计算单元将所述初始请求信息与所述预置知识进行语义相似度计算,判断单元将所述初始请求信息与所述预置知识进行语义相似度计算,存入单元在当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库,因而用户在使用本发明的装置建立智能问答知识库时,无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知识库建立效率。
本发明实施例的基于相似度计算的问答知识库的建立系统,除了包括建立装置外还包括领域知识数据库,领域知识数据库用于提供预置知识,因而在基于相似度计算的问答知识库的建立时,一个领域知识数据库可以向不同的建立装置提供数据信息。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (16)
1.一种基于相似度计算的问答知识库的建立,其特征在于,包括:
提供领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
接收初始请求信息;
将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库。
2.如权利要求1所述的建立方法,其特征在于,所述语义相似度计算采用以下一种或多种方式的结合:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
3.如权利要求1所述的建立方法,其特征在于,分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
4.如权利要求1所述的建立方法,其特征在于,所述相似度阈值大于或等于0.7且小于或等于1.0。
5.如权利要求1所述的建立方法,其特征在于,在进行相似度计算之前还包括:对所述初始请求信息进行文本预处理,从待更新信息中抽取出有代表性的特征,作为相似度计算的基础。
6.如权利要求5所述的建立方法,其特征在于,所述文本预处理包括分词处理和去停用词处理。
7.如权利要求1所述的建立方法,其特征在于,还包括:将所述初始请求信息存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答知识库。
8.如权利要求1所述的建立方法,其特征在于,还包括:当停止接收初始请求信息之后,从领域知识数据库中至少提取未存入智能问答知识库的部分数目的预置知识,并将提取的预置知识存入智能问答知识库,所述预置知识还包括答案。
9.一种基于相似度计算的问答知识库的建立装置,其特征在于,包括:
预置知识获取单元,用于获取多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
接收单元,用于接收初始请求信息;
计算单元,用于将所述初始请求信息与所述预置知识进行语义相似度计算;
判断单元,用于判断语义相似度计算结果的最大值是否大于相似度阈值;
存入单元,用于当相似度计算结果的最大值大于相似度阈值时,将相似度计算结果的最大值对应的预置知识中的标准问和扩展问以及对应的初始请求信息存入智能问答知识库。
10.如权利要求9所述的建立装置,其特征在于,所述计算单元采用以下一种或多种方式的结合进行语义相似度计算:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。
11.如权利要求9所述的建立装置,其特征在于,所述计算单元分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。
12.如权利要求9所述的建立装置,其特征在于,所述相似度阈值大于或等于0.7且小于或等于1.0。
13.如权利要求9所述的建立装置,其特征在于,所述装置还包括文本预处理单元:用于对所述初始请求信息进行文本预处理,从待更新信息中抽取出有代表性的特征,作为相似度计算的基础。
14.如权利要求9所述的建立装置,其特征在于,还包括:答案提供单元,用于提供与初始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。
15.如权利要求9所述的建立装置,其特征在于,还包括:提取单元,用于当接收单元停止接收初始请求信息之后,从预置知识获取单元中至少提取未存入智能问答知识库的部分数目的预置知识;所述存入单元将提取单元提取的预置知识存入智能问答知识库。
16.一种基于相似度计算的问答知识库的建立系统,其特征在于,包括:
领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知识包括:一个标准问以及一个或多个扩展问;
权利要求9~15任一项所述的建立装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511030353.7A CN105678324B (zh) | 2015-12-31 | 2015-12-31 | 基于相似度计算的问答知识库的建立方法、装置及系统 |
US15/390,118 US10394956B2 (en) | 2015-12-31 | 2016-12-23 | Methods, devices, and systems for constructing intelligent knowledge base |
US16/504,546 US11227118B2 (en) | 2015-12-31 | 2019-07-08 | Methods, devices, and systems for constructing intelligent knowledge base |
US16/504,550 US11017178B2 (en) | 2015-12-31 | 2019-07-08 | Methods, devices, and systems for constructing intelligent knowledge base |
US16/504,558 US11301637B2 (en) | 2015-12-31 | 2019-07-08 | Methods, devices, and systems for constructing intelligent knowledge base |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511030353.7A CN105678324B (zh) | 2015-12-31 | 2015-12-31 | 基于相似度计算的问答知识库的建立方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105678324A true CN105678324A (zh) | 2016-06-15 |
CN105678324B CN105678324B (zh) | 2019-03-26 |
Family
ID=56298385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511030353.7A Active CN105678324B (zh) | 2015-12-31 | 2015-12-31 | 基于相似度计算的问答知识库的建立方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105678324B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202301A (zh) * | 2016-07-01 | 2016-12-07 | 武汉泰迪智慧科技有限公司 | 一种基于深度学习的智能应答系统 |
CN106250366A (zh) * | 2016-07-21 | 2016-12-21 | 北京光年无限科技有限公司 | 一种针对问答系统的数据处理方法及系统 |
CN106295807A (zh) * | 2016-08-23 | 2017-01-04 | 上海智臻智能网络科技股份有限公司 | 一种信息处理的方法及装置 |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
CN106682224A (zh) * | 2017-01-04 | 2017-05-17 | 上海智臻智能网络科技股份有限公司 | 一种数据录入方法、系统及数据库 |
CN106844334A (zh) * | 2016-12-20 | 2017-06-13 | 网易(杭州)网络有限公司 | 用于评测会话机器人智能的方法及设备 |
CN107220917A (zh) * | 2017-06-06 | 2017-09-29 | 高岩峰 | 一种自动生成等价测题的系统 |
CN107992543A (zh) * | 2017-11-27 | 2018-05-04 | 上海智臻智能网络科技股份有限公司 | 问答交互方法和装置、计算机设备及计算机可读存储介质 |
CN108319978A (zh) * | 2018-02-01 | 2018-07-24 | 北京捷通华声科技股份有限公司 | 一种语义相似度计算方法及装置 |
CN109284279A (zh) * | 2018-09-06 | 2019-01-29 | 厦门市法度信息科技有限公司 | 一种审讯问题选择方法、终端设备及存储介质 |
WO2019080417A1 (zh) * | 2017-10-26 | 2019-05-02 | 平安科技(深圳)有限公司 | 基于海量问题的知识库构建方法、电子装置及存储介质 |
CN109800879A (zh) * | 2018-12-21 | 2019-05-24 | 科大讯飞股份有限公司 | 知识库构建方法和装置 |
CN109992675A (zh) * | 2019-01-30 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 信息处理方法和装置 |
CN110019838A (zh) * | 2017-12-25 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 智能问答系统及智能终端 |
CN110727767A (zh) * | 2019-10-21 | 2020-01-24 | 支付宝(杭州)信息技术有限公司 | 一种扩展文本样本的方法及系统 |
WO2020135462A1 (zh) * | 2018-12-27 | 2020-07-02 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
WO2021042526A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 基于相似度值的搜索方法、装置、计算机设备和存储介质 |
CN112925915A (zh) * | 2019-12-06 | 2021-06-08 | 株式会社日立制作所 | 一种数据库中的数据生成方法及装置 |
CN112966087A (zh) * | 2021-03-15 | 2021-06-15 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN113064887A (zh) * | 2021-03-22 | 2021-07-02 | 平安银行股份有限公司 | 数据管理方法、装置、设备及存储介质 |
CN117235287A (zh) * | 2023-11-13 | 2023-12-15 | 悦享星光(北京)科技有限公司 | 一种人工智能问答知识库的建立方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130253913A1 (en) * | 2000-11-28 | 2013-09-26 | Evi Technologies Limited | Knowledge storage and retrieval system and method |
CN103440343A (zh) * | 2013-09-11 | 2013-12-11 | 武汉大学 | 一种面向领域服务目标的知识库构建方法 |
CN104991965A (zh) * | 2015-07-23 | 2015-10-21 | 上海智臻网络科技有限公司 | 用于基于标准问创建扩展问的方法和装置 |
-
2015
- 2015-12-31 CN CN201511030353.7A patent/CN105678324B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130253913A1 (en) * | 2000-11-28 | 2013-09-26 | Evi Technologies Limited | Knowledge storage and retrieval system and method |
CN103440343A (zh) * | 2013-09-11 | 2013-12-11 | 武汉大学 | 一种面向领域服务目标的知识库构建方法 |
CN104991965A (zh) * | 2015-07-23 | 2015-10-21 | 上海智臻网络科技有限公司 | 用于基于标准问创建扩展问的方法和装置 |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202301B (zh) * | 2016-07-01 | 2019-10-08 | 武汉泰迪智慧科技有限公司 | 一种基于深度学习的智能应答系统 |
CN106202301A (zh) * | 2016-07-01 | 2016-12-07 | 武汉泰迪智慧科技有限公司 | 一种基于深度学习的智能应答系统 |
CN106250366A (zh) * | 2016-07-21 | 2016-12-21 | 北京光年无限科技有限公司 | 一种针对问答系统的数据处理方法及系统 |
CN106250366B (zh) * | 2016-07-21 | 2019-04-19 | 北京光年无限科技有限公司 | 一种针对问答系统的数据处理方法及系统 |
CN106295807B (zh) * | 2016-08-23 | 2018-12-21 | 上海智臻智能网络科技股份有限公司 | 一种信息处理的方法及装置 |
CN106295807A (zh) * | 2016-08-23 | 2017-01-04 | 上海智臻智能网络科技股份有限公司 | 一种信息处理的方法及装置 |
CN106844334A (zh) * | 2016-12-20 | 2017-06-13 | 网易(杭州)网络有限公司 | 用于评测会话机器人智能的方法及设备 |
CN106844334B (zh) * | 2016-12-20 | 2022-07-15 | 网易(杭州)网络有限公司 | 用于评测会话机器人智能的方法及设备 |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
CN106682224A (zh) * | 2017-01-04 | 2017-05-17 | 上海智臻智能网络科技股份有限公司 | 一种数据录入方法、系统及数据库 |
CN107220917A (zh) * | 2017-06-06 | 2017-09-29 | 高岩峰 | 一种自动生成等价测题的系统 |
CN107220917B (zh) * | 2017-06-06 | 2020-05-08 | 高岩峰 | 一种自动生成等价测题的系统 |
WO2019080417A1 (zh) * | 2017-10-26 | 2019-05-02 | 平安科技(深圳)有限公司 | 基于海量问题的知识库构建方法、电子装置及存储介质 |
CN107992543A (zh) * | 2017-11-27 | 2018-05-04 | 上海智臻智能网络科技股份有限公司 | 问答交互方法和装置、计算机设备及计算机可读存储介质 |
CN107992543B (zh) * | 2017-11-27 | 2020-11-17 | 上海智臻智能网络科技股份有限公司 | 问答交互方法和装置、计算机设备及计算机可读存储介质 |
CN110019838B (zh) * | 2017-12-25 | 2024-07-26 | 上海智臻智能网络科技股份有限公司 | 智能问答系统及智能终端 |
CN110019838A (zh) * | 2017-12-25 | 2019-07-16 | 上海智臻智能网络科技股份有限公司 | 智能问答系统及智能终端 |
CN108319978A (zh) * | 2018-02-01 | 2018-07-24 | 北京捷通华声科技股份有限公司 | 一种语义相似度计算方法及装置 |
CN109284279B (zh) * | 2018-09-06 | 2021-02-05 | 厦门市法度信息科技有限公司 | 一种审讯问题选择方法、终端设备及存储介质 |
CN109284279A (zh) * | 2018-09-06 | 2019-01-29 | 厦门市法度信息科技有限公司 | 一种审讯问题选择方法、终端设备及存储介质 |
CN109800879A (zh) * | 2018-12-21 | 2019-05-24 | 科大讯飞股份有限公司 | 知识库构建方法和装置 |
WO2020135462A1 (zh) * | 2018-12-27 | 2020-07-02 | 上海智臻智能网络科技股份有限公司 | 一种自动泛化方法及其装置 |
CN109992675A (zh) * | 2019-01-30 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 信息处理方法和装置 |
WO2021042526A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 基于相似度值的搜索方法、装置、计算机设备和存储介质 |
CN110727767B (zh) * | 2019-10-21 | 2022-05-31 | 支付宝(杭州)信息技术有限公司 | 一种扩展文本样本的方法及系统 |
CN110727767A (zh) * | 2019-10-21 | 2020-01-24 | 支付宝(杭州)信息技术有限公司 | 一种扩展文本样本的方法及系统 |
CN112925915A (zh) * | 2019-12-06 | 2021-06-08 | 株式会社日立制作所 | 一种数据库中的数据生成方法及装置 |
CN112966087A (zh) * | 2021-03-15 | 2021-06-15 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN112966087B (zh) * | 2021-03-15 | 2023-10-13 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN113064887A (zh) * | 2021-03-22 | 2021-07-02 | 平安银行股份有限公司 | 数据管理方法、装置、设备及存储介质 |
CN113064887B (zh) * | 2021-03-22 | 2023-12-08 | 平安银行股份有限公司 | 数据管理方法、装置、设备及存储介质 |
CN117235287A (zh) * | 2023-11-13 | 2023-12-15 | 悦享星光(北京)科技有限公司 | 一种人工智能问答知识库的建立方法及系统 |
CN117235287B (zh) * | 2023-11-13 | 2024-01-30 | 悦享星光(北京)科技有限公司 | 一种人工智能问答知识库的建立方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105678324B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105678324A (zh) | 基于相似度计算的问答知识库的建立方法、装置及系统 | |
CN105608218B (zh) | 智能问答知识库的建立方法、建立装置及建立系统 | |
CN109783651B (zh) | 提取实体相关信息的方法、装置、电子设备和存储介质 | |
US9971967B2 (en) | Generating a superset of question/answer action paths based on dynamically generated type sets | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN110889280B (zh) | 基于文档拆分的知识库建设方法及装置 | |
CN114610845B (zh) | 基于多系统的智能问答方法、装置和设备 | |
CN105469789A (zh) | 一种语音信息的处理方法及终端 | |
CN105677795A (zh) | 抽象语义的推荐方法、推荐装置及推荐系统 | |
US11120214B2 (en) | Corpus generating method and apparatus, and human-machine interaction processing method and apparatus | |
CN105787134A (zh) | 智能问答方法、装置及系统 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
EP3961433A2 (en) | Data annotation method and apparatus, electronic device and storage medium | |
CN113239054B (zh) | 信息生成方法及相关装置 | |
CN110825840A (zh) | 词库扩充方法、装置、设备及存储介质 | |
CN105631032A (zh) | 基于抽象语义推荐的问答知识库建立方法、装置及系统 | |
CN107622047B (zh) | 一种设计决策知识的提取和表达方法 | |
CN117171296A (zh) | 信息获取方法、装置和电子设备 | |
CN111783433A (zh) | 一种文本检索纠错方法和装置 | |
US20220335070A1 (en) | Method and apparatus for querying writing material, and storage medium | |
CN109918661A (zh) | 同义词获取方法及装置 | |
CN106682107B (zh) | 数据库表关联关系确定方法及装置 | |
WO2021103859A1 (zh) | 一种信息搜索方法、装置、设备及存储介质 | |
CN111767730B (zh) | 一种事件类型识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Establishment method, device and system of question answering knowledge base based on similarity calculation Effective date of registration: 20230223 Granted publication date: 20190326 Pledgee: China Construction Bank Corporation Shanghai No.5 Sub-branch Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd. Registration number: Y2023980033272 |