CN105354185A

CN105354185A - 用于问答系统挖掘关联问句的方法及装置

Info

Publication number: CN105354185A
Application number: CN201510727236.XA
Authority: CN
Inventors: 张昊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2016-02-24
Anticipated expiration: 2035-10-30
Also published as: CN108845992B; CN108845992A; CN105354185B

Abstract

一种用于问答系统挖掘关联问句的方法及装置，所述方法包括：对知识库中目标问答交互事务中的每个问句进行分词；对所述目标问答交互事务中的每个问句通过依存分析提取核心词；将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，得到所述知识库的目标问句事务集；获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列。使用上述的方案提供的关联问句序列可以提高问答系统的正确率和召回率。

Description

用于问答系统挖掘关联问句的方法及装置

技术领域

本发明涉及智能问答技术领域，特别涉及一种用于问答系统挖掘关联问句的方法及装置。

背景技术

关联规则挖掘(Associationrulemining)是数据挖掘中最活跃的研究方法之一，可以用来发现事情之间的联系，最早是为了发现超市交易数据库中不同的商品之间的关系。

目前，在以自然语言为基础的问答交互系统中，也应用到了关联规则的挖掘，以期获取问句间的关联关系，进而使用获取的问句间关联关系计算问答系统返回给用户的答案。准确率和召回率是评价自动问答系统的技术指标。准确率是指问答系统做出正确应答的次数占总共应答次数的比率，召回率是指问答系统做出正确应答的次数占知识库中存在正确应答数目的比率。

通过现有技术的方法获得的关联规则，在用于问答系统中计算返回给用户的答案时，返回答案的准确率较低，换言之，问答系统的准确率和召回率较低。

发明内容

本发明解决的技术问题是提供一种用于问答系统挖掘关联问句的方法及装置，使得问答系统的正确率和召回率得到提高。

为解决上述问题，本发明提供一种用于问答系统挖掘关联问句的方法，包括：

用于问答系统挖掘关联问句的方法，其特征在于，包括：

对知识库中目标问答交互事务中的每个问句进行分词；

对所述目标问答交互事务中的每个问句通过依存分析提取核心词；

将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，得到所述知识库的目标问句事务集；

获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列。

可选地，所述用于问答系统挖掘关联问句的方法，还包括：在对所述问句通过依存分析提取核心词前，过滤所述每个问句中的无用信息。

可选地，所述对所述目标问答交互事务中的每个问句通过依存分析提取核心词，包括：

通过依存分析获取所述问句中的各个词语之间的依存关系，利用依存关系找到所述问句的主语和宾语；

当所述主语为名词时，将所述主语作为核心词；

否则，将所述宾语作为核心词。

可选地，所述将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，包括：

当对每个所述目标问答交互事务中的问句依次提取核心词时若连续出现相同的核心词，仅保留最后一次出现的核心词。

可选地，所述获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列，包括：

根据每个所述目标问答交互事务中的核心词，通过Apriori或FP-Tree方法获取所述问句事务集中的核心词强关联规则，根据所述核心词强关联规则获取对应的关联问句序列。

可选地，所述用于问答系统挖掘关联问句的方法，还包括：在对每个问句进行分词之前，统计所述知识库中每一个问答交互事务的问答对数目，将所述问答对数目处于特定范围的事务作为所述目标问答交互事务。

本发明实施例还提供一种用于问答系统挖掘关联问句的装置，包括：

分词单元，适于对知识库中目标问答交互事务中的每个问句进行分词；

核心词提取单元，适于对所述目标问答交互事务中的每个问句通过依存分析提取核心词；

目标问句事务集形成单元，适于将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，得到所述知识库的目标问句事务集；

关联问句序列获取单元，适于获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列。

可选地，所述用于问答系统挖掘关联问句的装置还包括：过滤单元，适于在对所述问句通过依存分析提取核心词前，过滤所述每个问句中的无用信息。

可选地，所述核心词提取单元，适于通过依存分析获取所述有效问句中的各个词语之间的依存关系，利用依存关系找到所述有效问句的主语和宾语；当所述主语为名词时，将所述主语作为核心词；否则，将所述宾语作为核心词。

可选地，所述目标问句事务集形成单元，适于当对每个所述目标问答交互事务中的问句依次提取核心词时若连续出现相同的核心词，仅保留最后一次出现的核心词。

可选地，所述关联问句序列获取单元适于：根据每个所述目标问答交互事务中的核心词，通过Apriori或FP-Tree方法获取所述问句事务集中的核心词强关联规则，根据所述核心词强关联规则获取对应的关联问句序列。

可选地，所述用于问答系统挖掘关联问句的装置还包括：预处理单元，适于在对每个问句进行分词之前，统计所述知识库中每一个问答交互事务的问答对数目，将所述问答对数目处于特定范围的事务作为所述目标问答交互事务。

与现有技术相比，本发明的技术方案具有以下有益效果：

本发明实施例的技术方案通过对知识库中目标问答交互事务中的每个问句进行分词，对所述目标问答交互事务中的每个问句通过依存分析提取核心词，将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，得到所述知识库的目标问句事务集，获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列。由于本技术方案采用依存分析这种能够对语句更深层次的词语之间的修饰关系进行分析的方法来提取用户问句序列的核心词，使得基于核心词得到的关联规则更能有效地用于问答系统计算返回用户的答案，提高了问答系统理解用户意图的能力，从而提高了问答系统的准确率和召回率。

进一步地，本发明实施例的技术方案通过在问句提取核心词前，过滤每个分词后的问句中的无用信息，从而减少挖掘关联问句的运算量，提升计算效率。

进一步地，通过统计问句事务中的问答对的数目后，仅对处于特定范围的事务中的问句进行关联问句序列挖掘，从而忽略可能存在无效交互的问答事务，提高挖掘关联规则的效率。

附图说明

图1是本发明实施例中的一种用于问答系统挖掘关联问句的方法的流程示意图；

图2是本发明实施例中的一种用于问答系统挖掘关联问句的方法的流程示意图；

图3是本发明实施例中的一种用于问答系统挖掘关联问句的装置的结构图；

图4是本发明实施例中的一种用于问答系统挖掘关联问句的装置的结构示意图。

具体实施方式

如背景技术所言，通过现有技术的方法获得的关联规则，在用于问答系统中计算返回给用户的答案时，返回答案的准确率较低，这使得问答系统的准确率和召回率较低。

本申请的发明人通过研究发现，现有技术对用户输入问句的核心词的提取大多通过统计特征，如词频、词性、词语出现的位置关系以及一些人工设定的语法规则来确定，这些方法提取出的核心词经关联规则挖掘得到的关联问句序列，在参与问答系统的返回答案计算后返回答案的准确率较低，进而影响问答系统的准确率和召回率。

本发明实施例的技术方案通过对知识库中目标问答交互事务中的每个问句进行分词，对所述目标问答交互事务中的每个问句通过依存分析提取核心词，将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，得到所述知识库的目标问句事务集，获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列。由于本技术方案采用依存分析这种能够对语句更深层次的词语之间的修饰关系进行分析的方法，来提取用户问句序列的核心词，使得基于核心词得到的关联规则更能有效地用于问答系统计算返回给用户的答案，提高了问答系统理解用户意图的能力，从而提高了问答系统的准确率和召回率。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1为本发明实施例中的一种用于问答系统挖掘关联问句的方法的流程示意图。

所述用于问答系统挖掘关联问句的方法包括如下步骤：

步骤S101：对知识库中目标问答交互事务中的每个问句进行分词；

步骤S102：对所述目标问答交互事务中的每个问句通过依存分析提取核心词；

步骤S103：将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，得到所述知识库的目标问句事务集；

步骤S104：获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列。

本发明实施例通过采用依存分析这种能够对语句更深层次的词语之间的修饰关系进行分析的方法来提取用户问句序列的核心词，使得基于核心词得到的关联规则更能有效地用于问答系统计算返回给用户的答案，提高了问答系统理解用户意图的能力，从而提高了问答系统的准确率和召回率。

下面对上述过程进行详细的说明。

图2为本发明实施例中的一种用于问答系统挖掘关联问句的方法的流程图。请参照图2，所述方法包括步骤：

步骤S201：统计所述知识库中每一个问答交互事务的问答对数目，将所述问答对数目处于特定范围的事务作为所述目标问答交互事务。

在实际的问答交互场景中，当问答对数目过多，换言之问答交互次数过多时，用户与问答系统间可能发生了恶意交互，另一方面，当问答对数目较少时，问答系统也不能更好地理解用户的意图。所以，为使本发明技术方案的达到较好的实施效果，可以通过将所述问答对数目处于特定范围的事务作为所述目标问答交互事务来进行处理。

在具体实施中，所述特定范围可以根据实际场景的需要进行设置，在此不做限制。

需要说明的是，所述交互可以是文本交互或语音交互等任一种或多种交互方式的组合。但是后续处理的对象都是文本信息，因此当为语音交互等非文本交互方式时，需要将语音等信息转换为文本信息。

步骤S202：对知识库中的所述目标问答交互事务中的每个问句进行分词。

在具体实施中，所述知识库为日常用户与问答系统对话交互形成的日志数据。所述一个问答交互事务为用户与系统开始对话至用户离开过程中产生的人机问答交互，该交互事务包括若干问答语句对，所述问答交互事务存储于所述知识库中。

在具体实施中，如果用户与系统的问答交互采用网页的方式，可以通过网页的打开来指示问答交互事务的开始，而通过网页的关闭来指示问答交互事务的技术；如果用户与系统的问答采用的不是网页承载信息的方式，则可以从用户开始输入问句起计时，根据问答交互的持续时间来进行问答交互结束的判断，例如从用户输入问句开始的5分钟内的问答认为是一个问答交互事务，如果超过5分钟用户再次输入问句，则重新开启一个对话场景，用户输入的问句不再属于原问答交互事务。

步骤S203：过滤所述每个问句中的无用信息。

在具体实施中，在执行步骤S204对所述问句通过依存分析提取核心词之前，过滤经分词后的问句中的无用信息。

在具体实施中，所述无用信息可以包括停用词、敏感词和脏词中的一种或多种。

步骤S204：对所述目标问答交互事务中的每个问句通过依存分析提取核心词。

在具体实施中，所述对所述目标问答交互事务中的每个问句通过依存分析提取核心词，可以包括以下步骤：

当所述主语为名词时，将所述主语作为核心词；

否则，将所述宾语作为核心词。

例如，用户输入的问句为“银行卡如何开通”，利用依存关系可以找到该问句的主语是“银行卡”，“银行卡”为名词，则将“银行卡”作为该问句的核心词；又如用户输入的问句为“谁是小明的父亲”，利用依存关系可以找到该问句的主语“谁”和宾语“父亲”，但“谁”不是名词，则将宾语“父亲”作为该问句的核心词。

本发明实施例通过依存分析对分词后的语句进行语法分析，获取各个词语之间的依存关系，利用依存关系找到问句的主语、谓语、宾语等角色信息。将主语或宾语作为语句想要表达的核心内容保存作为核心词。

步骤S205：将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，得到所述知识库的目标问句事务集。

在具体实施中，当对每个所述目标问答交互事务中的问句依次提取核心词时，如果连续出现相同的核心词，仅保留最后一次出现的核心词。

具体地，如果若连续出现相同的核心词，很可能是由于用户认为没有获得想要的答案而重复输入问句，通过保留最后一次出现的核心词，可以避免使用从无效问句中提取出来的核心词，从而保证提取到的核心词是有效的。

步骤S206：获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列。

在具体实施中，所述获取与知识库中每个所述问句事务集的核心词强关联规则对应的关联问句序列，可以包括：

需要说明的是，在具体实施中，也可以通过其他的方法获取所述问句事务集中的核心词强关联规则，其不限制本发明的保护范围。

本发明实施例通过提取每个问句的核心词来标记对应的问句，从而在找到核心词的强关联规则时，也获得了对应的关联问句序列。

本发明实施例通过采用依存分析这种能够对语句更深层次的词语之间的修饰关系进行分析的方法来提取用户问句序列的核心词，使得基于核心词得到的关联规则更能有效地用于问答系统计算返回用户的答案，提高了问答系统理解用户意图的能力，从而提高了问答系统的准确率和召回率。

进一步地，本发明实施例通过在问句提取核心词前，过滤每个分词后的问句中的无用信息，从而减少挖掘关联问句的运算量，提升计算效率。

进一步地，本发明实施例通过统计问句事务中的问答对的数目后，仅对处于特定范围的事务中的问句进行关联问句序列的挖掘，从而忽略可能存在无效交互的问答事务以及不利于理解用户意图的较少的问答事务，使得问答系统使用挖掘得到的关联问句能提高理解用户意图的能力，返回用户较准确的答案，进而提升问答系统的准确率和召回率。

图3是本发明实施例中的一种用于问答系统挖掘关联问句的装置的结构示意图。参照图3，所述装置30可以包括：分词单元301、核心词提取单元302、目标问句事务集形成单元303和关联问句序列获取单元304。

所述分词单元301，适于对知识库中目标问答交互事务中的每个问句进行分词。

所述核心词提取单元302，适于对所述目标问答交互事务中的每个问句通过依存分析提取核心词。

在具体实施中，所述核心词提取单元302，适于通过依存分析获取所述有效问句中的各个词语之间的依存关系，利用依存关系找到所述有效问句的主语和宾语；当所述主语为名词时，将所述主语作为核心词；当所述主语不为名词时，将所述宾语作为核心词。

所述目标问句事务集形成单元303，适于将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，得到所述知识库的目标问句事务集。

在具体实施中，所述目标问句事务集形成单元303，适于当对每个所述目标问答交互事务中的问句依次提取核心词时若连续出现相同的核心词，仅保留最后一次出现的核心词。

所述关联问句序列获取单元304，适于获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列。

在具体实施中，所述关联问句序列获取单元304适于：根据每个所述目标问答交互事务中的核心词，通过Apriori或FP-Tree方法获取所述问句事务集中的核心词强关联规则，根据所述核心词强关联规则获取对应的关联问句序列。

本实施例提供的装置通过采用依存分析这种能够对语句更深层次的词语之间的修饰关系进行分析的方法来提取用户问句序列的核心词，使得基于核心词得到的关联规则更能有效地用于问答系统计算返回用户的答案，提高了问答系统理解用户意图的能力，从而提高了问答系统的准确率和召回率。

图4是本发明实施例中的一种用于问答系统挖掘关联问句的装置的结构示意图。参照图4，所述装置40可以包括：分词单元401、核心词提取单元402、目标问句事务集形成单元403和关联问句序列获取单元404。

在具体实施中，所述分词单元401、所述核心词提取单元402、所述目标问句事务集形成单元403和所述关联问句序列获取单元404，可分别参照图3中的分词单元301、核心词提取单元302、目标问句事务集形成单元303和关联问句序列获取单元304，在此不再赘述。

在具体实施中，所述装置40还可以包括过滤单元405；

所述过滤单元405，适于在对所述问句通过依存分析提取核心词前，过滤所述每个问句中的无用信息。

在具体实施中，所述装置40还可以包括预处理单元406，适于在对每个问句进行分词之前，统计所述知识库中每一个问答交互事务的问答对数目，将所述问答对数目处于特定范围的事务作为所述目标问答交互事务。

本实施例通过在问句提取核心词前，过滤每个分词后的问句中的无用信息，从而减少挖掘关联问句的运算量，提升计算效率。

此外，本实施例通过统计问句事务中的问答对的数目后，仅对处于特定范围的事务中的问句进行关联问句序列的挖掘，从而忽略可能存在无效交互的问答事务以及不利于理解用户意图的较少的问答事务，使得问答系统使用挖掘得到的关联问句能提高理解用户意图的能力，返回用户较准确的答案，进而提升问答系统的准确率和召回率。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于以计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种用于问答系统挖掘关联问句的方法，其特征在于，包括：

对知识库中目标问答交互事务中的每个问句进行分词；

2.根据权利要求1所述的用于问答系统挖掘关联问句的方法，其特征在于，还包括：在对所述问句通过依存分析提取核心词前，过滤所述每个问句中的无用信息。

3.根据权利要求1所述的用于问答系统挖掘关联问句的方法，其特征在于，所述对所述目标问答交互事务中的每个问句通过依存分析提取核心词，包括：

当所述主语为名词时，将所述主语作为核心词；

否则，将所述宾语作为核心词。

4.根据权利要求1所述的用于问答系统挖掘关联问句的方法，其特征在于，所述将所述知识库中每个所述目标问答交互事务的每个问句的核心词保存，包括：

5.根据权利要求1所述的用于问答系统挖掘关联问句的方法，其特征在于，所述获取与知识库中每个所述目标问句事务集的核心词强关联规则对应的关联问句序列，包括：

6.根据权利要求1所述的用于问答系统挖掘关联问句的方法，其特征在于，还包括：在对每个问句进行分词之前，统计所述知识库中每一个问答交互事务的问答对数目，将所述问答对数目处于特定范围的事务作为所述目标问答交互事务。

7.一种用于问答系统挖掘关联问句的装置，其特征在于，包括：

8.根据权利要求7所述的用于问答系统挖掘关联问句的装置，其特征在于，还包括：过滤单元，适于在对所述问句通过依存分析提取核心词前，过滤所述每个问句中的无用信息。

9.根据权利要求7所述的用于问答系统挖掘关联问句的装置，其特征在于，所述核心词提取单元，适于通过依存分析获取所述有效问句中的各个词语之间的依存关系，利用依存关系找到所述有效问句的主语和宾语；当所述主语为名词时，将所述主语作为核心词；否则，将所述宾语作为核心词。

10.根据权利要求7所述的用于问答系统挖掘关联问句的装置，其特征在于，所述目标问句事务集形成单元，适于当对每个所述目标问答交互事务中的问句依次提取核心词时若连续出现相同的核心词，仅保留最后一次出现的核心词。

11.根据权利要求7所述的用于问答系统挖掘关联问句的装置，其特征在于，所述关联问句序列获取单元适于：根据每个所述目标问答交互事务中的核心词，通过Apriori或FP-Tree方法获取所述问句事务集中的核心词强关联规则，根据所述核心词强关联规则获取对应的关联问句序列。

12.根据权利要求7所述的用于问答系统挖掘关联问句的装置，其特征在于，还包括：预处理单元，适于在对每个问句进行分词之前，统计所述知识库中每一个问答交互事务的问答对数目，将所述问答对数目处于特定范围的事务作为所述目标问答交互事务。