具体实施方式
为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开示例性实施例中的附图,对本公开示例性实施例中的技术方案进行清楚、完整地描述。
在本公开的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本公开示例性实施例中的附图,对本公开示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。.
图1示出根据本公开一实施方式的问答识别效果检测方法的流程图。该方法可以包括步骤S101、S102、S103和S104。
在步骤S101中,根据用户提问的原始数据获取包括热词的热词集合。
在步骤S102中,对热词集合中的热词进行排序以及筛选以确定热点提问,并且将热词与用户反馈和答案信息进行关联,以针对热词获得该热词所关联的答案分布,并且针对答案获得该答案所关联的热词。
在步骤S103中,检测一个热词所关联的去重后的答案数量是否超过第一阈值以及一个答案所关联的热词数量是否超过第二阈值。
在步骤S104中,当检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例。
在本公开的实施例中,热词是一种词汇现象,反映了一个时间周期内人们普遍关注的问题和事物。热词具有时间和空间特征,即反映某个群体中某个时期的热点话题,主要表达形式有词汇以及短语。
在本公开的一个实施例中,根据用户提问的原始数据获取包括热词的热词集合的方式可以是进行热词挖掘。可以根据用户提问的原始数据,通过新词发现、短语挖掘和热度计算等操作来获取热词集合或候选的热词集合。
在本公开的一个实施例中,对热词集合中的热词进行排序以及筛选以确定热点提问,包括:根据热词的时间段分布、热词的入口多样性分布和对热词的周期性分析,对热词结果进行排序及筛选,以确定热点提问。热词的时间段分布可以指的是以诸如10分钟之类的时间段为单位的热词数量走势。
在本公开的一个实施例中,将热词与用户反馈和答案信息进行关联,包括:以热词为维度建立倒排索引,将热词与用户反馈和答案信息进行关联。因此,在获取热词(热词挖掘)完成后,可以以热词为维度建立倒排索引,将热词与用户反馈和答案信息进行关联,加速后续分析的过程。另外,用户反馈可以包括用户对问答系统的评价等。
在本公开的一个实施例中,针对热词获得该热词所关联的答案分布可以包括:以单个热词为单位对热词所关联的提问与答案对进行分析以获得该热词所关联的答案分布。可以理解,可以存在与一个热词关联的多对提问与答案,因此,可以对多个提问与答案对进行分析,获得该热词所关联的答案分布。例如,对于某个语义清晰的热词,如“信用卡还款”,所对应的答案分布都会围绕该热词主题。
在本公开的一个实施例中,针对答案获得该答案所关联的热词,包括:以单个答案为单位对与该答案对应的用户提问进行热词聚类以获得该答案所关联的热词。例如,某个答案对应的原始提问应围绕某一个或少量的热点话题,而不应与超过某阈值的多个热词相关。
在本公开的一个实施例中,当检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例指的是:无论出现一个热词所关联的去重后的答案数量超过第一阈值、或者一个答案所关联的热词数量超过第二阈值、或者一个热词所关联的去重后的答案数量超过第一阈值同时一个答案所关联的热词数量超过第二阈值这三种情况中的哪一种情况,都可以确定出现了热词与答案的匹配异常案例。换言之,如果某热词所关联的去重答案数量过多,则该热词所关联的提问具会有与提问不相关的答案;如果某个答案所关联的热词数量过多,则该答案对应的原始提问围绕了过多的话题(热词),可以认为出现热词与答案的匹配异常案例,或者是出现候选的热词与答案的匹配异常案例以供后续排查。在本公开的实施例中,热词与答案的匹配异常案例可以被认为是坏案例中的一种。本领域技术人员可以理解,根据实际情况需要,第一阈值和第二阈值可以是任何数量。另外,去重指的是去除重复的答案,去重可以避免统计和计算失真。
在本公开实施方式中,通过根据用户提问的原始数据获取包括热词的热词集合;对热词集合中的热词进行排序以及筛选以确定热点提问,并且将热词与用户反馈和答案信息进行关联,以针对热词获得该热词所关联的答案分布,并且针对答案获得该答案所关联的热词;检测一个热词所关联的去重后的答案数量是否超过第一阈值以及一个答案所关联的热词数量是否超过第二阈值;当检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例,可以通过获取热词集合,同时通过热词与答案的双向关联分析,结合用户反馈,对问答识别效果进行集中监控,而且能够有效关注诸如匹配异常案例之类的长尾问题的问答识别效果。相关技术的热词挖掘方案可通过Apriori关联规则挖掘、SegPhrase短语发现等方法完成,对分词正确性或语料质量都有较高的要求,同时,相关技术的方案仅止于热词挖掘,不像本公开实施例的方案中深入问答系统进行热词的评估和问答匹配的坏案例发现。
在本公开的实施方式中,长尾问题可以指的是出现频率不是很高的那些问题。
图2示出根据本公开另一实施方式的问答识别效果检测方法的流程图。图2所示的实施方式与图1所示的实施方式的区别在于,图2除了包括步骤S101、S102、S103和S104之外,还包括步骤S201和S202。
在步骤S201中,检测一个热词所关联的去重后的答案中是否包括该热词。
在步骤S202中,当检测到一个热词所关联的去重后的全部答案中均不包括该热词时,确定出现答案缺失案例。
在本公开的一个实施例中,可以在在确定热词与答案的匹配异常案例进行进一步分析,如果某热词所关联的所有答案标题中,均不包含该热词字符串,则可以认为是答案库有答案缺失,因此可以认为出现答案缺失案例,或者可将此案例作为候选的缺失案例供后续排查。在本公开的实施例中,答案缺失案例可以被认为是坏案例中的一种。
在本公开的实施方式中,可以通过获取热词集合,同时通过热词与答案的双向关联分析,结合用户反馈,对问答识别效果进行集中监控,而且能够有效关注诸如匹配异常案例以及答案缺失案例之类的长尾问题的问答识别效果。
图3示出根据本公开另一实施方式的问答识别效果检测方法的步骤S101的流程图的示例。步骤S101包括步骤S301、S302、S303和S304。
在步骤S301中,通过预设的新词发现算法对用户提问的原始数据进行计算以获取新词,其中,新词以字符为组成单元。
在步骤S302中,根据预设基础词库中的基础词以及获取的新词生成分词词典,并且利用分词词典对用户提问进行分词以得到提问分词结果。
在步骤S303中,通过预设的短语发现算法对分词结果进行计算以获取短语,其中,短语以分词后得到的单词为组成单元。
在步骤S304中,根据预设热度算法计算短语的热度,并将热度大于预设热度阈值的短语确定为热词。
在本公开的一个实施例中,预设的新词发现算法可以是相关技术中的用于获取新词的算法,只要能够实现对用户提问的原始数据进行计算以获取新词即可。
在本公开的一个实施例中,步骤S301包括:通过预设的新词发现算法对用户提问的原始数据中的字符串的自由度和凝固度进行计算,并以通过预设新词阈值对字符串进行限制以获取新词。将字符作为单元进行自由度和凝聚度的计算,通过预设新词阈值,能够有效识别新词表达方式,避开发现新词过程中的坏案例。新词阈值可以指的是根据实际需要对字符串的自由度和凝固度设定的相应阈值。另外,获得的新词可以是新提问中的潜在新词,可能代表了新产品、新业务或新表达方式等。另外,发现的新词可以是具有高词粒度的新词。
在本公开的一个实施例中,步骤S303包括:通过预设的短语发现算法对分词结果中的单词的自由度和凝固度进行计算,并以通过预设短语阈值对单词进行限制以获取短语。将单词作为单元进行自由度和凝聚度的计算,通过预设短语阈值,能够有效识别短语表达方式,避开发现短语过程中的坏案例。短语阈值可以指的是根据实际需要对词序列的自由度和凝固度设定的相应阈值。
在本公开的一个实施例中,在根据预设热度算法计算短语的热度时,可以根据短语的信息熵和互信息、以及短语出现频次、左右邻的出现均衡数等指标进行加权分析,以获得短语的热度表示。在本公开的实施例中,信息熵是信息论中用于度量信息量的一个概念,直接反应了系统有序化程度,系统越规则有序则信息熵越低,反之系统越混乱无序则信息熵越高。互信息是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。左右邻指的是当前短语左侧和右侧的短语。根据本公开实施方式对的教导,本领域技术人员可以理解,可以通过相关技术中的计算方法来计算短语的热度。
在本公开实施方式中,不同于传统方案通过关联挖掘等方法进行短语挖掘,本方案将短语聚合视为新词发现的特殊过程,即将单词看作一个单元进行自由度和凝聚度的计算,不但能达到短语聚合结果,还能够有效识别新兴的短语表达方式并规避新词发现过程中的坏案例。例如,新词发现过程中错误挖掘出“怎么开”和“通支付工具”两个词,本方案可通过短语挖掘(获取)将二者再次合成为一个有效短语“怎么开通支付工具”,从而完成错误纠正。
而且,根据本公开实施方式的问答识别效果检测方案结合问答系统的特征,如时间波动、用户反馈、答案分布等进行分析,对热度识别及长尾问题发现都能起到作用。
以下参照图4对本公开的问答识别效果检测装置进行描述。
图4示出根据本公开另一实施方式的问答识别效果检测装置的结构框图。如图4所示的问答识别效果检测装置包括热词获取模块401、问答关联模块402、异常检测模块403和异常确定模块404。
热词获取模块401被配置为根据用户提问的原始数据获取包括热词的热词集合。
问答关联模块402被配置为对热词集合中的热词进行排序以及筛选以确定热点提问,并且将热词与用户反馈和答案信息进行关联,以针对热词获得该热词所关联的答案分布,并且针对答案获得该答案所关联的热词。
异常检测模块403被配置为检测一个热词所关联的去重后的答案数量是否超过第一阈值以及一个答案所关联的热词数量是否超过第二阈值。
异常确定模块404被配置为当异常检测模块403检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例。
在本公开的一个实施例中,根据用户提问的原始数据获取包括热词的热词集合的方式可以是进行热词挖掘。可以根据用户提问的原始数据,通过新词发现、短语挖掘和热度计算等操作来获取热词集合或候选的热词集合。
在本公开的一个实施例中,问答关联模块402还被配置为:根据热词的时间段分布、热词的入口多样性分布和对热词的周期性分析,对热词结果进行排序及筛选,以确定热点提问。热词的时间段分布可以指的是以诸如10分钟之类的时间段为单位的热词数量走势。
在本公开的一个实施例中,问答关联模块402还被配置为:以热词为维度建立倒排索引,将热词与用户反馈和答案信息进行关联。因此,在获取热词(热词挖掘)完成后,可以以热词为维度建立倒排索引,将热词与用户反馈和答案信息进行关联,加速后续分析的过程。另外,用户反馈可以包括用户对问答系统的评价等。
在本公开的一个实施例中,问答关联模块402还被配置为:以单个热词为单位对热词所关联的提问与答案对进行分析以获得该热词所关联的答案分布。可以理解,可以存在与一个热词关联的多对提问与答案,因此,可以对多个提问与答案对进行分析,获得该热词所关联的答案分布。例如,对于某个语义清晰的热词,如“信用卡还款”,所对应的答案分布都会围绕该热词主题。
在本公开的一个实施例中,问答关联模块402还被配置为:以单个答案为单位对与该答案对应的用户提问进行热词聚类以获得该答案所关联的热词。例如,某个答案对应的原始提问应围绕某一个或少量的热点话题,而不应与超过某阈值的多个热词相关。
在本公开的一个实施例中,当检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例指的是:无论出现一个热词所关联的去重后的答案数量超过第一阈值、或者一个答案所关联的热词数量超过第二阈值、或者一个热词所关联的去重后的答案数量超过第一阈值同时一个答案所关联的热词数量超过第二阈值这三种情况中的哪一种情况,都可以确定出现了热词与答案的匹配异常案例。换言之,如果某热词所关联的去重答案数量过多,则该热词所关联的提问具会有与提问不相关的答案;如果某个答案所关联的热词数量过多,则该答案对应的原始提问围绕了过多的话题(热词),可以认为出现热词与答案的匹配异常案例,或者是出现候选的热词与答案的匹配异常案例以供后续排查。在本公开的实施例中,热词与答案的匹配异常案例可以被认为是坏案例中的一种。本领域技术人员可以理解,根据实际情况需要,第一阈值和第二阈值可以是任何数量。另外,去重指的是去除重复的答案,去重可以避免统计和计算失真。
在本公开实施方式中,通过热词获取模块,被配置为根据用户提问的原始数据获取包括热词的热词集合;问答关联模块,被配置为对热词集合中的热词进行排序以及筛选以确定热点提问,并且将热词与用户反馈和答案信息进行关联,以针对热词获得该热词所关联的答案分布,并且针对答案获得该答案所关联的热词;异常检测模块,被配置为检测一个热词所关联的去重后的答案数量是否超过第一阈值以及一个答案所关联的热词数量是否超过第二阈值;异常确定模块,被配置为当所述异常检测模块检测到一个热词所关联的去重后的答案数量超过第一阈值和/或一个答案所关联的热词数量超过第二阈值时,确定出现热词与答案的匹配异常案例,可以通过获取热词集合,同时通过热词与答案的双向关联分析,结合用户反馈,对问答识别效果进行集中监控,而且能够有效关注诸如匹配异常案例之类的长尾问题的问答识别效果。相关技术的热词挖掘方案可通过Apriori关联规则挖掘、SegPhrase短语发现等方法完成,对分词正确性或语料质量都有较高的要求,同时,相关技术的方案仅止于热词挖掘,不像本公开实施例的方案中深入问答系统进行热词的评估和问答匹配的坏案例发现。
在本公开的实施方式中,长尾问题可以指的是出现频率不是很高的那些问题。
图5示出根据本公开另一实施方式的问答识别效果检测装置的结构框图。图5所示的实施方式与图4所示的实施方式的区别在于,图5除了包括热词获取模块401、问答关联模块402、异常检测模块403和异常确定模块404之外,还包括步骤缺失检测模块501和缺失确定模块502。
缺失检测模块501被配置为检测一个热词所关联的去重后的答案中是否包括该热词。
缺失确定模块502被配置为当缺失检测模块501检测到一个热词所关联的去重后的全部答案中均不包括该热词时,确定出现答案缺失案例。
在本公开的一个实施例中,可以在在确定热词与答案的匹配异常案例进行进一步分析,如果某热词所关联的所有答案标题中,均不包含该热词字符串,则可以认为是答案库有答案缺失,因此可以认为出现答案缺失案例,或者可将此案例作为候选的缺失案例供后续排查。在本公开的实施例中,答案缺失案例可以被认为是坏案例中的一种。
在本公开的实施方式中,可以通过获取热词集合,同时通过热词与答案的双向关联分析,结合用户反馈,对问答识别效果进行集中监控,而且能够有效关注诸如匹配异常案例以及答案缺失案例之类的长尾问题的问答识别效果。
图6示出根据本公开一实施方式的问答识别效果检测装置中的热词获取模块401的结构框图。热词获取模块401包括新词获取子模块601、提问分词子模块602、短语获取子模块603和热度计算子模块604。
新词获取子模块601被配置为通过预设的新词发现算法对用户提问的原始数据进行计算以获取新词,其中,新词以字符为组成单元。
提问分词子模块602被配置为根据预设基础词库中的基础词以及获取的新词生成分词词典,并且利用分词词典对用户提问进行分词以得到提问分词结果。
短语获取子模块603被配置为通过预设的短语发现算法对分词结果进行计算以获取短语,其中,短语以分词后得到的单词为组成单元。
热度计算子模块604被配置为根据预设热度算法计算短语的热度,并将热度大于预设热度阈值的短语确定为热词。
在本公开的一个实施例中,预设的新词发现算法可以是相关技术中的用于获取新词的算法,只要能够实现对用户提问的原始数据进行计算以获取新词即可。
在本公开的一个实施例中,新词获取子模块601被配置为:通过预设的新词发现算法对用户提问的原始数据中的字符串的自由度和凝固度进行计算,并以通过预设新词阈值对字符串进行限制以获取新词。将字符作为单元进行自由度和凝聚度的计算,通过预设新词阈值,能够有效识别新词表达方式,避开发现新词过程中的坏案例。新词阈值可以指的是根据实际需要对字符串的自由度和凝固度设定的相应阈值。另外,获得的新词可以是新提问中的潜在新词,可能代表了新产品、新业务或新表达方式等。另外,发现的新词可以是具有高词粒度的新词。
在本公开的一个实施例中,短语获取子模块603还被配置为:通过预设的短语发现算法对分词结果中的单词的自由度和凝固度进行计算,并以通过预设短语阈值对单词进行限制以获取短语。将单词作为单元进行自由度和凝聚度的计算,通过预设短语阈值,能够有效识别短语表达方式,避开发现短语过程中的坏案例。短语阈值可以指的是根据实际需要对词序列的自由度和凝固度设定的相应阈值。
在本公开的一个实施例中,在根据预设热度算法计算短语的热度时,可以根据短语的信息熵和互信息、以及短语出现频次、左右邻的出现均衡数等指标进行加权分析,以获得短语的热度表示。在本公开的实施例中,信息熵是信息论中用于度量信息量的一个概念,直接反应了系统有序化程度,系统越规则有序则信息熵越低,反之系统越混乱无序则信息熵越高。互信息是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。左右邻指的是当前短语左侧和右侧的短语。根据本公开实施方式对的教导,本领域技术人员可以理解,可以通过相关技术中的计算方法来计算短语的热度。
在本公开实施方式中,不同于传统方案通过关联挖掘等方法进行短语挖掘,本方案将短语聚合视为新词发现的特殊过程,即将单词看作一个单元进行自由度和凝聚度的计算,不但能达到短语聚合结果,还能够有效识别新兴的短语表达方式并规避新词发现过程中的坏案例。例如,新词发现过程中错误挖掘出“怎么开”和“通支付工具”两个词,本方案可通过短语挖掘(获取)将二者再次合成为一个有效短语“怎么开通支付工具”,从而完成错误纠正。
而且,根据本公开实施方式的问答识别效果检测方案结合问答系统的特征,如时间波动、用户反馈、答案分布等进行分析,对热度识别及长尾问题发现都能起到作用。
以上描述了问答识别效果检测装置的内部功能和结构,在一个可能的设计中,该问答识别效果检测装置的结构可实现为问答识别效果检测设备,如图7中所示,该处理设备700可以包括处理器701以及存储器702。
所述存储器702用于存储支持问答识别效果检测装置执行上述任一实施例中问答识别效果检测方法的程序,所述处理器701被配置为用于执行所述存储器702中存储的程序。
所述存储器702用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器701执行。
所述处理器701用于执行前述各方法步骤中的全部或部分步骤。
其中,所述问答识别效果检测设备的结构中还可以包括通信接口,用于问答识别效果检测设备与其他设备或通信网络通信。
本公开示例性实施例还提供了一种计算机存储介质,用于储存所述问答识别效果检测装置所用的计算机软件指令,其包含用于执行上述任一实施例中问答识别效果检测方法所涉及的程序。
图8是适于用来实现根据本公开一实施方式的问答识别效果检测方法的计算机系统的结构示意图。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述图1所示的实施方式中的各种处理。在RAM803中,还存储有系统800操作所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施方式,上文参考图1描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图1的数据处理方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。