CN105630890A

CN105630890A - 基于智能问答系统会话历史的新词发现方法及系统

Info

Publication number: CN105630890A
Application number: CN201510959114.3A
Authority: CN
Inventors: 游世学; 杜新凯
Original assignee: Beijing Zhongke Huilian Technology Co Ltd
Current assignee: Beijing Zhongke Huilian Technology Co Ltd
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-06-01
Anticipated expiration: 2035-12-18
Also published as: CN105630890B

Abstract

本发明提供一种基于智能问答系统会话历史的新词发现方法，分析了新词的四个重要特征，即含有多个字、在一定数量的文本中出现多次、具有较高的凝固度，具有较高的自由度，通过数学语言进行定义，使计算机可以直接计算给定文本中的给定的若干候选字是否满足新词的特征，从而对新词进行识别。本发明还提供了一种基于智能问答系统会话历史的新词发现系统，将新词发现系统融合到智能问答系统中，使得智能问答系统具备自动发现新词的功能，持续完善和提高了智能问答系统的性能。

Description

基于智能问答系统会话历史的新词发现方法及系统

技术领域

本发明涉及智能问答领域，特别是一种基于智能问答系统会话历史的新词发现方法及系统。

背景技术

智能问答系统，又称智能机器人，可以接受用户的自然语言输入，分析用户的真实意图，得到唯一的答案返回给用户。随着人工智能技术的进步，智能问答系统，迎来了新一轮的发展热潮。国内外软件公司纷纷推出多款产品，这其中，有以GoogleNow,微软小冰，百度的小度机器人为代表的聊天机器人，可以满足用户生活、娱乐的需要；也有以北京中科汇联科技股份有限公司研发的微喂智能机器人、爱客服智能机器人为代表的专业智能客服机器人，可以满足企事业单位客户服务工作的需要，帮助企事业单位提升客户服务满意度，提高客户服务工作效率，降低客户服务成本。智能问答系统，已经在人们的工作和生活中扮演越来越重要的角色，也正因为此，智能问答系统被称为人工智能皇冠上的明珠，成为科研界、企业界持续关注的热点方向。

智能问答系统是一个非常复杂的软件系统，使用了几乎所有的自然语言处理和深度学习技术，比如分词、词性标注、命名实体识别、语法分析、句法分析、卷积神经网络、递归神经网络等等。这其中，分词是一项最为基础的工作，分词结果的好坏直接决定了智能问答系统能否正确的理解用户输入。目前，所有主流的分词器都有内置的词典，词典包含所有已知词语的条目。如果句子中的所有词都在词典中已经收录，主流分词器将该句话进行正确分词的概率在95％以上。如果句子中的某个词在词典中未收录，则分词器很可能无法对这句话进行正确的分词。

互联网的普及，知识的爆炸性增长和不断创造，使得新的词汇不断涌现，比如“大众创业”、“万众创新”、“然并卵”、“duang”，这里面既有政府政策和工作中出现的新提法，也有忽然之间发端于互联网的新表达。海量新词的发现使得分词效果面临极大的挑战，进而影响到了智能问答系统的语义理解水平。以“然并卵”为例，只有将其作为一个词看待，才有可能从语义上理解出这个词表达的含义是“然而并没有什么卵用”。

那么，如何发现和识别新的词语就成为一个亟待解决的问题。一种解决方法是通过人工筛选的方法来发现和识别新词，但是随着信息的爆炸式增长，新的词语也注定层出不穷，随着中国劳动人口的减少和工作收入的增加，依靠人力的方法成本高昂，以致于难以负担。

发明内容

为了克服现有技术的不足，发明人对互联网涌现的新词汇进行深入研究，发现用户无论通过何种途经学习到的新的词语，最终都会应用到自己与人、或者机器人的交互过程中。智能问答系统的会话历史是用户与机器聊天的完整记录。将大量用户与智能问答系统的会话历史进行汇总，就能得到人们日常生活工作中经常使用的字、词、句的语料库，这其中自然也会包含人们对新词的使用，并且，越是常用的新词，它出现的频率就会越高，出现在不同搭配和句式中的次数也会越多。

发明人进一步对这些出现在语料库中的新词语进行分析，总结得到这些新词的的四个鲜明特征：(1)一个词由若干个字组成，(2)一个词在一定规模的语料中肯定会多次出现；(3)词语具有较好的凝固度，即作为词语的若干个字在一个规模较大的语料中连续出现的概率要远大于不作为词语的若干个字在一个规模较大的语料中连续出现的概率；(4)词语具有较好的自由度，即作为词语的若干个字，可以和其它的字、词进行各种不同的搭配和组合，如若不然，此连续出现的若干个字很可能只是一个真正词语的子串。也就是说，只有同时满足了上述四个鲜明的特征的若干个字，才可能是一个新词。本发明正是基于此，提出计算新词特征的方法，并应用此方法从智能问答系统的会话历史中发现新词，以提高智能问答系统的语义分析效果，持续完善和提高智能问答系统的性能。

本发明提供一种基于智能问答系统会话历史的新词发现方法，所述方法包括如下步骤：

S1、对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词；

S2、依次遍历索引中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候选词的出现频度低于预设的频度阈值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阈值，则执行步骤S3；

S3、计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阈值，则判断该候选词不是新词，如果候选词的凝固度不低于所述凝固度阈值，则执行步骤S4；

S4、计算候选词的自由度，如果候选词的自由度低于预设的自由度阈值，则判断该候选词不是新词，如果候选词的自由度不低于所述自由度阈值，则判断该候选词为新词。

具体地，所述对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词包括：

S11、建立索引；

S12、提取会话历史中的词语，判断所述词语是否已经存在于所述智能问答系统的系统词表中，如果已经存在，则判断所述词语不是新词的候选词，否则，判断所述词语是新词的候选词，并将其加入索引中。

优选地，所述步骤S12中的词语由任意连续出现的2个字、3个字、4个字或5个字组成。

优选地，所述步骤S1之前还包括：智能问答系统定时检测会话历史数据的大小，当检测到会话历史数据超过预设的数据阈值时，则触发新词判断流程。

进一步地，所述候选词的凝固度的计算公式为：

S o l i d R a t e (W_{1} W_{2} ... W_{n}) = P (W_{1} W_{2} ... W_{n}) / m a x (P (&ForAll; D i v i s i o n (W_{1} W_{2} ... W_{n})))

其中，n为候选词的总字数，分子部分P(W₁W₂...W_n)表示n个字在会话历史中连续出现的概率，Division(W₁W₂...W_n)表示候选词的一个划分，表示候选词的任意划分，表示候选词的任意划分的概率，表示候选词的所有划分的概率的最大值。

进一步地，所述候选词的自由度的计算公式为：

FlexibilityRate(W₁W₂...W_n)＝min(Entropy(LeftNeighbourWordSet),Entropy(RightNeighbourWordSet))

其中，Entropy(LeftNeighbourWordSet)表示候选词左邻接字集的熵，Entropy(RightNeighbourWordSet)表示候选词右邻接字集的熵，候选词的自由度为左邻接字集的熵和右邻接字集的熵中的最小值。

进一步地，所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合，所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合；

所述左邻接字集或右邻接字集的熵通过邻接字集熵的计算公式计算得到，邻接字集熵的计算公式为：Entropy＝∑(-P_WilogP_Wi)，其中P_Wi表示邻接字集中某个字的概率。

优选地，所述步骤S4之后还包括：将判断为新词的候选词存入新词词库。

相应地，本发明还提供了一种基于智能问答系统会话历史的新词发现系统，所述系统包括：

候选词索引，其存储有新词的候选词；

判断模块，其用于依次遍历候选词词库中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候选词的出现频度低于预设的频度阈值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阈值，则计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阈值，则判断该候选词不是新词，如果候选词的凝固度不低于所述凝固度阈值，则计算候选词的自由度，如果候选词的自由度低于预设的自由度阈值，则判断该候选词不是新词，如果候选词的自由度不低于所述自由度阈值，则判断该候选词为新词；

新词词库，其用于存储判断模块判断得到的新词。

进一步地，所述系统还包括触发模块和候选词判断模块，

所述触发模块，其用于定时检测智能问答系统的会话历史数据的大小，当检测到会话历史数据超过预设的数据阈值时，触发新词发现流程；

所述候选词判断模块，其用于提取会话历史中的词语，判断所述词语是否已经存在于所述智能问答系统的系统词表中，如果已经存在，则判断所述词语不是新词的候选词，否则，判断所述词语是新词的候选词，并将其加入候选词索引中。

本发明具有以下有益效果：

(1)本发明将新词的四个特征，即含有多个字、在一定数量的文本中出现多次、具有较高的凝固度，具有较高的自由度，通过数学语言进行定义，使得计算机可以直接计算给定文本中的给定若干候选字是否满足词的特征，从而对新词进行识别，并以智能问答系统的会话历史为语料，词语的特征规律明显，新词识别的准确性较高。

(2)将新词发现系统融合到智能问答系统中，使得智能问答系统具备自动发现新词的功能，能够提升智能问答系统的语义理解智能化水平，达到系统自学习的目的，使智能问答系统的性能可以持续完善和提高。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是基于智能问答系统会话历史的新词发现流程。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于智能问答系统会话历史的新词发现方法，首先，智能问答系统定时检测会话历史数据的大小，当检测到会话历史数据超过预设的数据阈值时，则触发新词发现流程。例如，可以在检测到会话历史数据超过10MB时触发新词发现流程。新词发现流程具体包括：

S1、对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词。

S11、建立索引；

S12、提取会话历史中的词语，所述词语可以是由任意连续出现的2个字、3个字、4个字或5个字组成，判断所述词语是否已经存在于所述智能问答系统的系统词表中，如果已经存在，则判断所述词语不是新词的候选词，否则，判断所述词语是新词的候选词，并将其加入索引中。

S2、依次遍历索引中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候选词的出现频度低于预设的频度阈值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阈值，则执行步骤S3。

例如，候选词在正在处理的会话历史中的出现频度低于5次，则判断该候选词不是新词，将其丢弃，继续处理下一个候选词；如果候选词在正在处理的会话历史中的出现频度不低于5次，则判断该候选词可能是新词，并进入凝固度计算环节。

所述候选词的凝固度的计算公式为：

S o l i d R a t e (W_{1} W_{2} ... W_{n}) = P (W_{1} W_{2} ... W_{n}) / m a x (P (&ForAll; D i v i s i o n (W_{1} W_{2} ... W_{n})))

其中，n为候选词的总字数，分子部分P(W₁W₂...W_n)表示n个字在会话历史中连续出现的概率；Division(W₁W₂...W_n)表示候选词的一个划分，比如“爱客服”是一个候选词，则其有以下三种划分：爱+客+服，爱客+服，爱+客服；表示候选词的任意划分，表示候选词的任意划分的概率，表示候选词的所有划分的概率的最大值。

按照上述公式，如果凝固度比较小，说明候选词很可能是该候选含有的若干字随机地出现在一起；反之，则说明候选词很可能是一个词。但是凝固度比较高，并不一定说明这个候选词一定是新词。但如果一个候选词是新词，则该候选词的一个子串凝固度同样很高，因此为进一步确定该候选词是否为新词，还需要计算该候选词的自由度特征。

通过设置凝固度阈值淘汰凝固度过低的候选词。例如，按照上述凝固度计算公式计算得到某一候选词的凝固度，如果凝固度低于500，则丢弃该候选词，处理下一个候选词；如果凝固度不低于500，则进入自由度计算环节。通过这种筛选留下来的候选词是新词的几率更大。

所述候选词的自由度的计算公式为：

进一步地，所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合，所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合；所述左邻接字集或右邻接字集的熵通过邻接字集熵的计算公式计算得到，邻接字集熵的计算公式为：Entropy＝∑(-P_WilogP_Wi)，其中P_Wi表示邻接字集中某个字的概率。

优选地，按照上述自由度计算公式，计算得到候选词的自由度，如果自由度低于1.5，则丢弃该候选词，并处理下一个候选词；如果自由度不低于1.5，则判断该候选词为新词。

S5、判断为新词的候选词存入新词词库。

本发明还提供了一种基于智能问答系统会话历史的新词发现系统，该系统与上述方法基于同样的发明构思。

所述系统包括：触发模块、候选词判断模块、候选词索引、判断模块及新词词库。

所述候选词判断模块，其用于提取会话历史中的词语，判断所述词语是否已经存在于所述智能问答系统的系统词表中，如果已经存在，则判断所述词语不是新词的候选词，否则，判断所述词语是新词的候选词，并将其加入候选词索引中；

所述候选词索引，其存储有新词的候选词；

所述判断模块，其用于依次遍历索引中的候选词，计算每个候选词在所述会话历史中的出现频度，如果候选词的出现频度低于预设的频度阈值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阈值，则计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阈值，则判断该候选词不是新词，如果候选词的凝固度不低于所述凝固度阈值，则计算候选词的自由度，如果候选词的自由度低于预设的自由度阈值，则判断该候选词不是新词，如果候选词的自由度不低于所述自由度阈值，则判断该候选词为新词；

所述新词词库，其用于存储判断模块判断得到的新词。

图1是基于智能问答系统会话历史的新词发现系统的新词发现流程图，包括对候选词的频度、凝固度和自由度的计算和比较判断，其具体的计算和判断方法与上述基于智能问答系统会话历史的新词发现方法一致。

本发明分析了新词的四个重要特征，提出计算新词特征的方法，给出了候选词的凝固度和自由度的数学计算公式，将新词特征计算方法应用到智能问答系统中，以从会话历史中发现新词，提高智能问答系统的语义分析效果，持续完善和提高智能问答系统的性能。

以上所揭露的仅为本发明的一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于智能问答系统会话历史的新词发现方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述对智能问答系统的会话历史建立索引，所述索引中包含新词的候选词包括：

S11、建立索引；

3.根据权利要求2所述的方法，其特征在于，所述步骤S12中的词语由任意连续出现的2个字、3个字、4个字或5个字组成。

4.根据权利要求1或2所述的方法，其特征在于，所述步骤S1之前还包括：智能问答系统定时检测会话历史数据的大小，当检测到会话历史数据超过预设的数据阈值时，触发新词发现流程。

5.根据权利要求1所述的方法，其特征在于，所述候选词的凝固度的计算公式为：

S o l i d R a t e (W_{1} W_{2} ... W_{n}) = P (W_{1} W_{2} ... W_{n}) / m a x (P (&ForAll; D i v i s i o n (W_{1} W_{2} ... W_{n})))

6.根据权利要求1所述的方法，其特征在于，所述候选词的自由度的计算公式为：

7.根据权利要求6所述的方法，其特征在于，所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合，所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合；

8.根据权利要求1所述的方法，其特征在于，所述步骤S4之后还包括：将判断为新词的候选词存入新词词库。

9.一种基于智能问答系统会话历史的新词发现系统，其包含在智能问答系统中，其特征在于，所述系统包括：

候选词索引，其存储有新词的候选词；

判断模块，其用于依次遍历索引中的候选词，计算每个候选词在智能问答系统的会话历史中的出现频度，如果候选词的出现频度低于预设的频度阈值，则判断该候选词不是新词，如果候选词的出现频度不低于所述频度阈值，则计算候选词的凝固度，如果候选词的凝固度低于预设的凝固度阈值，则判断该候选词不是新词，如果候选词的凝固度不低于所述凝固度阈值，则计算候选词的自由度，如果候选词的自由度低于预设的自由度阈值，则判断该候选词不是新词，如果候选词的自由度不低于所述自由度阈值，则判断该候选词为新词；

新词词库，其用于存储判断模块判断得到的新词。

10.根据权利要求9所述的基于智能问答系统会话历史的新词发现系统，其特征在于，还包括触发模块和候选词判断模块，