CN113569004B

CN113569004B - 一种针对限制性自然语言用例建模的智能提示方法

Info

Publication number: CN113569004B
Application number: CN202110660321.4A
Authority: CN
Inventors: 祁泽文; 王铁鑫; 岳涛
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2024-07-02
Anticipated expiration: 2041-06-15
Also published as: CN113569004A

Abstract

本发明公开了一种针对限制性自然语言用例建模的智能提示方法，具体为：建立领域词汇库；用户开始输入，根据用户输入实时计算领域相似度，自动判别用户分析的领域；若领域判断成功，则根据用户输入的上文词性标签通过多分类模型预测所需推荐术语词性标签，获取用户输入前缀后，进行相应领域的术语推荐；若领域判断失败，则判定为新领域，不返回任何推荐，将用户输入放入缓存，等待重新聚类；用户输入完后，接收用户输入的文档，进行重新聚类，并进行术语提取；更新领域词汇库中的领域划分和对应领域术语。本发明用于实现用户使用RUCM进行需求分析的智能化，提高了自然语言需求分析书写的效率，使得需求分析更加规范。

Description

一种针对限制性自然语言用例建模的智能提示方法

技术领域

本发明涉及一种针对限制性自然语言用例建模的智能提示方法，属于领域词汇的提示和推荐技术领域。

背景技术

随着机器学习，人工智能的发展和普及，人们的生活和工作方式在发生着极大的改变。当计算机可以代替人工完成繁杂冗余的工作，对于自然语言进行处理并给予智能化的提示时，我们的生活将变得更集中，更高效，更高速，更可控。

随着通信技术，计算机网络技术的飞速发展，人们需求日益增长，系统复杂性也日益增加。这给一代RUCM的用例描述带来了一定的困难，用户需要手动输入大量需求描述，所耗费人力、物力、时间也相应增加。这也使得用户对RUCM智能化的需求更加迫切。

发明内容

本发明所要解决的技术问题是：提供一种针对限制性自然语言用例建模的智能提示方法，通过把握RUCM本身所有的26条约束规则，在其基础上进行自然语言的处理，实现领域词汇的提示和推荐，提高用户描述需求的效率，实现RUCM本身的增量学习，动态演进。

本发明为解决上述技术问题采用以下技术方案：

一种针对限制性自然语言用例建模的智能提示方法，包括如下步骤：

步骤1，建立领域词汇库，所述领域词汇库中存放有不同的领域及各领域对应的术语；

步骤2，用户开始向需求分析工具输入新的文档即上文，根据用户输入实时计算新的文档对应的文档向量与各领域的领域向量之间的余弦相似度，判断新的文档是否属于领域词汇库中的已有领域；

步骤3，若判定新的文档属于领域词汇库中的某个领域，则根据用户输入的上文词性标签通过预先训练好的多分类模型预测所要推荐的术语词性标签，获取用户输入上文的前缀，进行对应领域的术语推荐；若判定新的文档属于新的领域，则不进行术语推荐，将用户输入放入需求分析工具的缓存，等待重新聚类；

步骤4，用户输入完成后，将用户输入的新的文档放入缓存，对缓存中原有的文档对应的文档向量以及新的文档对应的文档向量进行重新聚类，对新的文档对应的文档向量进行术语的提取；

步骤5，根据步骤4的重新聚类和术语提取，对领域词汇库中的领域划分以及各领域对应的术语进行更新。

作为本发明的一种优选方案，步骤1所述领域词汇库中存放的领域是通过对不同文档对应的文档向量聚类得到，不同文档均放在需求分析工具的缓存中。

作为本发明的一种优选方案，步骤2所述判断新的文档是否属于领域词汇库中的已有领域，具体为：

设置余弦相似度阈值为T，计算新的文档对应的文档向量与各领域的领域向量之间的余弦相似度，若新的文档对应的文档向量与各领域的领域向量之间的余弦相似度均小于T，则判定新的文档属于新的领域；若新的文档对应的文档向量与各领域的领域向量之间的余弦相似度均大于等于T，则判定新的文档属于领域词汇库中的已有领域，对所有的余弦相似度从大到小进行排序，选择排序第一的余弦相似度对应的领域作为新的文档的所属领域。

作为本发明的一种优选方案，步骤3所述预先训练好的多分类模型是根据RUCM本身的26条规则和文档特征，收集相应的样本数据集，来训练多分类模型；

其中，样本数据集的特征如下：

(1)根据RUCM前16条语法规则，获取样本数据集上文的词性标签，预测下文所需术语的词性标签；

(2)根据RUCM后10条关于关键词的规则，规定相应关键词对结构的控制，包括若上文标签为INCLUDE USECASE，则下文术语词性标签为NP；若上文标签为EXTENG BY USECASE，则下文术语词性标签为NP；若上文标签为VALIDATE THAT，则下文术语词性标签为NP，NP表示名词短语。

作为本发明的一种优选方案，步骤4所述对新的文档对应的文档向量进行术语的提取，具体过程如下：

(1)获取用户输入的完整文档对应的文档向量；

(2)对完整文档对应的文档向量进行数据清洗后，利用OpenNLP得到候选词集合RES1；

(3)利用制定的VPs规则即训练好的VP chunks提取模型，对完整文档向量进行提取，得到候选词集合RES2；

(4)求得RES1与RES2的交集，得到候选词集合RES3；

(5)利用TF-IDF对RES3进行过滤，通过计算RES3中每个候选词的TFIDF值，将RES3中TFIDF值小于设定阈值的候选词筛除，得到最终的集合RES4；

(6)根据RES4中词汇词性，对RES4中词汇进行分组，并保存。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明使用无监督聚类方法，降低了关键词推荐搜索范围，实现RUCM后台语料库的自学习，自更新。

2、本发明使用机器学习与规则相结合，提高了OpenNLP动词的召回率，结合TF-IDF提高领域关键词的提取精确性。

3、本发明根据RUCM文档规律，训练多分类模型，实现用户输入词性预测。

附图说明

图1是本发明一种针对限制性自然语言用例建模的智能提示方法的流程示意图。

图2是本发明中解决领域分类更新的方法示意图。

图3是本发明中RUCM的26条限制规则示意图。

图4是本发明中I-RUCM与用户交互的示例图，其中，(a)为I-RUCM判别领域，为用户提供术语示意图；(b)为I-RUCM根据用户输入，更新领域词汇库示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明对一代RUCM进行拓展，结合机器学习，提出了一种领域分类提示方法，本发明的具体流程示意图如图1所示，实现RUCM的智能化。具体步骤如下：

(1)首先建立好领域词汇库，其中存放通过聚类划分好的不同的领域及对应领域的术语。

(2)用户开始输入，根据用户输入实时计算领域相似度，自动判别用户分析的领域。

(3)若领域判断成功，则根据用户输入的上文词性标签通过多分类模型预测所需推荐术语词性标签，获取用户输入前缀后，进行相应领域的术语推荐；

若领域判断失败，则系统自动判定为新领域，不返回任何推荐，并将用户输入放入缓存，等待重新聚类。

(4)用户输入完后，接收用户输入的文档，进行重新聚类，并进行术语的提取。

(5)通过(4)中的聚类和术语提取，更新领域词汇库中的领域划分和对应领域术语，图2解决了领域分类更新。

在具体实施中，领域分类。由于RUCM样本较小的问题，前期收集大量样本进行训练划分领域难以实施，所以前期采用无监督的聚类方法——Kmeans，将已有的RUCM文档通过TfidfEncoder()计算文档向量，通过聚类得到k个集合，对于用户新来的文档，从数据集中随机选择k个数据点作为质心，对数据集中每一个点，计算其与每一个质心的距离，离哪个质心近，就划分到那个质心所属的集合。把所有数据归好集合后，一共有k个集合。然后重新计算每个集合的质心。如上迭代，当最后计算的结果小于阈值时，算法结束。

其中对于新来的用户文档向量，判断是否始于已有领域，还是重新聚类，划分新领域，通过设置余弦相似度阈值T判断，通过计算领域向量d与新来的文档向量v：

判断若Sim(d，v)<T，则属于新的领域。

判断若Sim(d，v)>＝T，则计算max{sim1,sim2,...,simn}，sim1,sim2,...,simn表示已有的领域向量与新来的文档向量之间的余弦相似度，判断所属领域。

如对以下文本，进行领域判断：

ATM customer withdraws a specific amount of funds from a valid bankaccount.

The system is idle.

The system is displaying a Welcome message ATM customer.

INCLUDE USE CASE Validate PIN.

领域判断结果示例如下所示，根据余弦相似度计算得出distance>k，得出所示文本属于已有领域，并打上领域标签0。

tokens is:

ATM customer withdraws a specific amount of funds from a valid bankaccount The system is idle The system is displaying a Welcome message ATMcustomer INCLUDE USE CASE Validate PIN

distance:2.220446049250313

index:0

belong domain index is：0

在具体实施中，提取关键词。通过分析已有RUCM文档关键词词性，发现大于90％的术语都属于名词短语(NP)，动词短语(VP)。采用OpenNLP实现分词，提取关键词。实验发现，OpenNLP对NP的召回率相对较高，对VP的召回率较低。所以通过收集RUCM文档关键词出现的位置和词性，结合RUCM本身26条规则，指定关键词提取规则，提高对VP的召回率。最后根据TFIDF过滤，提高提取关键词的精确性，具体流程如下：

(1)获取用户新来RUCM文档。

(2)接收到的文档进行数据清洗后，利用OpenNLP得到候选词集合RES1。

(3)利用制定的VPs规则即训练好的VP chunks提取模型，进行提取，得到候选词集合RES2。

(4)求得RES1与RES2的交集，得到候选词集合RES3。

(5)利用TF-IDF进行过滤，通过计算其TFIDF值，将RES3中TFIDF值较小的筛除，得到最终的结果RES4。

(6)根据RES4的词性，分组，并保存。

关键词的提取过滤，采用OpenNLP提取名词短语，结合RUCM文档规律制定动词短语提取规则，使用机器学习与规则相结合，增加了动词短语的召回率。同时结合TF-IDF，根据关键词组再文本中出现的次数和在整个语料中出现的文档频率来计算该词组在整个语料中的重要程度，过滤常用词等无关词组，提高关键词的召回率。

在具体实施中，返回结果，实现领域词汇推荐。对于用户输入的前缀，根据预测词性，实现领域词汇推荐的优先顺序。

如用户有以下输入：

The system controls for vehicle to d

系统经过识别领域，获取上文，预测词性，获取当前用户输入前缀，返回推荐结果如下：

preTag:TO

predict tags:VP

上文单词：for vehicle to

搜索前缀：d

搜索结果为：should be turning|drive forward|drive|

在具体实施中，获取上文，预测下文词性。根据RUCM 26条规则和文档特征，训练多分类模型，并索引到后台语料库。根据领域词性进行推荐。根据图3，RUCM本身的26条规则，收集相应的样本数据集：

数据集特征如下：

(1)根据RUCM前16条语法规则，获取上文用户输入的词性标签，预测下文用户所需术语的词性标签，例如：

若上文为Be动词，预测下文术语词性标签为：VP-VBG(动词短语—动词的现在分词)，NP-JJ(名词短语—形容词)，NP-DT(名词短语—限定词)等；

若上文标签为“TO”，预测下文术语词性标签为："VP-VB"，"VP-VBG"，"NP-JJ"，"NP-NN"，"NP"等；

若上文标签为“NN”，预测下文术语词性标签为："VP-VBZ"，"VP-NNS"，"VP-VB"，"NP"等；

若上文标签为“VB”，预测下文术语词性标签为："NP-VBG"，"VP-TO"等；

……

(2)根据RUCM后10条关于关键词的规则，规定相应关键词对结构的控制，例如：

若上文标签为INCLUDE USECASE，预测用预测下文术语词性标签NP(名词短语)；

若上文标签为EXTENG BY USECASE，预测用预测下文术语词性标签NP；

若上文标签为VALIDATE THAT，预测用预测下文术语词性标签NP。

并将推荐词典分词性存放，所有可能的词性标签，将其分为两层存放，第一层为大类VP/NP，第二层为小类，根据Stanford Parser分析的具体词性，存放示例如下：

NP-NNP

Maintain lane|

NP-VBG

driving environment|

NP-NN

VP-VB

Check driving environment|

通过以上收集的数据集，训练多分类模型，来预测下文术语的词性标签。

在具体实施中，保存用户输入，更新领域。本发明对于系统运行完后，更新领域信息。通过updateTokens()的方法实时收录用户的输入内容。并在用户退出编辑界面时，将收录内容放入缓存(cache)中，为保证运行效率，设定缓存数量值n，定时更新。

当Cache<n，不更新；

当Cache>＝n，更新领域，重新聚类，提取关键词。

本发明动态更新的方法，实现了RUCM自学习的功能，通过用户的使用，提示的领域词汇也会更加精确。如图4的(a)和(b)，用户与I-RUCM的交互示例图实现了RUCM的增量学习，动态演进。新建了RUCM后台语料库，收集并扩充了各个领域的领域词汇，并且针对小样本困境，提出了增量学习，动态演进的方法，使得RUCM成为一个开放性，可以实现自学习的智能需求分析工具。随着用户的不断使用，自动实现后台语料库的更新和扩充，使得推荐内容更加精确。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种针对限制性自然语言用例建模的智能提示方法，其特征在于，包括如下步骤：

步骤2，用户开始向需求分析工具输入新的文档即上文，根据用户输入实时计算所述新的文档对应的文档向量与各领域的领域向量之间的余弦相似度，判断所述新的文档是否属于领域词汇库中的已有领域；

步骤3，若判定所述新的文档属于领域词汇库中的某个领域，则根据用户输入的上文词性标签通过预先训练好的多分类模型预测所要推荐的术语词性标签，获取用户输入上文的前缀，进行对应领域的术语推荐；若判定所述新的文档属于新的领域，则不进行术语推荐，将所述新的文档放入需求分析工具的缓存，等待重新聚类；

步骤4，用户输入完成后，将所述新的文档放入缓存，对缓存中原有的文档对应的文档向量以及所述新的文档对应的文档向量进行重新聚类，对所述新的文档对应的文档向量进行术语的提取；

2.根据权利要求1所述针对限制性自然语言用例建模的智能提示方法，其特征在于，步骤1所述领域词汇库中存放的领域是通过对不同文档对应的文档向量聚类得到，不同文档均放在需求分析工具的缓存中。

3.根据权利要求1所述针对限制性自然语言用例建模的智能提示方法，其特征在于，所述步骤2中，判断所述新的文档是否属于领域词汇库中的已有领域，具体为：

设置余弦相似度阈值为T，T∈[-1,1]，计算新的文档对应的文档向量与各领域的领域向量之间的余弦相似度，若新的文档对应的文档向量与各领域的领域向量之间的余弦相似度均小于T，则判定新的文档属于新的领域；若新的文档对应的文档向量与各领域的领域向量之间的余弦相似度均大于等于T，则判定新的文档属于领域词汇库中的已有领域，对所有的余弦相似度从大到小进行排序，选择排序第一的余弦相似度对应的领域作为新的文档的所属领域。

4. 根据权利要求1所述针对限制性自然语言用例建模的智能提示方法，其特征在于，步骤3所述预先训练好的多分类模型是根据RUCM本身的 26条规则和文档特征，收集相应的样本数据集，来训练多分类模型；

其中，样本数据集的特征如下：

（1）根据RUCM前16条语法规则，获取样本数据集上文的词性标签，预测下文所需术语的词性标签；

（2）根据RUCM后10条关于关键词的规则，规定相应关键词对结构的控制，包括若上文标签为INCLUDE USECASE，则下文术语词性标签为NP；若上文标签为EXTENG BY USECASE，则下文术语词性标签为NP；若上文标签为VALIDATE THAT，则下文术语词性标签为NP，NP表示名词短语。

5.根据权利要求1所述针对限制性自然语言用例建模的智能提示方法，其特征在于，所述步骤4中，对所述新的文档对应的文档向量进行术语的提取，具体过程如下：

（1）获取用户输入的完整文档对应的文档向量；

（2）对完整文档对应的文档向量进行数据清洗后，利用OpenNLP得到候选词集合RES1；

（3）利用制定的VPs规则即训练好的VP chunks提取模型，对完整文档向量进行提取，得到候选词集合RES2；

（4）求得RES1与RES2的交集，得到候选词集合RES3；

（5）利用TF-IDF对RES3进行过滤，通过计算RES3中每个候选词的TFIDF值，将RES3中TFIDF值小于设定阈值的候选词筛除，得到最终的集合RES4；

（6）根据RES4中词汇词性，对RES4中词汇进行分组，并保存。