CN112883175A

CN112883175A - 结合预训练模型及模板生成的气象服务交互方法及系统

Info

Publication number: CN112883175A
Application number: CN202110184707.2A
Authority: CN
Inventors: 彭敏; 潘佳鑫; 张鼎; 谢烁圻; 罗娟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-06-01
Anticipated expiration: 2041-02-10
Also published as: CN112883175B

Abstract

本发明公开了一种结合预训练模型及模板生成的气象服务交互方法及系统，首先通过模板结合网络爬取的数据生成训练数据集，之后通过预训练模型识别用户问题中气象服务实体，并基于词向量的文本相似度将识别的实体链接至气象图谱，确定用户问题中的服务场景，进而查询面向场景的气象服务数据库中与该场景相关的建议组，并依据气象建议与用户问题的语义相似度，选择合适的气象建议填回模板，生成气象服务语句返回给用户。本发明提供的气象服务交互系统可以为用户提供个性化的场景服务，并生成灵活多样化的服务语句。

Description

结合预训练模型及模板生成的气象服务交互方法及系统

技术领域

本发明属于人工智能技术领域，具体涉及一种结合预训练模型及模板生成的气象服务交互系统。

背景技术

随着移动互联网的发展，人们可以便捷地从各类网站和应用上获取到有关气象的种种服务，进而规划之后的出行、居家等各项安排，极大地提高了人们的生活品质。但是，现阶段的气象服务往往只能为用户提供简单、通用的服务内容，不能满足用户的精细化场景服务需求，且无法对用户的自主提问进行回答。另一方面，随着人们物质精神生活的不断发展，新的气象服务场景层出不穷。然而，现阶段的气象服务内容依赖专家人工编辑，一旦出现新的气象服务场景，均需要专业人员重新设计服务语句，十分耗时耗力。因此，传统气象服务一是无法满足不同用户定制个性化气象服务场景的需求，二是无法实现气象服务的自动化编辑。从现实生活来看，设计一种能为用户提供个性化气象场景服务，且能自动更新服务语句的交互系统十分必要。

现有的交互问答系统主要分为两类。第一类模型依赖于槽填充的方式寻找问题的答案，如用于订餐或机票预订的交互问答系统。这种系统依赖于专业人员设计的一系列模板和规则完成回答，可以为用户提供语法完整、功能精确的服务。如果出现新场景，需要专业人员编写新的规则。第二类模型依靠问题和回答之间的语义相关性生成回答内容，即使用户的问题不在预先定义的数据集中，模型往往也能输出满意的答案。然而，在气象服务中，用户的问题和系统需要提供的回答的语义相关性难以体现，如下雨天提醒交互的用户带伞，及时收衣服等。此外，此类模型的语法往往存在一些微小错误(如容易生成重复内容下雨雨天注意保暖)。由此可知，设计一种可以结合两类模型优点的交互问答模型十分重要。

发明内容

本发明提供了一种结合预训练模型及模板生成的气象服务交互方法及系统，帮助用户获得个性化定制的气象服务。

本发明的方法所采用的技术方案是：一种结合预训练模型及模板生成的气象服务交互方法，包括以下步骤：

步骤1：编写气象服务问答模板，使用预定义的服务用户实例、天气类别实例、事件实例及建议实例，填入模板，生成训练数据集；

步骤2：使用基于预训练模型的CRF实体识别模型完成对用户问题的实体识别，包括问题中涉及的用户、天气及事件类别；

步骤3：使用词向量关联步骤2中识别的实体关联至气象服务气象图谱；

步骤4：根据步骤3中的关联后的实体，查询整理中国气象网气象服务相关文章形成的数据库，确定用户问题中涉及的具体气象服务场景，并根据气象服务场景组成元素选择适用的具体建议组，生成候选建议集；

步骤5：使用文本相似性结合随机扰动对候选建议集排序；

步骤6：根据步骤3关联的实体以及步骤4确定的气象服务场景，选择合适的回答模板，根据步骤5中排序，依次将候选建议填入模板，生成最终答案，传送给用户。

作为优选，步骤1中，采用专家法为气象服务交互问答编写模板，所述模板包括用户、天气、事件及建议类占位符；并通过替换模板中的用户、天气、事件及建议类占位符为具体实例，生成适用于气象服务交互问答的训练数据集。

作为优选，步骤2中，使用步骤1中生成的训练数据集对预训练模型结合BCE损失函数进行微调，获得训练好的基于气象服务问答数据微调的预训练结合CRF的实体识别模型。

作为优选，步骤3中，通过衡量词向量之间的相似度，选择最高匹配分数的实体作为步骤3识别实体的正式实体，将识别的实体与气象图谱中的实体链接起来。

作为优选，步骤4中，将气象服务场景分解为<用户、天气、事件>的组合，通过SQL语句查询数据库，选择各实体关联建议的交集生成候选建议集。

作为优选，步骤5中，使用词移距离计算用户问题与建议文本的语义相似性；词移距离的具体实现过程是：使用词频计算用户问题及建议文本的各词汇的频率作为加权权重，基于步骤2中生成的词向量，计算两段文本所有词汇词向量的欧式距离的加权和，并使用优化的WCD方法加速计算两个文本之间的最小改动。

作为优选，步骤5中，随机扰动是在语义相似性的分数基础上，每次随机增加0～0.1之间的小数作为建议的随机分数。

作为优选，步骤6中，通过python语言的正则表达式对模板进行错误检查、敏感词汇过滤和非法字符检查；根据步骤3识别的实体以及步骤4确定的气象服务场景，选择候选回答模板集，并随机选择候选集中的模板作为实用模板；根据步骤5中建议排序，依次将候选建议填入模板，生成最终答案。

本发明的系统所采用的技术方案是：一种结合预训练模型及模板生成的气象服务交互系统，包括以下模块：

模块一，用于编写气象服务问答模板，使用预定义的服务用户实例、天气类别实例、事件实例及建议实例，填入模板，生成训练数据集；

模块二，使用基于预训练模型的CRF实体识别模型完成对用户问题的实体识别，包括问题中涉及的用户、天气及事件类别；

模块三，用于使用词向量关联模块二中识别的实体至气象服务气象图谱；

模块四，根据步骤3中的关联后的实体，查询整理中国气象网气象服务相关文章形成的数据库，确定用户问题中涉及的具体气象服务场景，并根据气象服务场景组成元素选择适用的具体建议组，生成候选建议集；

模块五，用于使用文本相似性结合随机扰动对候选建议集排序；

模块六，根据步骤3关联的实体以及步骤4确定的气象服务场景，选择合适的回答模板，根据步骤5中排序，依次将候选建议填入模板，生成最终答案，传送给用户。

本发明基于预训练模型及模板生成设计出针对气象服务的交互系统，通过专业人员编写的模板保证了提供服务语句的可靠性和有效性，并利用预训练模型实现对新增场景的伸缩性，满足人们对个性化定制气象场景服务的需求，同时解决了目前气象服务依赖专业人员编写服务语句的难点。实现的交互系统具有便捷性、灵活性的特点，满足人们日常对气象服务的需要。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的专业人员编写的模板实例；

图3为本发明实施例的命名实体识别模型图；

图4为本发明实施例使用的LSTM单元结构图；

图5为本发明实施例的数据库结构图；

图6为本发明实施例的交互问答测试效果图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明主要通过训练数据集的生成以及算法的实现效果来验证本发明的可行性和有效性。本发明的气象服务问答训练数据及数据库来源于百度百科气象相关知识、气象百科专业网站和拥有丰富气象服务场景对话的百度知道来进行构建。总共包括2万多个气象实体，3万多条气象关系，400个气象场景，21类原子建议组，100个问答模板和30000条生成的训练数据。

请见图1，本发明提供的一种结合预训练模型及模板生成的气象服务交互方法，包括以下步骤：

本实施例采用专家法为气象服务交互问答编写模板，模板包括用户、天气、事件及建议类占位符；并通过替换模板中的用户、天气、事件及建议类占位符为具体实例，生成适用于气象服务交互问答的训练数据集。

由于网络上没有符合要求的有关气象服务问答的公开数据集，本实施例以专业人员人工编写的模板为框架，结合中文问答平台如百度知道等爬取到的有关服务问答，生成符合要求的训练数据集。首先，本实施例通过在问答平台以“天气+用户+事件+建议”为格式，搜索所有符合要求的气象服务相关问题。例如对于下雨天学生上学场景，在“百度知道”平台上搜索“雨+学生+上学+应对措施”后，即可爬取相关网页的合适问答对，共得到相关问答数据9000条。

由于使用爬虫从网络上爬取得到的建议存在格式不统一、回答不规范、数据量不足等问题，本实施例使用基于问答模板的生成方法构建语法正确、回答规范且数量足够的训练数据集。这种方法可以实现多场景、多天气、多用户的丰富语料，在保证问答语法正确性的同时，大大提高了语言的灵活性。模板以网络收集的气象问答语料数据为基础进行统一归纳，并进行适当的加工，提取出合适的问答框架。提取出的模板如附图2所示。

其中占位文字代表的意思如下：

{q_weather}：天气

{q_user}：用户

{q_event}：事件

{a_suggestion_1}...{a_suggestion_6}：建议1、2、...、6

{a_suggestion_random_number}：建议数量

{a_suggestion_random_placeholder}：建议占位文字

以“下雨天小学生上学”为例，通过问题和回答模板，代入具体的实体与建议，我们可以生成如下所示的问答对：

问题：下雨天学生上学应该注意什么？

回答：小学生上下学遇到下雨天，为确保自身安全，应注意一下几个方面的问题：1.不要在湿滑的路上追逐打闹。2.穿防滑的鞋子防止意外事故。3.注意雨伞不要误伤到他人。

本实施例通过编写的100条模板生成30000条问答数据，作为后续模型的训练数据集。

大多数气象服务通过用户问题的关键词识别用户问题中的气象服务场景，因此在出现新场景时，需要专业人员重新设计关键词。为了实现交互系统对新场景的适应性，本实施例使用基于预训练模型BERT的BiLSTM-CRF实体识别模型完成实体识别工作，依赖BERT的大规模预训练语料完成对新场景中各实体的识别工作。见附图3，这个模型主要分3个模块。首先，BERT模块将用户输入的问题转化为词向量表示。BERT依赖于自注意力机制得到同一个句子中的词与词之间的关联程度，从而调整权重系数矩阵，获取词的表征：

其中，Q,K,V是字向量矩阵，其中Q是查询矩阵，K,V分别为键-值对矩阵，d_k是Embedding维度。之后，Transformer结构通过多个不同的线性变换对Q,K,V进行投影，将不同的Attention结果拼接起来，公式如下式所示：

MultiHead(Q,K,V)＝Concat(head₁,…,head_n)W^O(2)

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)(3)

其中W是权重矩阵，Concat为拼接操作。W_i ^Q代表Q矩阵的第i个词向量下标权重，W_i ^K代表K矩阵的第i个词向量下标权重，W_i ^V代表V矩阵的第i个词向量下标权重。

为了捕捉句子中的长期依赖关系，BERT得到的词向量进一步被送入BiLSTM模块中。BiLSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成，可以从句子的两个方向捕捉长期依赖关系，例如在问句中间隔很远的用户和天气的依赖关系。LSTM的核心主要是以下结构：遗忘门(forgetgate)、输入门(inputgate)、输出门(outputgate)以及记忆Cell单元。其结构如附图4所示，其结构用公式表达如下：

其中，x_t代表t时刻输入的词向量，σ是激活函数，W是权重矩阵，第一个下标中的x，h，c分别代表词向量、隐向量(hidden state)和单元向量(cell state)，第二个下标中的i，f，o分别代表输入门、遗忘门和输出门，b是偏置向量，z_t是待增加的内容，c_t是t时刻的更新状态，i_t、f_t、o_t分别是输入门、遗忘门及输出门的输出结果，h_t则是整个LSTM单元时刻的输出。

然后将同一个时刻的前向信息与后向信息的输出进行合并，得到最终结果为：

为了更好地捕捉到标签间的依赖关系，学习到实体标签的一些限制，本实施例引入CRF模块。CRF为条件随机场，可以用于构造在给定一组输入随机变量的条件下，另一组输出随机变量的条件概率分布模型。对于任一个序列X＝(x₁，x₂，…，x_n)，在此假定P是BiLSTM的输出得分矩阵，P的大小为n×k，其中n为词的个数，k为标签个数，P_ij表示第i个词的第j个标签的分数。对预测序列Y＝(y₁，y₂，…，y_n)而言，得到它的分数函数为：

A表示转移分数矩阵，A_ij代表标签i转移为标签j的分数，A的大小为k+2。预测序列Y产生的概率为：

两头取对数得到预测序列的似然函数：

其中，

表示真实的标注序列，Y_X表示所有可能的标注序列。解码后得到最大分数的输出序列：

本实施例使用步骤1中生成的训练数据集对预训练模型结合BCE损失函数进行微调，获得训练好的基于气象服务问答数据微调的预训练结合CRF的实体识别模型。其中BCE损失函数如下：

BCELoss(x_i,y_i)＝-w_i[y_ilog x_i+(1-y_i)log(1-x_i)]

其中x_i是模型对第i类实体的预测值，y_i是数据集中第i类实体的标签，w_i是损失权值矩阵。

步骤3：使用词向量关联步骤2中识别的实体至气象服务气象图谱；

词向量是一种让词汇表达为低维空间上的实数向量的方法，即将高维词向量嵌入到低维向量空间，减少存储压力并提取词汇在文本中的语义特征。在词向量空间中，距离相近的词向量相较于距离较远的词向量，在语义上更接近。因此，可以通过衡量词向量之间的相似度，将识别的实体与知识图谱中的实体链接起来。本实施例提供了5种常用的词向量相似度计算方法，根据具体实用情况可选用合适的词向量计算方法完成实体至相关气象图谱的链接工作。记给定的词记为X_i,Y_j，词典的维数为n。

余弦相似度COS(X_i,Y_j)的计算公式如下：

曼哈顿距离Manhattan(X_i,Y_j)的计算公式如下：

切比雪夫距离Chebyshev(X_i,Y_j)的计算公式如下：

欧式距离Euclidean(X_i,Y_j)的计算公式如下：

Jaro距离Jaro(X_i,Y_j)的计算公式如下：

其中m是匹配的字符数量，|X|表示词汇的文本串长度，t是字符转换的次数。根据不同的训练数据，本实施例选择不同适用的距离进行计算，最终选择计算方法获得的排序最高的正式实体，作为步骤2中识别的实体的关联实体。

气象服务问答一个关键的问题是服务场景的确定以及对新服务场景的服务语句编写。目前的问答系统大部分依赖于人工标注的训练数据集完成模型对服务场景的识别。这种方法需要大量有经验的工人完成数据标注工作，而且出现新场景时，往往需要重新训练模型。此外，专业人员也需要不断为新出现的服务场景编写合适的建议。然而，现有气象网站中往往已经存在对新服务场景用户、天气或事件的建议。因此，本实施例首先收集中国气象网上气象服务相关文章，提取其中针对各类用户、天气及事件的建议，形成数据库。见附图5，本实施例将服务场景分解为用户、天气以及事件的结合，通过数据库中查询三类实体适用的建议组的集合，完成候选建议集的生成工作。

本实施例将<用户、天气、事件>的组合称为一个场景，将步骤3中获得的用户、天气、事件组合输入数据库进行查询，查看当前输入实体下是否有建议与之关联，并获得当前场景下的所有可用建议。若查询得到的建议数量为0，则代表输入的实体有误或此用户、天气、事件组合没有建议与之关联。此时系统提示用户更改或重新输入问题。具体流程为：

1)查询user表，获取用户实体user对应的用户id user_id；

2)查询user_advice表，获取user_id对应的建议id advice_id；

3)查询weather表，获取天气实体weather对应的天气id weather_id；

4)查询weather_advice表，获取weather_id对应的建议id advice_id；

5)查询event_advice_tag_link表，获取事件event和用户iduser_id对应的建议标签idtag_id；

6)查询tag_advice表，获取建议标签idtag_id对应的建议idadvice_id；

7)将2)，3)，6)步查询得到的结果做交集。交集之后的结果即为当前场景下的所有可用建议的id；

8)查询advice表，获取建议id对应的建议advice信息。

步骤5：使用文本相似性结合随机扰动对候选建议集排序，增加生成的服务语句的灵活性和多样性；

本实施例首先使用WCD算法计算所有候选建议集与用户问题的距离。WCD算法可以计算两段文本之间的整体相似性，从而选出最符合当前场景的候选建议集。WCD算法使用两个文档中的任意两个词所对应的词向量求欧氏距离然后再加权求和的方式进行计算，式子如下：

其中c(i,j)为i、j两个词所对应的词向量的欧氏距离，权重T_ij使用词频进行计算：

词频(TF)＝某个词在文本中的出现次数/文本的总词数。

之后求解将文本1转化为文本2的最小总代价，得到两段文本的相似度：

其中c(i,j)是词向量表示i、j的欧几里得距离，n是词的个数，

和

分别是两个文档中各个词权重(概率)组成的向量。

为了加速计算文本1和文本2之间的词移距离的过程，本实施例使用优化的WCD方法：

公式中x是词向量，x_i表示文本1，x_j表示文本2，X是词向量组成的矩阵。

为了进一步提高回答建议的丰富性，为用户的每一次交互提供内容多样的服务建议，在每一次选择建议组的过程中，本实施例为所有符合要求的添加0～0.1分值的随机扰动分数，丰富最终的排序可能。

本实施例首先从回答模板文件中读取回答模板，去除模板列表所有需要建议数量大于当前场景下可用建议数量的回答模板，之后通过python语言的正则表达式进行字符错误检查、敏感词汇过滤和非法字符检测。若模板通过有效性检查，则回答模板初始化完毕。否则，移去该模板。算法根据步骤3关联的实体以及步骤4确定的场景，确定候选回答模板集，通过随机算法选择候选集中任意模板，作为当前回答的实用模板。选择好回答模板后，需要选择填入模板的建议。本实施例从排序好的建议中选择分数最高的几个建议进行后续的回答生成工作。具体选择的建议数量由选择好的回答模板决定。选择好回答模板和建议后，需要把选择好的建议填充到回答模板中，并替换回答模板中的占位文字：将{q_user}替换为输入的用户，{q_weather}替换为输入的天气，{q_event}替换为输入的事件。建议占位文字有是否按单个建议分开({a_suggestion_1}...{a_suggestion_6})和不分开({a_suggestion_random_placeholder})两种。建议占位文字分开时，将选择的建议打乱顺序后，依次替换{a_suggestion_1}...{a_suggestion_6}。建议占位文字不分开时，首先将{a_suggestion_random_number}替换为建议的数量，之后将选择好的多条建议组合成一句话后，再整体替换{a_suggestion_random_placeholder}。多条建议可以通过如下几个部分组合起来：

建议开头：“第<序号>”、“第<序号>条”、“建议<序号>”、“<序号>”；

序号；可为大写数字或者小写数字，替换建议开头中的<序号>；

建议开头与建议之间：“是”或者“：”(分号)；

建议与建议之间：“；”(分号)或者“。”(句号)。

本发明还提供了一种结合预训练模型及模板生成的气象服务交互系统，包括以下模块：

最后，为说明本发明的实验效果，本发明实验使用收集到的原始数据集训练整体交互问答模型，通过随机招募的100位实验人员对交互问答系统进行实验评测，回答流畅度为0.892，相关性为0.863，多样性为0.816，综合满意度为0.854，证明了本交互问答系统的实用性和有效性。本实施例的交互问答效果示例见附图6所示，可以看到生成的回答语言流畅、信息丰富、可读性高。如果本发明能够扩大人工编写的模板及相关建议组的规模，可以为用户提供更丰富的气象服务场景服务和更多样灵活的回答内容，预计用户使用本交互系统满意度会继续提升。证明了本发明的可行性和实用性。

本发明通过预训练模型实现对新增气象场景服务语句的自动生成，改变当前新增气象服务时，依赖专业人员不断提供新场景服务语句的问题，并增加生成的气象服务语句的灵活性、多样性。同时通过模板生成保证生成服务语句语法的准确性，和提供的建议的专业性。提供了一种针对气象服务领域便捷、可靠的交互方法及系统。

本发明的原理还可以应用到其他可以应用于其他有场景的问答系统。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种结合预训练模型及模板生成的气象服务交互方法，其特征在于，包括以下步骤：

步骤5：使用文本相似性结合随机扰动对候选建议集排序；

2.根据权利要求1所述的结合预训练模型及模板生成的气象服务交互方法，其特征在于：步骤1中，采用专家法为气象服务交互问答编写模板，所述模板包括用户、天气、事件及建议类占位符；并通过替换模板中的用户、天气、事件及建议类占位符为具体实例，生成适用于气象服务交互问答的训练数据集。

3.根据权利要求1所述的结合预训练模型及模板生成的气象服务交互方法，其特征在于：步骤2中，使用步骤1中生成的训练数据集对预训练模型结合BCE损失函数进行微调，获得训练好的基于气象服务问答数据微调的预训练结合CRF的实体识别模型。

4.根据权利要求1所述的结合预训练模型及模板生成的气象服务交互方法，其特征在于：步骤3中，通过衡量词向量之间的相似度，选择最高匹配分数的实体作为步骤3识别实体的正式实体，将识别的实体与气象图谱中的实体链接起来。

5.根据权利要求1所述的结合预训练模型及模板生成的气象服务交互方法，其特征在于：步骤4中，将气象服务场景分解为<用户、天气、事件>的组合，通过SQL语句查询数据库，选择各实体关联建议的交集生成候选建议集。

6.根据权利要求1所述的结合预训练模型及模板生成的气象服务交互方法，其特征在于：步骤5中，使用词移距离计算用户问题与建议文本的语义相似性；词移距离的具体实现过程是：使用词频计算用户问题及建议文本的各词汇的频率作为加权权重，基于步骤2中生成的词向量，计算两段文本所有词汇词向量的欧式距离的加权和，并使用优化的WCD方法加速计算两个文本之间的最小改动。

7.根据权利要求1所述的结合预训练模型及模板生成的气象服务交互方法，其特征在于：步骤5中，随机扰动是在语义相似性的分数基础上，每次随机增加0～0.1之间的小数作为建议的随机分数。

8.根据权利要求1-7任意一项所述的结合预训练模型及模板生成的气象服务交互方法，其特征在于：步骤6中，通过python语言的正则表达式对模板进行错误检查、敏感词汇过滤和非法字符检查；根据步骤3识别的实体以及步骤4确定的气象服务场景，选择候选回答模板集，并随机选择候选集中的模板作为实用模板；根据步骤5中建议排序，依次将候选建议填入模板，生成最终答案。

9.一种结合预训练模型及模板生成的气象服务交互系统，其特征在于，包括以下模块：