CN110083690B

CN110083690B - 一种基于智能问答的对外汉语口语训练方法及系统

Info

Publication number: CN110083690B
Application number: CN201910284601.2A
Authority: CN
Inventors: 王华珍; 周聆丰; 朱可韵; 惠子; 许名智; 缑锦
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2022-05-03
Anticipated expiration: 2039-04-10
Also published as: CN110083690A

Abstract

本发明公开了一种基于智能问答的对外汉语口语训练方法及系统，方法包括：从对外汉语口语教材和互联网等数据源采集口语训练问答对；采用问题生成算法由机器生成训练问答对；汇总语料，并根据语料构建知识图谱；接收用户输入自然语言问题，通过神经网络深度学习对问题进行向量表达，与知识图谱的表达向量进行语义关联；通过关联分析选择合适的回答进行输出。本发明的基于智能问答的对外汉语口语训练方法及系统，实现了具有智能对话、知识库和技能服务等功能，可作为对外汉语口语教学的智能辅助工具。

Description

一种基于智能问答的对外汉语口语训练方法及系统

技术领域

本发明涉及深度学习与知识图谱领域，特别是涉及一种基于智能问答的对外汉语口语训练方法及系统。

背景技术

语言教学包括知识和技能两个方面。对外汉语口语教学是培养实际生活中运用汉语口语进行交际的单项技能训练课程。口语表达能力是对外汉语口语教学的最终目标，也是留学生日常工作和学习中运用最多的一项技能。但当前传统的对外汉语口语课堂教学存在着一些有待完善之处，主要表现在以下三方面：1)口语教材设计问题：课文所选的场景往往不能反映中国人日常生活和中国社会情况，脱离生活实际。许多口语课文及课堂活动无法激发学生的兴趣，学生感受不到所学内容与自己的关系。2)教学方式问题：教师往往把口语课上成了精读课和阅读课，没有突出口语课的特点。另外，教师往往会不自觉地成为课堂的“主角”，在启发学生的主动参与方面做得还不够。3)学生开口锻炼问题：口语作为一门最为重要的语言技能，课堂教学的课时量并不能同其重要性成正比，无法充分满足学生的日常交流的需要。个别学习者的心理障碍使其在课堂有限的时间里不能得到开口锻炼的机会。

由于对外汉语口语教学存在的上述问题以及对外汉语学习者人数的激增，对外汉语口语课程与信息技术的整合成了制高点和突破口。它指的是将信息技术与对外汉语口语教学课程结构，课程内容和课程资源结合在一起，建造一个适合学习者学习的环境，进而提高学习者的汉语实际运用能力。其整合模式一般采用网络教学模式，即利用计算机网络进行异地和创新教学。通过互联网学习已经成为了学习汉语的主要方式之一。国内外涌现了一大批对外汉语教学的网站。如ChinesePod(http://chinesepod.com/)、www.chinesegreat.com、中文泡泡(http://popupchinese.com)、网络孔子学院(http:// www.chinese.cn/)等。这些网站提供移动学习设备和播客、网页等多媒体平台，并可以在线与老师进行生动的交流，网站课程中经典的场景对话模版给学习者们直接的生活样本，学员可在线组队对练，包含丰富的语言游戏，具有多语言翻译和融合等优点。但不难看出，这些网络口语教学平台还存在以下局限性：

1)缺少互动性：口语交际是师生共同完成的教学任务，缺一不可。但部分网站上的在线老师通常不在线，无法实现全天候的在线交流。

2)沉浸式程度不够：目前的汉语口语教学网站更多提供海量的文本和听力资料来学习口语，不仅使学习者感到学习过程枯燥乏味，而且无法形成身临其境的使用汉语进行交流的机会。

3)寓教于乐不足：目前对外汉语网站口语教学虽有一些趣味性教学内容，如中国著名演员、歌手，和一些脍炙人口的影视作品，但这些资源往往只是单纯用来欣赏而不是学习，学习效果将大打折扣。

4)专业口语训练平台缺失：对外汉语学习网站数量相对较少且涉及的教学内容略显单一，鲜见警务汉语，商务汉语，旅游汉语，医用汉语等专业领域汉语教学平台。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于智能问答的对外汉语口语训练方法和系统。

本发明解决其技术问题所采用的技术方案是：

一方面，本发明一种基于智能问答的对外汉语口语训练方法，包括以下步骤：

S1，采集口语训练问答对，采用基于变分自编码器算法构建对外汉语口语训练问答对数据集；构建过程包括：通过选择话题建立话题库；通过词语分类建立话题词表；通过问题生成建立问答对数据集；

S2，汇总语料，并根据语料构建对外汉语口语知识图谱；构建过程包括语料收集、信息抽取和融合及知识加工和推理；

S3，接收用户输入的自然语言问题，通过神经网络深度学习对问题进行向量表达，与知识图谱的表达向量进行语义关联；通过关联分析选择合适的回答进行输出以实现自然语言问答，包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序。

优选的，所述S1，具体包括：

S11，采集口语教材作为基础语料；

S12，爬取社区问答信息和百科知识；

S13，采用基于变分自编码器算法进行问题生成。

优选的，所述S12中的爬取过程包括定义爬虫内容CrawlerItem、数据保存CrawlerPipeline和定义爬取规则Spiders_Ask三阶段。

优选的，所述S13，具体包括：

对于给定的文本数据通过一个隐含变量Z表示数据的分布特征，构建一个从隐含变量Z生成目标数据X的模型；

变分自编码器给编码网络增加一个损失项KLLoss，使所生成的潜在向量大体上服从于单位高斯分布，这一损失函数将鼓励所有编码在围绕隐藏层中心分布，同时惩罚不同类别被聚类到分离区域的行为；

通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡，以形成可供解码器解码的隐含空间分布。

优选的，所述S2，具体包括：

信息抽取，从无结构数据集抽取知识单元，从文本数据集中自动识别出命名实体，利用深度学习和NLTK工具，从相关语料中提取出实体之间的关联关系，形成实体-关系-实体三元组；

知识融合，对实体采用聚类算法和神经网络分类算法进行实体消歧，在确认知识库中对应正确实体对象之后，将该实体链接到知识库中对应实体；

知识推理，采用基于逻辑的推理，在命题的基础上建立一阶谓词逻辑，将命题分解为个体和谓词部分。

优选的，所述S3，具体包括：

S31，基于卷积神经网络的问题分类，将用户输入的问题分类以确定预期答案类型；

S32，基于表示学习的语义消歧，采用表示学习方法进行语义消歧，减小用户输入和知识图谱术语的差距，使其能够链接到知识图谱中的唯一实体，

S33，基于Ranking SVM的答案排序。

优选的，所述S31，具体包括：

使用卷积神经网络建立分类模型以充分提取问题特征，用一定数量标记语料训练出来的高维词向量作为每个词对应的特征，通过多尺度卷积滤波器，提取问题句子的向量矩阵表达；

利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入；

使用多尺寸的滤波器，每种尺寸包含多个滤波器对输入矩阵进行操作，在对句子矩阵进行多尺寸的多个滤波器滤波后，每种尺寸的多个滤波器产生出多个特征图；

对得到的多个特征图进行组合，得到词特征，得到问题所对应的分类。

优选的，所述S32，具体包括：

将知识图谱中的实体与关系嵌入到一个低维的向量空间里，同时将两者转化为向量表示；

通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示；

将知识图谱的实体和关系向量相加得到一个向量表示；

计算两个向量的相似度，根据相似度大小判定是否具有相同语义并对歧义词进行标注。

优选的，所述S33，具体包括：

基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征，通过训练数据训练模型的参数，用训练好的模型对待解答问句的候选答案集合排序；

将训练数据中的问句映射为“实体-谓词”形式，根据实体从知识图谱中抽取问句对应的三元组候选答案；

训练数据中的问句已知正确答案，根据正确答案对候选答案标记，同时提取训练数据的若干类特征作为特征集；

根据标记和特征来训练答案排序的Ranking SVM模型，使用模型对待解答问句的候选答案进行排序。

第二方面，本发明一种基于智能问答的对外汉语口语训练系统，包括：

数据集构建模块，用于采集口语训练问答对，采用基于变分自编码器算法构建对外汉语口语训练问答对数据集；构建过程包括：通过选择话题建立话题库；通过词语分类建立话题词表；通过问题生成建立问答对数据集；

知识图谱构建模块，用于汇总语料，并根据语料构建对外汉语口语知识图谱；构建过程包括语料收集、信息抽取和融合及知识加工和推理；

自然语言问答实现模块，用于接收用户输入的自然语言问题，通过神经网络深度学习对问题进行向量表达，与知识图谱的表达向量进行语义关联；通过关联分析选择合适的回答进行输出以实现自然语言问答，包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

(1)本发明基于深度学习和知识图谱，该方法能够解决现有教育平台缺少互动性，沉浸式程度不够，寓教于乐不足的问题，构建一个对外汉语口语训练系统；

(2)本发明采用知识图谱提高知识密度，解决目前基于数据的构建方法中网络文本数据的知识密度低，无法形成有效推理机制，对汉语口语这一垂直领域的分析存在很大不足，后期精准度的提升非常困难的问题；

(3)本发明结合深度学习的智能问答模型构建，解决基于知识推理的机制构建方法中对高质量的数据依赖太严重问题；

(4)本发明基于知识图谱的知识表示和可视化应用，形成了可理解、可交互的对外汉语口语训练系统，可为使用者提供良好的学习帮助。

附图说明

图1为本发明方法的流程图；

图2为本发明的总体架构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

参见图1和图2所示，本发明的一种基于智能问答的对外汉语口语训练方法包括如下骤：

S1，构建对外汉语口语训练问答对数据集；

对步骤S1，包括选择话题，建立话题库；词语分类，建立话题词表；问题生成，建立问答对数据集。

所述步骤S1具体包括：

S11，根据国家图书馆口语教材库以及其它途径所检索到的口语教材目录，收集国内已正式出版的各类口语教材近400部口语教材作为基础语料；

S12，爬取社区问答信息和百科知识，用于解决语料不足问题；

S13，采用基于变分自编码器的问题生成算法。

步骤S12具体包括：

爬虫过程包括定义爬虫内容CrawlerItem(scrapy.Item)、数据保存CrawlerPipeline(object)和定义爬取规则Spiders_Ask(scrapy.Spider)三阶段。

步骤S13具体包括：

变分自编码器给编码网络增加一个损失项(KLLoss)，迫使它所生成的潜在向量大体上服从于单位高斯分布，这一损失函数将鼓励所有编码在围绕隐藏层中心分布，同时惩罚不同类别被聚类到分离区域的行为；

通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡，从而形成了可供解码器解码的隐含空间分布。

S2，构建对外汉语口语知识图谱。

对步骤S2，包括语料收集，信息抽取和融合，知识加工和推理。

具体的，包括：

信息抽取，从无结构数据集抽取知识单元，利用NLTK、Jieba等工具从文本数据集中自动识别出命名实体，利用深度学习和NLTK工具，从相关语料中提取出实体之间的关联关系，形成实体-关系-实体三元组；

S3，实现基于知识图谱的自然语言问答，包括自然语言问题的向量化表示，自然语言问题的查询语言生成，答案生成与排序。

具体的，所述S3包括：

S33，基于Ranking SVM的答案排序。

所述步骤S31，具体包括：

所述步骤S32，具体包括：

将知识图谱的实体和关系向量相加得到一个向量表示；

计算两个向量的相似度，根据相似度大小判定是否具有相同语义并对歧义词进行标注；

所述步骤S33，具体包括：

根据上述一种基于智能问答的对外汉语口语训练方法，本发明另一方面在于实现一种基于智能问答的对外汉语口语训练系统，所述对外汉语口语训练系统具有软体APP和实体机器人两种形态，具有智能对话、知识库和技能服务等功能，可作为对外汉语口语教学的智能辅助工具。

具体的，根据软件开发流程，进行需求分析、系统架构设计、详细设计、系统实现、系统测试和系统维护等步骤进行智能口语训练系统的开发。

用户可通过手机APP与智能口语训练系统用汉语聊天进行口语问答训练，通过基础汉语学习和职业汉语学习等模块进行系统的汉语学习，同时了解中华文化。

所述App还具备社区功能，通过合作学习增加汉语学习乐趣，凝聚汉语学习者产生认同感，捕捉学习汉语的个体存在，通过数据深度分析为国家战略和文化传播提供参考。

此外，还能够制作实体机器人原型，将Python平台上开发的智能问答算法程序迁移到树莓派硬件设备，在不影响问答流畅度及准确度的情况下实现个性化定制服务。用户可对树莓派及其配套硬件进行封装，二次开发多样化智能问答机器人产品。

进一步的，可面向特定领域实现该口语训练系统的定制化开发，如海外版《中文》教材开发配套的虚拟人工智能口语训练系统，能聊天进行口语问答训练。

针对如旅游、贸易、科技、商务、医学、方言、观光、电话、网络、体育、经贸洽谈、流行语、公务员用语、口语习惯用语、议论口语、口语常用句等垂直领域开发相应系统。

此外，用户可通过软体机器人APP形式进行网络全天候互动对话，通过实体机器人实现沉浸式学习；通过问题生成技术可产生大量的、自然的、多样的口语训练问答对，实现口语训练内容的智能设计，通过行业知识图谱构建技术，提供特定领域的专业口语训练内容；克服口语不易保留的局限，将口语训练以文本的形式记录下来，对个体学生进行用户画像，帮助教师更有针对性地提升学生的口语技能。

本发明构建的对外汉语口语训练系统针对现有教育平台缺少互动性、沉浸式程度不够及寓教于乐不足的问题，采用知识图谱提高知识密度，解决目前基于数据的构建方法中网络文本数据的知识密度低，无法形成有效推理机制，对汉语口语这一垂直领域的分析存在很大不足，后期精准度的提升非常困难的问题。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于智能问答的对外汉语口语训练方法，其特征在于，包括以下步骤：

S3，接收用户输入的自然语言问题，通过神经网络深度学习对问题进行向量表达，与知识图谱的表达向量进行语义关联；通过关联分析选择合适的回答进行输出以实现自然语言问答，包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序；

所述S1，具体包括：

S11，采集口语教材作为基础语料；

S12，爬取社区问答信息和百科知识；

S13，采用基于变分自编码器算法进行问题生成；

所述S13，具体包括：

通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡，以形成可供解码器解码的隐含空间分布；

所述S2，具体包括：

知识推理，采用基于逻辑的推理，在命题的基础上建立一阶谓词逻辑，将命题分解为个体和谓词部分；

所述S3，具体包括：

S33，基于Ranking SVM的答案排序；

所述S31，具体包括：

使用卷积神经网络建立分类模型以充分提取问题特征，用标记语料训练出来的高维词向量作为每个词对应的特征，通过多尺度卷积滤波器，提取问题句子的向量矩阵表达；

对得到的多个特征图进行组合，得到词特征，得到问题所对应的分类；

所述S32，具体包括：

将知识图谱的实体和关系向量相加得到一个向量表示；

所述S33，具体包括：

2.根据权利要求1所述的基于智能问答的对外汉语口语训练方法，其特征在于，所述S12中的爬取过程包括定义爬虫内容CrawlerItem、数据保存CrawlerPipeline和定义爬取规则Spiders_Ask三阶段。

3.一种基于智能问答的对外汉语口语训练系统，其特征在于，包括：

自然语言问答实现模块，用于接收用户输入的自然语言问题，通过神经网络深度学习对问题进行向量表达，与知识图谱的表达向量进行语义关联；通过关联分析选择合适的回答进行输出以实现自然语言问答，包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序；

所述数据集构建模块，具体包括：

S11，采集口语教材作为基础语料；

S12，爬取社区问答信息和百科知识；

S13，采用基于变分自编码器算法进行问题生成；

所述S13，具体包括：

所述知识图谱构建模块，具体包括：

所述自然语言问答实现模块，具体包括：

S33，基于Ranking SVM的答案排序；

所述S31，具体包括：

所述S32，具体包括：

将知识图谱的实体和关系向量相加得到一个向量表示；

所述S33，具体包括：