CN110083690B - 一种基于智能问答的对外汉语口语训练方法及系统 - Google Patents

一种基于智能问答的对外汉语口语训练方法及系统 Download PDF

Info

Publication number
CN110083690B
CN110083690B CN201910284601.2A CN201910284601A CN110083690B CN 110083690 B CN110083690 B CN 110083690B CN 201910284601 A CN201910284601 A CN 201910284601A CN 110083690 B CN110083690 B CN 110083690B
Authority
CN
China
Prior art keywords
question
knowledge
answer
entity
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910284601.2A
Other languages
English (en)
Other versions
CN110083690A (zh
Inventor
王华珍
周聆丰
朱可韵
惠子
许名智
缑锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201910284601.2A priority Critical patent/CN110083690B/zh
Publication of CN110083690A publication Critical patent/CN110083690A/zh
Application granted granted Critical
Publication of CN110083690B publication Critical patent/CN110083690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Human Computer Interaction (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Educational Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于智能问答的对外汉语口语训练方法及系统,方法包括:从对外汉语口语教材和互联网等数据源采集口语训练问答对;采用问题生成算法由机器生成训练问答对;汇总语料,并根据语料构建知识图谱;接收用户输入自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出。本发明的基于智能问答的对外汉语口语训练方法及系统,实现了具有智能对话、知识库和技能服务等功能,可作为对外汉语口语教学的智能辅助工具。

Description

一种基于智能问答的对外汉语口语训练方法及系统
技术领域
本发明涉及深度学习与知识图谱领域,特别是涉及一种基于智能问答的对外汉语口语训练方法及系统。
背景技术
语言教学包括知识和技能两个方面。对外汉语口语教学是培养实际生活中运用汉语口语进行交际的单项技能训练课程。口语表达能力是对外汉语口语教学的最终目标,也是留学生日常工作和学习中运用最多的一项技能。但当前传统的对外汉语口语课堂教学存在着一些有待完善之处,主要表现在以下三方面:1)口语教材设计问题:课文所选的场景往往不能反映中国人日常生活和中国社会情况,脱离生活实际。许多口语课文及课堂活动无法激发学生的兴趣,学生感受不到所学内容与自己的关系。2)教学方式问题:教师往往把口语课上成了精读课和阅读课,没有突出口语课的特点。另外,教师往往会不自觉地成为课堂的“主角”,在启发学生的主动参与方面做得还不够。3)学生开口锻炼问题:口语作为一门最为重要的语言技能,课堂教学的课时量并不能同其重要性成正比,无法充分满足学生的日常交流的需要。个别学习者的心理障碍使其在课堂有限的时间里不能得到开口锻炼的机会。
由于对外汉语口语教学存在的上述问题以及对外汉语学习者人数的激增,对外汉语口语课程与信息技术的整合成了制高点和突破口。它指的是将信息技术与对外汉语口语教学课程结构,课程内容和课程资源结合在一起,建造一个适合学习者学习的环境,进而提高学习者的汉语实际运用能力。其整合模式一般采用网络教学模式,即利用计算机网络进行异地和创新教学。通过互联网学习已经成为了学习汉语的主要方式之一。国内外涌现了一大批对外汉语教学的网站。如ChinesePod(http://chinesepod.com/)、www.chinesegreat.com、中文泡泡(http://popupchinese.com)、网络孔子学院(http:// www.chinese.cn/)等。这些网站提供移动学习设备和播客、网页等多媒体平台,并可以在线与老师进行生动的交流,网站课程中经典的场景对话模版给学习者们直接的生活样本,学员可在线组队对练,包含丰富的语言游戏,具有多语言翻译和融合等优点。但不难看出,这些网络口语教学平台还存在以下局限性:
1)缺少互动性:口语交际是师生共同完成的教学任务,缺一不可。但部分网站上的在线老师通常不在线,无法实现全天候的在线交流。
2)沉浸式程度不够:目前的汉语口语教学网站更多提供海量的文本和听力资料来学习口语,不仅使学习者感到学习过程枯燥乏味,而且无法形成身临其境的使用汉语进行交流的机会。
3)寓教于乐不足:目前对外汉语网站口语教学虽有一些趣味性教学内容,如中国著名演员、歌手,和一些脍炙人口的影视作品,但这些资源往往只是单纯用来欣赏而不是学习,学习效果将大打折扣。
4)专业口语训练平台缺失:对外汉语学习网站数量相对较少且涉及的教学内容略显单一,鲜见警务汉语,商务汉语,旅游汉语,医用汉语等专业领域汉语教学平台。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于智能问答的对外汉语口语训练方法和系统。
本发明解决其技术问题所采用的技术方案是:
一方面,本发明一种基于智能问答的对外汉语口语训练方法,包括以下步骤:
S1,采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
S2,汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
S3,接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序。
优选的,所述S1,具体包括:
S11,采集口语教材作为基础语料;
S12,爬取社区问答信息和百科知识;
S13,采用基于变分自编码器算法进行问题生成。
优选的,所述S12中的爬取过程包括定义爬虫内容CrawlerItem、数据保存CrawlerPipeline和定义爬取规则Spiders_Ask三阶段。
优选的,所述S13,具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项KLLoss,使所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,以形成可供解码器解码的隐含空间分布。
优选的,所述S2,具体包括:
信息抽取,从无结构数据集抽取知识单元,从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体-关系-实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分。
优选的,所述S3,具体包括:
S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,
S33,基于Ranking SVM的答案排序。
优选的,所述S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用一定数量标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类。
优选的,所述S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注。
优选的,所述S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体-谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。
第二方面,本发明一种基于智能问答的对外汉语口语训练系统,包括:
数据集构建模块,用于采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
知识图谱构建模块,用于汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
自然语言问答实现模块,用于接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
(1)本发明基于深度学习和知识图谱,该方法能够解决现有教育平台缺少互动性,沉浸式程度不够,寓教于乐不足的问题,构建一个对外汉语口语训练系统;
(2)本发明采用知识图谱提高知识密度,解决目前基于数据的构建方法中网络文本数据的知识密度低,无法形成有效推理机制,对汉语口语这一垂直领域的分析存在很大不足,后期精准度的提升非常困难的问题;
(3)本发明结合深度学习的智能问答模型构建,解决基于知识推理的机制构建方法中对高质量的数据依赖太严重问题;
(4)本发明基于知识图谱的知识表示和可视化应用,形成了可理解、可交互的对外汉语口语训练系统,可为使用者提供良好的学习帮助。
附图说明
图1为本发明方法的流程图;
图2为本发明的总体架构图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
参见图1和图2所示,本发明的一种基于智能问答的对外汉语口语训练方法包括如下骤:
S1,构建对外汉语口语训练问答对数据集;
对步骤S1,包括选择话题,建立话题库;词语分类,建立话题词表;问题生成,建立问答对数据集。
所述步骤S1具体包括:
S11,根据国家图书馆口语教材库以及其它途径所检索到的口语教材目录,收集国内已正式出版的各类口语教材近400部口语教材作为基础语料;
S12,爬取社区问答信息和百科知识,用于解决语料不足问题;
S13,采用基于变分自编码器的问题生成算法。
步骤S12具体包括:
爬虫过程包括定义爬虫内容CrawlerItem(scrapy.Item)、数据保存CrawlerPipeline(object)和定义爬取规则Spiders_Ask(scrapy.Spider)三阶段。
步骤S13具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项(KLLoss),迫使它所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,从而形成了可供解码器解码的隐含空间分布。
S2,构建对外汉语口语知识图谱。
对步骤S2,包括语料收集,信息抽取和融合,知识加工和推理。
具体的,包括:
信息抽取,从无结构数据集抽取知识单元,利用NLTK、Jieba等工具从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体-关系-实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分。
S3,实现基于知识图谱的自然语言问答,包括自然语言问题的向量化表示,自然语言问题的查询语言生成,答案生成与排序。
具体的,所述S3包括:
S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,
S33,基于Ranking SVM的答案排序。
所述步骤S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用一定数量标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类。
所述步骤S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注;
所述步骤S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体-谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。
根据上述一种基于智能问答的对外汉语口语训练方法,本发明另一方面在于实现一种基于智能问答的对外汉语口语训练系统,所述对外汉语口语训练系统具有软体APP和实体机器人两种形态,具有智能对话、知识库和技能服务等功能,可作为对外汉语口语教学的智能辅助工具。
具体的,根据软件开发流程,进行需求分析、系统架构设计、详细设计、系统实现、系统测试和系统维护等步骤进行智能口语训练系统的开发。
用户可通过手机APP与智能口语训练系统用汉语聊天进行口语问答训练,通过基础汉语学习和职业汉语学习等模块进行系统的汉语学习,同时了解中华文化。
所述App还具备社区功能,通过合作学习增加汉语学习乐趣,凝聚汉语学习者产生认同感,捕捉学习汉语的个体存在,通过数据深度分析为国家战略和文化传播提供参考。
此外,还能够制作实体机器人原型,将Python平台上开发的智能问答算法程序迁移到树莓派硬件设备,在不影响问答流畅度及准确度的情况下实现个性化定制服务。用户可对树莓派及其配套硬件进行封装,二次开发多样化智能问答机器人产品。
进一步的,可面向特定领域实现该口语训练系统的定制化开发,如海外版《中文》教材开发配套的虚拟人工智能口语训练系统,能聊天进行口语问答训练。
针对如旅游、贸易、科技、商务、医学、方言、观光、电话、网络、体育、经贸洽谈、流行语、公务员用语、口语习惯用语、议论口语、口语常用句等垂直领域开发相应系统。
此外,用户可通过软体机器人APP形式进行网络全天候互动对话,通过实体机器人实现沉浸式学习;通过问题生成技术可产生大量的、自然的、多样的口语训练问答对,实现口语训练内容的智能设计,通过行业知识图谱构建技术,提供特定领域的专业口语训练内容;克服口语不易保留的局限,将口语训练以文本的形式记录下来,对个体学生进行用户画像,帮助教师更有针对性地提升学生的口语技能。
本发明构建的对外汉语口语训练系统针对现有教育平台缺少互动性、沉浸式程度不够及寓教于乐不足的问题,采用知识图谱提高知识密度,解决目前基于数据的构建方法中网络文本数据的知识密度低,无法形成有效推理机制,对汉语口语这一垂直领域的分析存在很大不足,后期精准度的提升非常困难的问题。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (3)

1.一种基于智能问答的对外汉语口语训练方法,其特征在于,包括以下步骤:
S1,采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
S2,汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
S3,接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序;
所述S1,具体包括:
S11,采集口语教材作为基础语料;
S12,爬取社区问答信息和百科知识;
S13,采用基于变分自编码器算法进行问题生成;
所述S13,具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项KLLoss,使所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,以形成可供解码器解码的隐含空间分布;
所述S2,具体包括:
信息抽取,从无结构数据集抽取知识单元,从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体-关系-实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分;
所述S3,具体包括:
S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,
S33,基于Ranking SVM的答案排序;
所述S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类;
所述S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注;
所述S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体-谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。
2.根据权利要求1所述的基于智能问答的对外汉语口语训练方法,其特征在于,所述S12中的爬取过程包括定义爬虫内容CrawlerItem、数据保存CrawlerPipeline和定义爬取规则Spiders_Ask三阶段。
3.一种基于智能问答的对外汉语口语训练系统,其特征在于,包括:
数据集构建模块,用于采集口语训练问答对,采用基于变分自编码器算法构建对外汉语口语训练问答对数据集;构建过程包括:通过选择话题建立话题库;通过词语分类建立话题词表;通过问题生成建立问答对数据集;
知识图谱构建模块,用于汇总语料,并根据语料构建对外汉语口语知识图谱;构建过程包括语料收集、信息抽取和融合及知识加工和推理;
自然语言问答实现模块,用于接收用户输入的自然语言问题,通过神经网络深度学习对问题进行向量表达,与知识图谱的表达向量进行语义关联;通过关联分析选择合适的回答进行输出以实现自然语言问答,包括自然语言问题的向量化表示、自然语言问题的查询语言生成及答案生成与排序;
所述数据集构建模块,具体包括:
S11,采集口语教材作为基础语料;
S12,爬取社区问答信息和百科知识;
S13,采用基于变分自编码器算法进行问题生成;
所述S13,具体包括:
对于给定的文本数据通过一个隐含变量Z表示数据的分布特征,构建一个从隐含变量Z生成目标数据X的模型;
变分自编码器给编码网络增加一个损失项KLLoss,使所生成的潜在向量大体上服从于单位高斯分布,这一损失函数将鼓励所有编码在围绕隐藏层中心分布,同时惩罚不同类别被聚类到分离区域的行为;
通过重构损失的聚类行为与KL Loss损失项的紧密分布行为的平衡,以形成可供解码器解码的隐含空间分布;
所述知识图谱构建模块,具体包括:
信息抽取,从无结构数据集抽取知识单元,从文本数据集中自动识别出命名实体,利用深度学习和NLTK工具,从相关语料中提取出实体之间的关联关系,形成实体-关系-实体三元组;
知识融合,对实体采用聚类算法和神经网络分类算法进行实体消歧,在确认知识库中对应正确实体对象之后,将该实体链接到知识库中对应实体;
知识推理,采用基于逻辑的推理,在命题的基础上建立一阶谓词逻辑,将命题分解为个体和谓词部分;
所述自然语言问答实现模块,具体包括:
S31,基于卷积神经网络的问题分类,将用户输入的问题分类以确定预期答案类型;
S32,基于表示学习的语义消歧,采用表示学习方法进行语义消歧,减小用户输入和知识图谱术语的差距,使其能够链接到知识图谱中的唯一实体,
S33,基于Ranking SVM的答案排序;
所述S31,具体包括:
使用卷积神经网络建立分类模型以充分提取问题特征,用标记语料训练出来的高维词向量作为每个词对应的特征,通过多尺度卷积滤波器,提取问题句子的向量矩阵表达;
利用有标注的词向量将所有句子都转换成大小相同的句子矩阵作为模型的输入;
使用多尺寸的滤波器,每种尺寸包含多个滤波器对输入矩阵进行操作,在对句子矩阵进行多尺寸的多个滤波器滤波后,每种尺寸的多个滤波器产生出多个特征图;
对得到的多个特征图进行组合,得到词特征,得到问题所对应的分类;
所述S32,具体包括:
将知识图谱中的实体与关系嵌入到一个低维的向量空间里,同时将两者转化为向量表示;
通过对问句中所有词向量直接相加的方式将用户输入的问句进行向量矩阵表示;
将知识图谱的实体和关系向量相加得到一个向量表示;
计算两个向量的相似度,根据相似度大小判定是否具有相同语义并对歧义词进行标注;
所述S33,具体包括:
基于排序学习算法Ranking SVM结合谓词相似度特征、谓词编辑距离特征、谓词词语共现特征和分类特征,通过训练数据训练模型的参数,用训练好的模型对待解答问句的候选答案集合排序;
将训练数据中的问句映射为“实体-谓词”形式,根据实体从知识图谱中抽取问句对应的三元组候选答案;
训练数据中的问句已知正确答案,根据正确答案对候选答案标记,同时提取训练数据的若干类特征作为特征集;
根据标记和特征来训练答案排序的Ranking SVM模型,使用模型对待解答问句的候选答案进行排序。
CN201910284601.2A 2019-04-10 2019-04-10 一种基于智能问答的对外汉语口语训练方法及系统 Active CN110083690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910284601.2A CN110083690B (zh) 2019-04-10 2019-04-10 一种基于智能问答的对外汉语口语训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910284601.2A CN110083690B (zh) 2019-04-10 2019-04-10 一种基于智能问答的对外汉语口语训练方法及系统

Publications (2)

Publication Number Publication Date
CN110083690A CN110083690A (zh) 2019-08-02
CN110083690B true CN110083690B (zh) 2022-05-03

Family

ID=67414718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910284601.2A Active CN110083690B (zh) 2019-04-10 2019-04-10 一种基于智能问答的对外汉语口语训练方法及系统

Country Status (1)

Country Link
CN (1) CN110083690B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807102B (zh) * 2019-09-19 2023-09-29 平安科技(深圳)有限公司 知识融合方法、装置、计算机设备和存储介质
CN110727806B (zh) * 2019-12-17 2020-08-11 北京百度网讯科技有限公司 基于自然语言和知识图谱的文本处理方法及装置
CN111143539B (zh) * 2019-12-31 2023-06-23 重庆和贯科技有限公司 基于知识图谱的教学领域问答方法
CN111326040B (zh) * 2020-01-16 2020-12-22 深圳市芥菜种科技有限公司 语文阅读理解智能测试和智能辅导系统和方法
CN111241306B (zh) * 2020-01-21 2022-04-29 浙江大学 一种基于知识图谱和指针网络的路径规划方法
CN111259130B (zh) * 2020-02-14 2023-04-07 支付宝(杭州)信息技术有限公司 用于在对话中提供答复语句的方法及装置
CN111368191B (zh) * 2020-02-29 2021-04-02 重庆百事得大牛机器人有限公司 基于法律咨询交互过程的用户画像系统
CN111597347B (zh) * 2020-04-24 2023-11-10 扬州大学 知识嵌入的缺陷报告重构方法及装置
CN111666374A (zh) * 2020-05-15 2020-09-15 华东师范大学 一种在深度语言模型中融入额外知识信息的方法
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN111831794A (zh) * 2020-07-10 2020-10-27 杭州叙简科技股份有限公司 一种基于知识图谱的综合管廊行业知识问答系统构建方法
CN111768869B (zh) * 2020-09-03 2020-12-11 成都索贝数码科技股份有限公司 面向智能问答系统的医学指南图谱化构建搜索系统及方法
CN112015919A (zh) * 2020-09-15 2020-12-01 重庆广播电视大学重庆工商职业学院 一种基于学习辅助知识图谱的对话管理方法
CN112015920A (zh) * 2020-09-15 2020-12-01 重庆广播电视大学重庆工商职业学院 一种基于知识图谱和边缘计算智能辅助学习系统
CN112541059A (zh) * 2020-11-05 2021-03-23 大连中河科技有限公司 一种应用在税务问答系统的多轮智能问答交互方法
CN112507081B (zh) * 2020-12-16 2023-05-23 平安科技(深圳)有限公司 相似句匹配方法、装置、计算机设备及存储介质
CN112800203B (zh) * 2021-02-05 2021-12-07 江苏实达迪美数据处理有限公司 一种融合文本和知识表征的问答匹配方法及系统
CN113468304A (zh) * 2021-06-28 2021-10-01 哈尔滨工程大学 一种基于知识图谱的船舶靠离泊知识问答查询系统的构建方法
CN113536798B (zh) * 2021-07-16 2024-05-31 北京易道博识科技有限公司 一种多实例文档关键信息抽取方法和系统
CN116383771B (zh) * 2023-06-06 2023-10-27 云南电网有限责任公司信息中心 基于变分自编码模型的网络异常入侵检测方法和系统
CN116975206B (zh) * 2023-09-25 2023-12-08 华云天下(南京)科技有限公司 一种基于aigc大模型的垂直领域训练方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182262A (zh) * 2018-01-04 2018-06-19 华侨大学 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9928235B2 (en) * 2016-07-07 2018-03-27 International Business Machines Corporation Type-specific rule-based generation of semantic variants of natural language expression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182262A (zh) * 2018-01-04 2018-06-19 华侨大学 基于深度学习和知识图谱的智能问答系统构建方法和系统
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于百度百科与文本分类的网络文本语义主题抽取方法;陈叶旺等;《信息科技 计算机软件及计算机应用》;20121231(第12期);第1-6页 *

Also Published As

Publication number Publication date
CN110083690A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110083690B (zh) 一种基于智能问答的对外汉语口语训练方法及系统
Schwieter et al. The handbook of translation and cognition
Guru et al. How to Improve the quality of learning for early childhood? An implementation of education management in the industrial revolution era 4.0
Holland et al. Intelligent language tutors: Theory shaping technology
Sophokleous et al. Computer vision meets educational robotics
Mathew et al. NLP-based personal learning assistant for school education
Kajee Multimodal representations of identity in the English-as-an-additional-language classroom in South Africa
Mehta et al. Automated 3D sign language caption generation for video
Huang et al. Exploring the dynamics of motivation for learning Japanese among Chinese learners: An elicited metaphor analysis
Šipka Lexical layers of identity: Words, meaning, and culture in the Slavic languages
Zhu et al. Construction and analysis of intelligent english teaching model assisted by personalized virtual corpus by big data analysis
CN117171360A (zh) 一种基于大模型和知识图谱的课程交叉重组系统及方法
Darvin Situated performances in a graduate teacher education course: an inquiry into the impact of Cultural and Political Vignettes (CPVs)
Fadlilah et al. Bisindo information system as potential daily sign language learning
Arber Encountering an-other: The culture of curriculum and inclusive pedagogies
Inharjanto Developing coloring books to enhance reading comprehension competence and creativity
Zhang et al. Application strategies of cloud computing intelligent optimization algorithms in English translation major teaching
Aljojo et al. In-depth analysis of the arabic version of the felder-silverman index of learning styles
Chan et al. Generative AI in Higher Education: The ChatGPT Effect
Liu et al. AI-based language chatbot 2.0–the design and implementation of English language concept learning agent app
Chanasattru et al. The Word List Distribution in Social Science Research Articles
Ladage et al. Research on ATD outside mathematics
Avila Pardo Social structure, agency and second language learning: A study of the impact of contextual conditions on the desire to invest in language learning amongst undergraduate students in cancun
Li et al. The Impact of Teachers’ Instructional Design on the Development of Young Children’s Sense of Innovation: An Algorithmic Perspective Analysis
Ansas et al. A Systematic Review on the Utilization of Augmented Reality in Language Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant