CN101236615A - 一种智能发音学习语料生成方法 - Google Patents

一种智能发音学习语料生成方法 Download PDF

Info

Publication number
CN101236615A
CN101236615A CNA2008100195288A CN200810019528A CN101236615A CN 101236615 A CN101236615 A CN 101236615A CN A2008100195288 A CNA2008100195288 A CN A2008100195288A CN 200810019528 A CN200810019528 A CN 200810019528A CN 101236615 A CN101236615 A CN 101236615A
Authority
CN
China
Prior art keywords
pronunciation
language material
creation method
knowledge
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100195288A
Other languages
English (en)
Inventor
易中华
胡国平
严峻
吴晓如
刘庆峰
王仁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CNA2008100195288A priority Critical patent/CN101236615A/zh
Publication of CN101236615A publication Critical patent/CN101236615A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种智能发音学习语料生成方法,包括有专家知识库构建、专家系统构建、基础语料库构建和搜索机的构建,综合运用基于发音混淆的专家知识、语料分析技术、以及文本搜索技术自动生成有很强的针对性的发音学习语料,从而提高发音学习者学习发音的效率和效果。由于针对被学习者自身的发音缺陷生成最优的解决方案,学习更有针对性,使得学习的效果和效率有了明显的提升。学习系统的普适性增强。

Description

一种智能发音学习语料生成方法
技术领域
本发明涉及发音学习领域,具体涉及一种根据发音学习者的发音问题情况,综合运用基于发音混淆的专家知识、语料分析技术、以及文本搜索技术自动生成发音学习语料的方法。
发明背景
普通话水平测试是推广普通话工作的重要方法,是使推广普通话工作逐步走上科学化、规范化、制度化的重要举措。2000年10月31日第九届全国人民代表大会常务委员会第十八次会议通过的《中华人民共和国国家通用语言文字法》规定,以普通话作为工作语言的播音员、节目主持人和影视话剧演员、教师、国家机关工作人员必须参加普通话水平测试并达到国家规定的等级标准。
目前进行的普通话水平学习主要以老师面授的方式为主,由师资力量有限很难做到随时随地对学习者一对一的指导学习。指导老师的水平的高低,对普通话学习也有很大到影响。因此,结合现代计算机技术的发展,研究开发如何将先进的信息技术应用于普通话学习,全部替代或部分替代普通话老师,从而弥补传统的普通话水平学习方法的不足,对于节省人力物力等成本和提高学习的效果、效率方面都具有重大的意义。目前国际上针对语言学习的系统大都是基于计算机辅助语言学习(CALL)的评测学习系统,虽然也有在中文学习和评测方面的应用,但此类的评测学习系统,由于没有结合专家知识和智能搜索技术,系统的针对性不强,多半是采用系统化的学习内容,不能根据每个学习者的情况进行动态定制。
发明的内容
本发明针对现有技术的不足,开发出了在专家知识的指导下,结合计算机语料构建技术和智能搜索技术生成针对性的学习语料,能根据每个学习者的情况进行动态定制以供学习者强化训练,从而提升学习者学习发音的效率和效果的发音学习语料生成方法。
本发明是通过以下技术方案实现的:
一种智能发音学习语料生成方法,包括有专家知识库、专家系统、基础语料库和搜索机,其实现方法包括以下步骤:
(1)专家知识库的构建和分类:从专家们以往处理发音问题的众多实例中选取专家处理众多发音问题的方案,将众多的处理方案知识以合适的组织形式存入知识库中,从而构建了专家知识库;专家知识库的知识分为发音缺陷参数数据、事实、诊断型知识和元知识4类;专家系统的构建:基于专家知识库中分类好的各个方案例子,在统计分析基础上引入人工智能,构建形成专家系统,实现输入案例到发音练习语料搜索条件的自动决策系统;
(2)基础语料库的构建:根据已有的系统化的发音训练语料和从互联网上搜寻并筛选的语料由计算机处理并构建;根据不同学习需要构建不同内容的基础语料数据库,每一条语料可以按照这种格式存储:对象,属性,类型;搜索机的构建:对基础语料库进行倒排序索引,获得从任意长度关键字到目标语料的索引;建立可并行计算的快速搜索算法,可以从关键字或关键字组合快速搜索到相对应的语料文本;
(3)学习者通过各种渠道获得自己的发音问题情况,学习者将自己的发音问题情况输入专家系统;
(4)专家系统根据其情况生成针对该发音问题情况的学习解决方案;该方案对其发音情况进行分类和扩充,基本涵盖学习者的发音问题和与发音问题相关联的易混淆发音;
(5)将专家系统给出的学习解决方案输入给搜索机;搜索机根据学习方案中的关键字轮流到基础语料库中进行搜索,搜索机将多次搜索的结果进行分类合并,组成最终的学习语料。
一种智能发音学习语料生成方法,所述步骤(1)专家知识库的知识来源也包括从大量发音样本发音错误规律的结果中总结统计出来的知识。
一种智能发音学习语料生成方法,所述步骤(1)所述知识库组织形式采用多库结构的组织模式,包括数据库、事实库和规则库。
一种智能发音学习语料生成方法,所述的规则库包括有诊断规则库和元规则库。
一种智能发音学习语料生成方法,步骤(1)所述发音缺陷数据可以用谓词逻辑表示为谓词名:“对象,类型,等级”。
一种智能发音学习语料生成方法,所述步骤(1)的事实为用模糊谓词描述含有模糊信息的事实,模糊谓词逻辑用四元组表示为谓词名:“对象,属性,模糊值,隶属度”。
一种智能发音学习语料生成方法,所述步骤(1)的诊断型知识采用产生式规则表示,最初形式为IF“前提”THEN“结论”。
一种智能发音学习语料生成方法,所述步骤(2)中先对搜集到的原始语料进行对比筛选出信息熵最大的语料,然后对语料进行领域分类,再对语料进行音标或拼音的标注和词语边界、句子边界进行标定,然后以音标或拼音、音标串或拼音串、字、词为关键字进行分级索引而形成基础语料库。
一种智能发音学习语料生成方法,所述步骤(2)中每个语料内部根据使用频率进一分为若干等级,所述每一条语料的格式存储可以为:对象,属性,类型,等级,范围。
一种智能发音学习语料生成方法,所述步骤(3)中所述学习者获得自己发音问题情况的渠道,包括自我总结、由语音专家对其发音情况进行诊断和由计算机智能语音评测系统进行诊断。
一种智能发音学习语料生成方法,所述步骤(5)中搜索机搜索的同时考虑用户的附加条件选项。
本发明具体根据发音学习者的发音问题情况,综合运用基于发音混淆的专家知识、语料分析技术、以及文本搜索技术自动生成有很强的针对性的发音学习语料,从而提高发音学习者学习发音的效率和效果。由于针对被学习者自身的发音缺陷生成最优的解决方案,学习更有针对性,使得学习的效果和效率有了明显的提升。学习系统的普适性增强。由于引入了专家系统,可针对不同的学习类型进行定制;同时,本发明框架可针对不同语种构建相应的语料生成系统,可以迅速的进行不同语种的切换,从而使得系统的普适性增强。
具体实施方式
本发明实现的具体方法如下:
1、专家知识库的获取和表示:
专家知识获取和表示:语音教学所需要的专业知识基础可以从专业著作、相关资料中得到,以及同长期从事该专业领域的专家们对话、从专家们以往处理问题的实例中抽取专家知识选择合适的形式把整理好的专家知识存入知识库中。
专家系统的构建:基于专家知识库中分类好的各个方案例子,在统计分析基础上引入人工智能,构建形成专家系统,实现输入案例到发音练习语料搜索条件的自动决策系统;专家系统的知识分为发音缺陷参数数据、事实、诊断型知识和元知识4类。发音缺陷数据可以用谓词逻辑表示为谓词名(对象,类型,等级),对象指发音的音素,如“n,uo”等,类型只发音的缺陷类型,如“错误”、“缺陷”等,等级指缺陷类型的等级,定位5级,用“1,2,3,4,5”表示。事实为用模糊谓词描述含有模糊信息的事实,模糊谓词逻辑用四元组表示为谓词名(对象,属性,模糊值,隶属度)。诊断型知识采用产生式规则表示,最初形式为IF规则条件部分(条件1,条件2,…,条件n)THEN结论。元知识是关于知识的知识,在产生式系统中,它一般采用与目标层次知识相同的表示形式,并作为一个知识实体与目标层次知识共存于知识库中。(1)元级推理与目标层次推理可共享一个推理机;(2)当元规则与目标规则由当前数据库内容确定为可用规则时,将优先执行元规则;(3)当系统分设目标层次规则库和元级规则库,系统还将增加一个调度程序;(4)当有多个目标规则可用时,由调度程序根据元级规则与可用目标规则冲突集的匹配情况,从中选择一条可用规则执行。
专家知识库组织形式:知识库采用多库结构的组织模式,包括数据库、事实库和规则库。这样可以提高系统工作效率,也便于知识的搜索。各库之间相互独立,一个库的修改不会影响其它库。
2、学习语料生成器的搭建:
语料库的建设:根据不同学习需要构建不同内容的语料数据库,如PSC,HSK等。每个语料内部根据使用频率进一分为若干等级。每一条语料可以按照这种格式存储:(对象,属性,类型,等级,范围)如,单字“我”可以存储为(我,wo3,单字,一级,PSC)。
3、用户按照以下步骤使用该系统:
1)学习者通过各种渠道获得自己的发音问题情况,包括自我总结、由语音专家对其发音情况进行诊断、由计算机智能语音评测系统进行诊断;学习者将自己的发音问题情况输入系统;
2)学习者根据自己的情况选择需要生成的语料的领域、类型、规模、和对其发音问题的覆盖率;学习者也可以不做任何选择,使用系统的默认选项;
3)系统将学习者输入的发音问题情况输入给基于发音混淆知识的专家系统,专家系统根据其情况生成针对该发音问题情况的学习方案;该方案对其发音情况进行分类和扩充,基本涵盖学习者的发音问题和与发音问题相关联的易混淆发音;
4)系统将专家系统给出的学习方案输入给搜索机;
5)搜索机根据学习方案中的关键字轮流到基础发音学习语料库中进行搜索,搜索的同时考虑用户的附加条件选项;
6)搜索机将多次搜索的结果进行分类合并,组成最终的学习语料。
7)学习者从系统得到跟其发音问题密切相关的发音学习语料,学习者可以使用该语料进行强化学习,其学习方式可以是自己朗读、让语音专家带读并诊断、使用计算机智能诊断系统进行带读和诊断;
8)一个学习内容完成后,用户可以获得发音水平改进后的发音问题情况.
专家系统和搜索机是本系统的核心所在,合理的专家系统和高校的搜索机可以大大提升语料生成系统的科学性、有效性,同时使得本系统对于不同语种和方言区可以做到迅速的改进从而适应具体情况,大大提升了系统的普适性。

Claims (11)

1、一种智能发音学习语料生成方法,其特征在于生成方法包括以下步骤:
(1)专家知识库和专家系统的构建和分类:从专家们以往处理发音问题的众多实例中选取专家处理众多发音问题的方案,将众多的处理方案知识以合适的组织形式存入知识库中,从而构建了专家知识库;专家知识库的知识分为发音缺陷参数数据、事实、诊断型知识和元知识4类;专家系统的构建:基于专家知识库中分类好的各个方案例子,在统计分析基础上引入人工智能,构建形成专家系统,实现输入案例到发音练习语料搜索条件的自动决策系统;
(2)基础语料库和搜索机的构建:根据已有的系统化的发音训练语料和从互联网上搜寻并筛选的语料由计算机处理并构建;根据不同学习需要构建不同内容的基础语料数据库,每一条语料可以按照这种格式存储:对象,属性,类型;搜索机的构建:对基础语料库进行倒排序索引,获得从任意长度关键字到目标语料的索引;建立可并行计算的快速搜索算法,可以从关键字或关键字组合快速搜索到相对应的语料文本;
(3)学习者通过各种渠道获得自己的发音问题情况,学习者将自己的发音问题情况输入专家系统;
(4)专家系统根据其情况生成针对该发音问题情况的学习解决方案;该方案对其发音情况进行分类和扩充,基本涵盖学习者的发音问题和与发音问题相关联的易混淆发音;
(5)将专家系统给出的学习解决方案输入给搜索机;搜索机根据学习方案中的关键字轮流到基础语料库中进行搜索,搜索机将多次搜索的结果进行分类合并,组成最终的学习语料。
2、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于所述步骤(1)专家知识库的知识来源也包括从大量发音样本发音错误规律的结果中总结统计出来的知识。
3、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于所述步骤(1)所述知识库组织形式采用多库结构的组织模式,包括数据库、事实库和规则库。
4、根据权利要求3所述的一种智能发音学习语料生成方法,其特征在于所述的规则库包括有诊断规则库和元规则库。
5、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于步骤(1)所述发音缺陷数据可以用谓词逻辑表示为谓词名:“对象,类型,等级”。
6、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于所述步骤(1)的事实为用模糊谓词描述含有模糊信息的事实,模糊谓词逻辑用四元组表示为谓词名:“对象,属性,模糊值,隶属度”。
7、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于所述步骤(1)的诊断型知识采用产生式规则表示,最初形式为IF“前提”THEN“结论”。
8、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于所述步骤(2)中先对搜集到的原始语料进行对比筛选出信息熵最大的语料,然后对语料进行领域分类,再对语料进行音标或拼音的标注和词语边界、句子边界进行标定,然后以音标或拼音、音标串或拼音串、字、词为关键字进行分级索引而形成基础语料库。
9、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于所述步骤(2)中每个语料内部根据使用频率进一分为若干等级,所述每一条语料的格式存储可以为:对象,属性,类型,等级,范围。
10、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于所述步骤(3)中所述学习者获得自己发音问题情况的渠道,包括自我总结、由语音专家对其发音情况进行诊断和由计算机智能语音评测系统进行诊断。
11、根据权利要求1所述的一种智能发音学习语料生成方法,其特征在于所述步骤(5)中搜索机搜索的同时考虑用户的附加条件选项。
CNA2008100195288A 2008-01-22 2008-01-22 一种智能发音学习语料生成方法 Pending CN101236615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100195288A CN101236615A (zh) 2008-01-22 2008-01-22 一种智能发音学习语料生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100195288A CN101236615A (zh) 2008-01-22 2008-01-22 一种智能发音学习语料生成方法

Publications (1)

Publication Number Publication Date
CN101236615A true CN101236615A (zh) 2008-08-06

Family

ID=39920217

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100195288A Pending CN101236615A (zh) 2008-01-22 2008-01-22 一种智能发音学习语料生成方法

Country Status (1)

Country Link
CN (1) CN101236615A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776978A (zh) * 2016-12-06 2017-05-31 北京赛时科技有限公司 专家库建立办法和装置
CN111274349A (zh) * 2020-01-21 2020-06-12 北方工业大学 一种基于信息熵的公共安全数据分级索引方法及装置
CN112269861A (zh) * 2020-10-09 2021-01-26 和美(深圳)信息技术股份有限公司 智能机器人的语料生成方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776978A (zh) * 2016-12-06 2017-05-31 北京赛时科技有限公司 专家库建立办法和装置
CN106776978B (zh) * 2016-12-06 2019-08-16 北京赛时科技有限公司 专家库建立办法和装置
CN111274349A (zh) * 2020-01-21 2020-06-12 北方工业大学 一种基于信息熵的公共安全数据分级索引方法及装置
CN112269861A (zh) * 2020-10-09 2021-01-26 和美(深圳)信息技术股份有限公司 智能机器人的语料生成方法及系统

Similar Documents

Publication Publication Date Title
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
CN104850539B (zh) 一种自然语言理解方法及基于该方法的旅游问答系统
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
CN102262634B (zh) 一种自动问答方法及系统
CN110147436A (zh) 一种基于教育知识图谱与文本的混合自动问答方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN108287822A (zh) 一种中文相似问题生成系统与方法
DE112013004082T5 (de) Suchsystem der Emotionsentität für das Microblog
CN108446286A (zh) 一种自然语言问句答案的生成方法、装置及服务器
CN107368468A (zh) 一种运维知识图谱的生成方法及系统
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN106202543A (zh) 基于机器学习的本体匹配方法和系统
CN112069327B (zh) 一种在线教育课堂教学资源的知识图谱构建方法及系统
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN107301164B (zh) 数学公式的语义解析方法及装置
CN106547733A (zh) 一种面向特定文本的命名实体识别方法
CN107766543A (zh) 一种基于知识点的搜索结果提供方法及装置
CN110378206A (zh) 一种智能审图系统及方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN110866089A (zh) 基于同义多语境分析的机器人知识库构建系统及方法
CN108090223A (zh) 一种基于互联网信息的开放学者画像方法
CN114580418A (zh) 一种警察体能训练知识图谱系统
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
CN114792140A (zh) 一种基于知识图谱的变电站缺陷分析系统
CN112434165B (zh) 一种古诗词分类方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080806