CN114840679A - 一种基于乐理知识图谱推理的机器人智能导学方法及应用 - Google Patents
一种基于乐理知识图谱推理的机器人智能导学方法及应用 Download PDFInfo
- Publication number
- CN114840679A CN114840679A CN202210087035.8A CN202210087035A CN114840679A CN 114840679 A CN114840679 A CN 114840679A CN 202210087035 A CN202210087035 A CN 202210087035A CN 114840679 A CN114840679 A CN 114840679A
- Authority
- CN
- China
- Prior art keywords
- layer
- music theory
- knowledge graph
- weighted
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 3
- 241001522296 Erithacus rubecula Species 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 15
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000011664 nicotinic acid Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于乐理知识图谱推理的机器人智能导学方法及应用。该方法包括:采集乐理学习者提问的语音信号并转换为文本数据;获取文本数据中的实体嵌入表示hi和关系嵌入表示si;将hi、si与乐理知识图谱的每个实体eu对应的特征向量tu构成候选三元组(hi,si,tu);将候选三元组输入到知识图谱推理模块,获得所有候选三元组的能量值,将能量值最优的候选三元组中的tu对应的eu输出。本发明通过解析问句的实体及其关系,并挖掘乐理知识图谱中实体和关系的深度语义交互,可以提高智能导学的精确性和扩展性。
Description
技术领域
本发明属于人工智能教育技术领域,更具体地,涉及一种基于乐理知识图谱推理的机器人智能导学方法及应用。
背景技术
小学音乐教育占据了整个音乐教育中最为重要的一部分,对于小学生提高其自身的创造力、思维水平和审美情趣方面发挥着极为关键的作用。乐理是小学音乐教育的基础知识,是音乐理论的统称,包括节奏、音程、节拍、旋律等诸多音乐知识,但是乐理知识往往晦涩难懂,对于初学乐理知识的小学生造成了比较多的困扰,随着家庭教育的发展,家庭教育机器人对于小学生乐理知识的智能导学受到越来越多的关注。
家庭教育机器人是机器人技术应用到家庭教育场景的典型范例,是人工智能技术和仿生技术的教育应用的代表性产品。家庭教育机器人是面向家庭教育领域专门研发的专业型服务机器人,家庭教育机器人智能导学的主要用途是培养学生的创新创造能力、分析理解能力和综合实践能力,具备友好的人机交互和教学适用性等特点。目前,实现家庭教育机器人智能导学的方法有很多,这些方法主要可分为四类:基于模式的导学方法、基于常用问答对的导学方法、基于自由文本的导学方法和基于知识图谱的导学方法。首先,基于模式匹配的智能导学方法是将问题与专家制定的问题模板匹配获得答案,或者通过启发性规则推理得到答案,准确性高,但所需人力成本较高,可扩展性低。其次,基于常用问答对的智能导学方法主要是计算学习者查询语句与已经存储好的问答对之间的相似性,找出最为相似的问答对,较为简单,但是覆盖率低、灵活性差。再次,基于自由文本的智能导学方法是从互联网匹配最为相似的问句和答案,优点是覆盖率高,没有领域限制,缺点是只能回答有限类型的问题,准确率不高。最后,基于知识图谱的智能导学方法可以实现专业领域知识的问答,但受限于三元组的表示形式,对于复杂问题难以回答。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于乐理知识图谱推理的机器人智能导学方法及应用,可以提高智能导学的精确性和扩展性。
为实现上述目的,按照本发明的第一方面,提供了一种基于乐理知识图谱推理的机器人智能导学方法,包括步骤:
采集乐理学习者提问的语音信号,将所述语音信号转换为文本数据;
对所述文本数据进行解析,抽取所述文本数据中的实体和关系,并得到所述文本数据中的实体嵌入表示hi和关系嵌入表示si;
将所述实体嵌入表示hi、关系嵌入表示si与乐理知识图谱的每个实体eu对应的特征向量tu构成候选三元组(hi,si,tu);
将所有候选三元组(hi,si,tu)输入到训练后的知识图谱推理模块,获得所有候选三元组的能量值,能量值是表示tu与hi具有关系si的概率值,将能量值最优的候选三元组(hi,si,tu)中的tu对应的eu作为所述语音信号的答案输出。
进一步地,采用语音转换器将所述语音信号转换为文本数据,所述语音转换器包括加权深度全序列卷积神经网络模型和隐马尔可夫模型,所述加权深度全序列卷积神经网络模型包括输入层、隐藏层和输出层,所述隐马尔可夫模型用于对所述隐藏层的输出进行处理后输入后所述输出层,所述隐藏层的最后一层为加权特征层,经过所述加权特征层后的加权特征表示为:
G=δ(Wwt*Fwt+b)
其中,G是所述加权特征层的输出特征,δ(·)表示所述特征加权层的激活函数,b为偏置项,Fwt表示所述特征加权层的输入特征,Wwt为所述特征加权层的特征加权矩阵。
进一步地,利用文本解析器对所述文本数据进行解析,所述文本解析器包括预训练语言模型、双向门控循环单元和序列标注模型;
所述预训练语言模型用于将所述文本数据转换为字符向量;
所述双向门控循环单元用于对转换后的字符向量进行特征抽取;
所述序列标注模型用于根据抽取的特征输出所述文本数据中实体和关系的标注结果。
进一步地,所述知识图谱推理模块的训练包括步骤:
获取将乐理知识图谱中的实体集合和关系集合,将乐理知识图谱中的实体和关系转换为嵌入表示,将乐理知识图谱中实体嵌入表示记为tu,乐理知识图谱中关系嵌入表示记为ru,将多个tu和ru进行拼接后获得矩阵L;
将矩阵L中的元素进行混合排列获得矩阵Lc;
对矩阵Lc进行圆周卷积操作,获得特征图;
将得到的特征图映射到k维向量空间,得到隐藏层向量H;
通过全连接层来对隐藏层向量H进行处理,输出能量预测值,通过训练减小能量预测值与乐理知识图谱中实体间实际关系的差异。
进一步地,所述对矩阵Lc进行圆周卷积操作是采用N个不同的卷积核分别对矩阵Lc进行圆周卷积操作,从而生成N个不同的特征图。
按照本发明的第二方面,提供了一种基于乐理知识图谱推理的机器人智能导学系统,包括:
采集模块,用于采集乐理学习者提问的语音信号,将所述语音信号转换为文本数据;
预处理模块,用于对所述文本数据进行解析,抽取所述文本数据中的实体和关系,并得到所述文本数据中的实体嵌入表示hi和关系嵌入表示si;
三元组构建模块,用于将所述实体嵌入表示hi、关系嵌入表示si与乐理知识图谱的每个实体eu对应的特征向量tu依次构成候选三元组(hi,si,tu);
推理输出模块,用于将所有候选三元组(hi,si,tu)输入到训练后的知识图谱推理模块,获得所有候选三元组的能量值,能量值是表示tu与hi具有关系si的概率值,将能量值最优的候选三元组(hi,si,tu)中的tu对应的eu作为所述语音信号的答案输出。
进一步地,采用语音转换器将所述语音信号转换为文本数据,所述语音转换器包括加权深度全序列卷积神经网络模型和隐马尔可夫模型,所述加权深度全序列卷积神经网络模型包括输入层、隐藏层和输出层,所述隐马尔可夫模型用于对所述隐藏层的输出进行处理后输入所述输出层,所述隐藏层的最后一层为加权特征层,经过所述加权特征层后的加权特征表示为:
G=δ(Wwt*Fwt+b)
其中,G是所述加权特征层的输出特征,δ(·)表示所述特征加权层的激活函数,而且b为偏置项,Fwt表示所述特征加权层的输入特征,Wwt为所述特征加权层的特征加权矩阵。
进一步地,所述知识图谱推理模块的训练包括步骤:
获取将乐理知识图谱中的实体集合和关系集合,将乐理知识图谱中的实体和关系转换为嵌入表示,将乐理知识图谱中实体嵌入表示记为tu,乐理知识图谱中关系嵌入表示记为ru,将多个tu和ru进行拼接后获得矩阵L;
将矩阵L中的元素进行混合排列获得矩阵Lc;
对矩阵Lc进行圆周卷积操作,获得特征图;
将得到的特征图映射到k维向量空间,得到隐藏层向量H;
通过全连接层来对隐藏层向量H进行处理,输出能量预测值,通过训练减小能量预测值与乐理知识图谱中实体间实际关系的差异。
按照本发明的第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现中任一项上述的方法的步骤。
按照本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一项上述的方法。
总体而言,本发明与现有技术相比,具有有益效果:
(1)通过解析问句的实体及其关系,并挖掘乐理知识图谱中实体和关系的深度语义交互,可以提高智能导学的精确性和扩展性。
(2)利用机器人语音设备采集乐理学习者的语音信号,并且利用语音转换器识别语音信号,具体来说,使用加权深度全序列卷积神经网络对语音波进行加窗操作,并且将相邻多帧进行拼接,提高语音转换识别的效率,并采用隐马尔可夫模型处理语音识别中可变长度话语的问题,有效实现了语音转文本的自动化过程。
(3)对乐理学习者文本数据采取文本解析器进行解析,抽取出乐理学习者问句中的实体和关系,使用轻量级预训练语言模型对字符进行向量化操作,再利用双向门控循环单元学习上下文之间的关系,最后运用序列标注模型标注序列的概率分布结果,抽取乐理学习者问句的实体和关系。
(4)把三元组输入到知识图谱推理模块,计算所有三元组的能量值,从而找出最佳答案,利用经纬混排学习实体和关系之间丰富的交互语义关系,通过圆周卷积神经网络的圆周卷积、重叠池化和全连接操作建立乐理知识图谱的推理路径,并利用能量值函数计算三元组的能量值,从而定位最优答案。智能导学结果的学习者满意度高,克服了传统机器人智能导学方法中的“难以确定复杂问题的正确答案”的问题。
附图说明
图1是本发明实施例的机器人智能导学场景示意图;
图2是本发明实施例的机器人智能导学方法的流程图;
图3是本发明实施例的机器人语音转换器示意图;
图4是本发明实施例的文本解析器示意图;
图5是本发明实施例的经纬混排交互表示学习图;
图6是本发明实施例的乐理知识图谱推理路径图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例的一种基于乐理知识图谱推理的机器人智能导学方法的应用场景如图1所示。
如图2所示,本发明实施例的一种基于乐理知识图谱推理的机器人智能导学方法,包括步骤S101至S104。
S101,采集乐理学习者提问的语音信号,将语音信号转换为文本数据。
步骤101具体步骤如下:
a.使用机器人语音设备采集乐理学习者的语音信号,当乐理学习者向机器人提出问题时,语音设备会自动采集语音信号,包括含噪音的语音信号、干净的语音信号和复杂场景下的语音信号。例如,乐理学习者向机器人提出问题“五声音阶的提出时间是何时”,机器人语音设备会自动采集语音信号。
b.采用语音转换器将语音信号转换为文本数据,语音转换器的网络结构如图3所示,采用隐马尔可夫模型HMM和加权深度全序列卷积神经网络WT-DFCNN进行语音转换识别。语音转换器包括加权深度全序列卷积神经网络模型和隐马尔可夫模型,加权深度全序列卷积神经网络模型包括输入层、隐藏层和输出层,隐马尔可夫模型用于对隐藏层的输出进行处理后输入后输出层,隐藏层的最后一层为加权特征层。
隐马尔可夫模型可以处理语音识别中可变长度话语的问题,传统的机器学习是一种浅层结构算法,对于机器人语音信号中的深层特征学习能力不足,表征复杂函数的能力也有限,所以在全序列卷积神经网络的基础上,设计了加权深度全序列卷积神经网络WT-DFCNN,增加了一个卷积池化单元,可以更好地提取机器人语音信号中的深层信息,在每一个卷积池化单元之后加入Dropout层,达到防止过拟合的目的。进一步而言,引入一个特征加权层,实现对机器人语音信号中的关键特征的加权,并减轻无效特征的影响。
加权深度全序列卷积神经网络形成的语音波会有加窗操作,并且将相邻多帧进行拼接,提高语音转换识别的效率。加权深度全序列卷积神经网络是由输入层、隐藏层和输出层组合而成,隐藏层由Sigmoid激活函数构成,输出层由Softmax函数构成,每一个节点的输入值是Xi,输出值是Yi:
其中,W1和Wi是权重矩阵,b1和bi代表偏置项,ot指的是t时刻的输入帧,L是隐藏层总数量。为了防止出现过拟合现象,在加权深度全序列卷积神经网在每一个卷积层后添加Dropout层,并将失活率设置为20%,使得神经网络在前向传播中丢弃部分神经元,提高模型的泛化能力,每一个节点的输入值是xin,对应的输出为ydrop:
ydrop=dropout(xin)
经过五次卷积、池化、Dropout操作后,利用设计的特征加权层对最后的特征矩阵进行处理,加权深度全序列卷积神经网络WT-DFCNN利用全连接层完成关键特征加权,其中特征加权矩阵为Wwt,用Fwt={f1,f1,···,fc}表示输入加权层的特征,其中c表示输入的特征维度,经过特征加权层后的加权特征为:
G=δ(Wwt*Fwt+b)
其中,G是加权后的特征,δ(·)是特征加权层的激活函数,而且b为偏置项,若该层的输入特征为Fwt,那么输出的加权特征为G={g1,g1,···,gc},特征加权层消除了无效特征造成的影响,可以大大提高神经网络的准确率和识别率。
S102,对文本数据进行解析,抽取文本数据中的实体和关系,并得到文本数据中的实体嵌入表示hi和关系嵌入表示si。
利用文本解析器对文本数据进行解析,抽取出问句的实体ei和关系ri,例如,将“五声音阶的提出时间是何时”解析之后,得到实体“五声音阶”和关系“提出时间”。
文本解析器的网络结构如图4所示,包括预训练语言模型、双向门控循环单元和序列标注模型;预训练语言模型用于将文本数据转换为字符向量;双向门控循环单元用于对转换后的字符向量进行特征抽取;序列标注模型用于根据抽取的特征输出文本数据中实体和关系的标注结果。
文本解析器的具体实现过程如下:
a.将机器人问句Q={W1,W2,…,Wn}输入到ALBERT层,其中Wi为问句Q中的第i个字符;相对于传统的BERT模型,ALBERT是一个参数量精简的BERT架构,通过两个参数削减方法克服了BERT预训练模型面临的困难,首先是对词汇嵌入矩阵进行了因式分解,其次是进行了跨层参数共享,有利于提高模型的泛化能力。
使用ALBERT预训练语言模型获取教育机器人问句的特征,对字符进行向量化操作,每个字符的向量为F:
F=FC+FS+FP
其中FC代表字符嵌入表示,FS是句子分类嵌入表示,FP指的是序列位置嵌入表示。然后采取多层双向Transformer编码器训练字符向量F,得到文本的特征表示;与传统的BERT模型不同,ALBERT只采用了Transformer的Encoder部分,其由多个相同大小的网络层堆砌而成,而且每个网络层由前馈网络层和多头注意力机制层两个子网络层构成,每个子网络层的输入和输出相加并进行归一化:
Xnorm=NormLayer(x+(SubLayer(x)))
其中Xnorm是子网络层归一化后的结果,x表示子网络层的输入,SubLayer代表了前馈网络层或者多头注意力机制层。而且多头注意力机制MultiHead如下所示:
MultiHead(Q,K,V)=Concat(head1,head2,···,headj)Wo
值得注意的是,Q,K,V分别是输入序列中的每个字符所一一对应的Query向量、Key向量、Value向量,而且Wo是附加权重矩阵,可以保证矩阵维度被压缩到序列长度,j是head的数量,具体而言,headj可以表示为如下形式:
Xf=ReLU(Linear(Linear(Zatt)))
不难发现,Xatt是多头注意力机制层输出并归一化处理的结果,Xf是前馈网络层进行两次线性映射的输出结果。
b.利用双向门控循环单元Bi-GRU对字符向量的深层次特征进行抽取,考虑上下文之间关系的学习;GRU是由重置门rt和更新门zt组成:
rt=σ(Wr[ht-1,xt])
zt=σ(Wz[ht-1,xt])
其中σ是Sigmoid激活函数;xt表示当前输入,ht-1代表输出,Wr、Wz指的是重置门rt和更新门zt的权重矩阵。前向GRU和反向GRU结合训练,考虑上下文信息特征;
c.采取CRF模型获取标注序列的概率分布,对于给定的输入句子序列x对应的标签序列为y={y1,y2,y3,···,yn},其中n是指标签序列y的长度,而且x根据Bi-GRU层处理后获得输出矩阵P,从而来计算出输入序列x的CRF预测得分为score(x,y):
映射向量空间的具体实现过程是将乐理学习者问句的实体ei和关系ri映射到低维实值的向量空间,得到对应嵌入表示分别为hi和si,将“五声音阶的提出时间是何时”的实体“五声音阶”和关系“提出时间”映射到向量空间,可以得到实体“五声音阶”的嵌入表示和关系“提出时间”的嵌入表示。
S103,将实体嵌入表示hi和关系嵌入表示si与乐理知识图谱的每个实体eu对应的特征向量tu构成候选三元组(hi,si,tu),这样可以获得多个候选三元组。
S104,将所有候选三元组(hi,si,tu)输入到训练后的知识图谱推理模块,获得所有候选三元组的能量值,能量值是表示tu与hi具有关系si的概率值,将能量值最优的候选三元组(hi,si,tu)中的tu对应的eu作为语音信号的答案输出。
知识图谱推理模块的原理如图5和图6所示,知识图谱推理模块的训练包括步骤:获取将乐理知识图谱中的实体集合和关系集合,将乐理知识图谱中的实体和关系转换为嵌入表示,将乐理知识图谱中实体嵌入表示记为tu,乐理知识图谱中关系嵌入表示记为ru,将多个tu和ru进行拼接后获得矩阵L;将矩阵L中的元素进行混合排列获得矩阵Lc;对矩阵Lc进行圆周卷积操作,获得特征图;将得到的特征图映射到k维向量空间,得到隐藏层向量H;通过全连接层来对隐藏层向量H进行处理,输出能量预测值,通过训练减小能量预测值与乐理知识图谱中实体间实际关系的差异。
具体实现过程如下:
a.对乐理课程标准、教材、考纲、教案和试题集等数据进行信息抽取,构建乐理知识图谱,基础乐理主题包括节奏、音程、节拍、和弦等。进阶乐理主题包含旋律、和声、配器法、复调等内容。
b.将乐理知识图谱中三元组(头实体、关系、尾实体)的实体集合E和关系集合R作为k维的嵌入表示,获得乐理知识图谱中实体嵌入表示tu和乐理关系嵌入表示ru,值得注意的是,前文所提到的hi,si是指学习者问句的实体和关系对应的嵌入表示,与tu,ru不同,将多个tu,ru进行简单拼接得到一个矩阵其中kw,kh分别指矩阵L的宽度和长度。
c.将乐理知识图谱中的实体嵌入表示tu和关系嵌入表示ru进行拼接后的矩阵L进行混合排列(也可称之为经纬混排),这样可以捕捉实体与关系之间的语义交互。利用经纬混排函数Φcheq对矩阵L进行经纬混排,经纬混排后的输出结果为Lc:
Lc=Φcheq(L)
经纬混排后的矩阵可以视作多个三元组训练样本的表示。
具体而言,d维矩阵,其中语义交互的数量被定义为N(Φcheq,d),实体与关系之间的语义交互可以分为同构交互Nhom(Φcheq,d)和异构交互Nhet(Φcheq,d),同构交互是指实体与实体之间、关系与关系之间的交互,相反的是,异构交互代表了实体与关系之间的交互。
例如,假设d=4,混合排列前后的矩阵如图5所示,Lc是一个4×4的矩阵,其中有8个实体嵌入表示,8个关系嵌入表示,那么异构交互的数量为,Nhet(Φcheq,d)=2(8×8)=128,而且同构交互的数量为而且 通过捕获实体与关系之间的丰富语义交互,可以最大可能提高推理路径的准确性。
d.通过圆周卷积神经网络对乐理知识图谱中的三元组进行训练和测试,同机器学习常用策略一样,将乐理知识图谱的数据集划分为训练集和测试集,其中将乐理知识图谱数据集的80%作为训练集,20%作为测试集。
在训练阶段,圆周卷积神经网络由N个不同的卷积核完成圆周卷积,卷积核的集合为K=[k1,k2,···,kN],从而生成N个不同的特征图V=[v1,v2,…,vN]:
e.将得到的特征图进行展平操作,通过矩阵W参数化的线性转换方法映射到多维向量空间,得到隐藏层向量H:
H=f(vec[v1,v2,…,vN]·W)
在此式中,vec[v1,v2,…,vN]是指将特征图进行向量化,这里的f(*)是指线性映射函数。
f.通过全连接层来综合特征,完成圆周卷积神经网络对知识图谱三元组的深度特征提取,对乐理知识图谱中的复杂推理路径进行建模,如图6所示。
然后利用测试集进行测试,通过评价指标MR(平均排名)、MRR(平均排序倒数)、Hits@k(正确结果在能量值序列中进入前k的比例)评估模型在测试阶段的表现。MR是指正确结果在能量值排名中的平均值,MR越小,意味着正确答案的排序越靠前,模型的效果越好。MRR是指正确结果在能量值排名中的排名倒数的平均值,与MR相反,MRR越大,意味着正确答案的排名越小,即排名越靠前,模型的效果越好。Hits@k表示正确结果在能量值排名中进入前k的比例,通常用Hits@10衡量实体预测效果,Hits@1衡量关系预测效果,Hits@k的值越大,代表模型效果越好。
kj∈[k1,k2,···,kN]
其中,线性变换矩阵W的和偏置项b的参数是共享的,独立于卷积核的参数。
举例而言,“五声音阶的提出时间是何时”这个学习者问句通过解析得到的实体和关系分别是“五声音阶”和“提出时间”,其对应的实体嵌入和关系嵌入分别为hi和si,所以组成三元组(hi,si,?),为了求解学习者问句所对应的答案,需要将已有乐理知识图谱的实体嵌入tu,如“战国时期”、“春秋时期”、“秦朝”、“汉朝”等等,与其逐一匹配形成了候选三元组(hi,si,tu),如(五声音阶,提出时间,战国时期)、(五声音阶,提出时间,春秋时期)、(五声音阶,提出时间,秦朝)、(五声音阶,提出时间,汉朝)等等,将这些候选三元组输入到已经训练好的知识图谱推理模块进行能量值计算,能量值最优的三元组即为最佳答案。经过能量值函数对三元组进行能量值计算之后,对其进行升序排序,找出能量值最优的三元组(hi,si,tu)中tu对应的乐理知识图谱的实体eu即为乐理学习者问句的最佳答案,如图6所示。例如,“五声音阶的提出时间是何时”这个问题的最优能量值的三元组为(五声音阶,提出时间,春秋时期),其对应的乐理知识图谱的实体为“春秋时期”,可以得到乐理学习者问句的答案“春秋时期”,从而反馈给乐理学习者,完成机器人智能导学。
本发明实施例的一种基于乐理知识图谱推理的机器人智能导学系统,包括:
采集模块,用于采集乐理学习者提问的语音信号,将语音信号转换为文本数据;
预处理模块,用于对文本数据进行解析,抽取文本数据中的实体和关系,并得到文本数据中的实体嵌入表示hi和关系嵌入表示si;
三元组构建模块,用于将实体嵌入表示hi和关系嵌入表示si与乐理知识图谱的每个实体eu对应的特征向量tu依次构成候选三元组(hi,si,tu);
推理输出模块,用于将所有候选三元组(hi,si,tu)输入到训练后的知识图谱推理模块,获得所有候选三元组的能量值,能量值是表示tu与hi具有关系si的概率值,将能量值最优的候选三元组(hi,si,tu)中的tu对应的eu作为语音信号的答案输出。
进一步地,采用语音转换器将语音信号转换为文本数据,语音转换器包括加权深度全序列卷积神经网络模型和隐马尔可夫模型,加权深度全序列卷积神经网络模型包括输入层、隐藏层和输出层,隐马尔可夫模型用于对隐藏层的输出进行处理后输入输出层,隐藏层的最后一层为加权特征层,经过加权特征层后的加权特征表示为:
G=δ(Wwt*Fwt+b)
其中,G是加权特征层的输出特征,δ(·)表示特征加权层的激活函数,而且b为偏置项,Fwt表示特征加权层的输入特征,Wwt为特征加权层的特征加权矩阵。
进一步地,知识图谱推理模块的训练包括步骤:
获取将乐理知识图谱中的实体集合和关系集合,将乐理知识图谱中的实体和关系转换为嵌入表示,将乐理知识图谱中实体嵌入表示记为tu,乐理知识图谱中关系嵌入表示记为ru,将多个tu和ru进行拼接后获得矩阵L;
将矩阵L中的元素进行混合排列获得矩阵Lc;
对矩阵Lc进行圆周卷积操作,获得特征图;
将得到的特征图映射到k维向量空间,得到隐藏层向量H;
通过全连接层来对隐藏层向量H进行处理,输出能量预测值,通过训练减小能量预测值与乐理知识图谱中实体间实际关系的差异。
系统的实现原理、技术效果与上述方法类似,此处不再赘述。
本实施例还提供了一种电子设备,其包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行上述方法实施例的步骤,此处不再赘述;本实施例中,处理器和存储器的类型不作具体限制,例如:处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等;存储器可以是易失性存储器、非易失性存储器或者它们的组合等。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述方法实施例的技术方案。其实现原理、技术效果与上述方法类似,此处不再赘述。
必须说明的是,上述任一实施例中,方法并不必然按照序号顺序依次执行,只要从执行逻辑中不能推定必然按某一顺序执行,则意味着可以以其他任何可能的顺序执行。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于乐理知识图谱推理的机器人智能导学方法,其特征在于,包括步骤:
采集乐理学习者提问的语音信号,将所述语音信号转换为文本数据;
对所述文本数据进行解析,抽取所述文本数据中的实体和关系,并得到所述文本数据中的实体嵌入表示hi和关系嵌入表示si;
将所述实体嵌入表示hi、关系嵌入表示si与乐理知识图谱的每个实体eu对应的特征向量tu构成候选三元组(hi,si,tu);
将所有候选三元组(hi,si,tu)输入到训练后的知识图谱推理模块,获得所有候选三元组的能量值,能量值是表示tu与hi具有关系si的概率值,将能量值最优的候选三元组(hi,si,tu)中的tu对应的eu作为所述语音信号的答案输出。
2.如权利要求1所述的一种基于乐理知识图谱推理的机器人智能导学方法,其特征在于,采用语音转换器将所述语音信号转换为文本数据,所述语音转换器包括加权深度全序列卷积神经网络模型和隐马尔可夫模型,所述加权深度全序列卷积神经网络模型包括输入层、隐藏层和输出层,所述隐马尔可夫模型用于对所述隐藏层的输出进行处理后输入后所述输出层,所述隐藏层的最后一层为加权特征层,经过所述加权特征层后的加权特征表示为:
G=δ(Wwt*Fwt+b)
其中,G是所述加权特征层的输出特征,δ(·)表示所述特征加权层的激活函数,b为偏置项,Fwt表示所述特征加权层的输入特征,Wwt为所述特征加权层的特征加权矩阵。
3.如权利要求1所述的一种基于乐理知识图谱推理的机器人智能导学方法,其特征在于,利用文本解析器对所述文本数据进行解析,所述文本解析器包括预训练语言模型、双向门控循环单元和序列标注模型;
所述预训练语言模型用于将所述文本数据转换为字符向量;
所述双向门控循环单元用于对转换后的字符向量进行特征抽取;
所述序列标注模型用于根据抽取的特征输出所述文本数据中实体和关系的标注结果。
4.如权利要求3所述的一种基于乐理知识图谱推理的机器人智能导学方法,其特征在于,所述知识图谱推理模块的训练包括步骤:
获取将乐理知识图谱中的实体集合和关系集合,将乐理知识图谱中的实体和关系转换为嵌入表示,将乐理知识图谱中实体嵌入表示记为tu,乐理知识图谱中关系嵌入表示记为ru,将多个tu和ru进行拼接后获得矩阵L;
将矩阵L中的元素进行混合排列获得矩阵Lc;
对矩阵Lc进行圆周卷积操作,获得特征图;
将得到的特征图映射到k维向量空间,得到隐藏层向量H;
通过全连接层来对隐藏层向量H进行处理,输出能量预测值,通过训练减小能量预测值与乐理知识图谱中实体间实际关系的差异。
5.如权利要求1所述的一种基于乐理知识图谱推理的机器人智能导学方法,其特征在于,所述对矩阵Lc进行圆周卷积操作是采用N个不同的卷积核分别对矩阵Lc进行圆周卷积操作,从而生成N个不同的特征图。
6.一种基于乐理知识图谱推理的机器人智能导学系统,其特征在于,包括:
采集模块,用于采集乐理学习者提问的语音信号,将所述语音信号转换为文本数据;
预处理模块,用于对所述文本数据进行解析,抽取所述文本数据中的实体和关系,并得到所述文本数据中的实体嵌入表示hi和关系嵌入表示si;
三元组构建模块,用于将所述实体嵌入表示hi、关系嵌入表示si与乐理知识图谱的每个实体eu对应的特征向量tu依次构成候选三元组(hi,si,tu);
推理输出模块,用于将所有候选三元组(hi,si,tu)输入到训练后的知识图谱推理模块,获得所有候选三元组的能量值,能量值是表示tu与hi具有关系si的概率值,将能量值最优的候选三元组(hi,si,tu)中的tu对应的eu作为所述语音信号的答案输出。
7.如权利要求6所述的一种基于乐理知识图谱推理的机器人智能导学系统,其特征在于,采用语音转换器将所述语音信号转换为文本数据,所述语音转换器包括加权深度全序列卷积神经网络模型和隐马尔可夫模型,所述加权深度全序列卷积神经网络模型包括输入层、隐藏层和输出层,所述隐马尔可夫模型用于对所述隐藏层的输出进行处理后输入所述输出层,所述隐藏层的最后一层为加权特征层,经过所述加权特征层后的加权特征表示为:
G=δ(Wwt*Fwt+b)
其中,G是所述加权特征层的输出特征,δ(·)表示所述特征加权层的激活函数,而且b为偏置项,Fwt表示所述特征加权层的输入特征,Wwt为所述特征加权层的特征加权矩阵。
8.如权利要求6所述的一种基于乐理知识图谱推理的机器人智能导学系统,其特征在于,所述知识图谱推理模块的训练包括步骤:
获取将乐理知识图谱中的实体集合和关系集合,将乐理知识图谱中的实体和关系转换为嵌入表示,将乐理知识图谱中实体嵌入表示记为tu,乐理知识图谱中关系嵌入表示记为ru,将多个tu和ru进行拼接后获得矩阵L;
将矩阵L中的元素进行混合排列获得矩阵Lc;
对矩阵Lc进行圆周卷积操作,获得特征图;
将得到的特征图映射到k维向量空间,得到隐藏层向量H;
通过全连接层来对隐藏层向量H进行处理,输出能量预测值,通过训练减小能量预测值与乐理知识图谱中实体间实际关系的差异。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210087035.8A CN114840679B (zh) | 2022-01-25 | 2022-01-25 | 一种基于乐理知识图谱推理的机器人智能导学方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210087035.8A CN114840679B (zh) | 2022-01-25 | 2022-01-25 | 一种基于乐理知识图谱推理的机器人智能导学方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114840679A true CN114840679A (zh) | 2022-08-02 |
CN114840679B CN114840679B (zh) | 2024-07-26 |
Family
ID=82562473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210087035.8A Active CN114840679B (zh) | 2022-01-25 | 2022-01-25 | 一种基于乐理知识图谱推理的机器人智能导学方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114840679B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340543A (zh) * | 2023-03-31 | 2023-06-27 | 湖北商贸学院 | 一种面向数学定理自适应推导的知识图谱构建方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
WO2020258487A1 (zh) * | 2019-06-25 | 2020-12-30 | 平安科技(深圳)有限公司 | 一种问答关系排序方法、装置、计算机设备及存储介质 |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
-
2022
- 2022-01-25 CN CN202210087035.8A patent/CN114840679B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
WO2020258487A1 (zh) * | 2019-06-25 | 2020-12-30 | 平安科技(深圳)有限公司 | 一种问答关系排序方法、装置、计算机设备及存储介质 |
WO2021139283A1 (zh) * | 2020-06-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
Non-Patent Citations (1)
Title |
---|
刘琼昕;马敬;郑培雄;: "一种融合实体关联性约束的表示学习方法", 北京理工大学学报, no. 01, 15 January 2020 (2020-01-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340543A (zh) * | 2023-03-31 | 2023-06-27 | 湖北商贸学院 | 一种面向数学定理自适应推导的知识图谱构建方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114840679B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078836B (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
CN107451230A (zh) | 一种问答方法以及问答系统 | |
CN114021722A (zh) | 一种融合认知刻画的注意力知识追踪方法 | |
CN111400461A (zh) | 智能客服问题匹配方法及装置 | |
CN112559706B (zh) | 对话生成模型的训练方法、对话方法、设备以及存储介质 | |
CN113609326A (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN110968708A (zh) | 一种教育信息资源属性标注方法及系统 | |
CN112527993A (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN115545155A (zh) | 一种多层级智能认知追踪方法、系统、可存储介质及终端 | |
Sokkhey et al. | Development and optimization of deep belief networks applied for academic performance prediction with larger datasets | |
CN113591988A (zh) | 知识认知结构分析方法、系统、计算机设备、介质、终端 | |
CN115238036A (zh) | 一种基于图注意力网络和文本信息的认知诊断方法及装置 | |
CN116821294A (zh) | 一种基于隐式知识反刍的问答推理方法和装置 | |
CN113554040B (zh) | 一种基于条件生成对抗网络的图像描述方法、装置设备 | |
CN114840679A (zh) | 一种基于乐理知识图谱推理的机器人智能导学方法及应用 | |
CN117909467A (zh) | 基于知识图谱推理和决策的多跳故障诊断问答方法及装置 | |
Garg et al. | Employing Deep Neural Network for Early Prediction of Students’ Performance | |
CN116737876A (zh) | 辅助科普志愿服务的教育装置 | |
CN117035077A (zh) | 一种基于软模板和反事实推理的难度可控问题生成方法 | |
Wang et al. | [Retracted] Design of Sports Training Simulation System for Children Based on Improved Deep Neural Network | |
CN114692615B (zh) | 一种针对小语种的小样本意图识别方法 | |
Lin | Research on the Teaching Method of College Students’ Education Based on Visual Question Answering Technology | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 | |
Zhang et al. | Neural Attentive Knowledge Tracing Model for Student Performance Prediction | |
CN112785039B (zh) | 一种试题作答得分率的预测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |