CN118072761A

CN118072761A - 一种大模型发音偏误检测及发音动作图像反馈方法及装置

Info

Publication number: CN118072761A
Application number: CN202410139244.1A
Authority: CN
Inventors: 解焱陆; 钟辉航
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-05-24

Abstract

本发明涉及计算机辅助语音教学技术领域，特别是指一种大模型发音偏误检测及发音动作图像反馈方法及装置，包括：将二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列；对实际音素序列进行错误识别处理；通过知识图谱对错误发音进行对应正确发音的搜索，获得反馈信息；将反馈信息输入至大语言模型中，获得反馈文本；基于正确发音的口型图片通过图生图技术生成对应的发音口型图像；将反馈文本和发音口型图像综合反馈给二语学习者。本发明的广泛适用性使其成为一种更为灵活和全面的学习工具。传统方案往往受限于特定跟读文本的范围，而本发明不受文本类型和内容的限制，为二语学习者提供了更加个性化和广泛的学习支持。

Description

一种大模型发音偏误检测及发音动作图像反馈方法及装置

技术领域

本发明涉及计算机辅助语音教学技术领域，特别是指一种大模型发音偏误检测及发音动作图像反馈方法及装置。

背景技术

在二语学习的计算机辅助教学系统领域，如何为学习者提供有效的反馈信息，长期以来一直是研究和工业界的重点与难题。研究[1]展示了使用有限状态自动机(FiniteState Automata,FSA)来模拟跟读文本中正确语音及潜在错误语音路径的方法。基于识别到的路径，该方法允许教师或语音专家事先编写各路径的具体反馈信息，从而能为学习者提供包含发音动作的反馈。目前，工业界普遍采用的做法是利用偏误检测系统来比较学习者的实际音素与标准音素，从而识别出潜在错误的音素，并利用统计方法推测错误原因。然而，这种基于FSA的方法虽然能够提供具体的动作反馈，但它需要大量的预设工作和专业人员的参与，这在实际工业应用中往往是不可行的。此外，它仅限于特定文本的范围内，无法广泛适用于不同的学习情景。而目前工业界广泛采用的基于统计方法的反馈，往往因错误原因众多而难以精准定位，导致学习者得到的反馈信息有限，且无法获得针对具体发音动作的指导。此外，现有的计算机辅助二语教学系统尚未广泛整合图像反馈功能。

另一方面，研究界尝试使用核磁共振技术获取二语学习者的口型发音数据，以提供更为直观的发音图像反馈。尽管这种方法在理论上具有潜力，但由于核磁共振设备昂贵，这限制了其在实际应用中的普及。目前尚无一种技术方案能够针对任意指定的跟读文本提供全面的反馈，同时将语音反馈与图像反馈有效融合。

当前，在二语学习领域，基于有限状态自动机的方法能够为学习者提供包含发音动作的反馈。然而，这种方法存在显著缺陷。首先，它要求预先设计可能的语音路径和反馈信息，这一过程需要依赖于语音学专家的深度参与，从而导致人力资源的大量消耗，这在工业界是难以接受的。其次，FSA方法仅能适用于预定的文本范围，限制了它在更广泛教学场景中的应用。

此外，目前工业界广泛采用基于统计的方法来提供错误原因的反馈。这种方法面临的主要问题在于，它可能无法准确识别并反馈出真正导致错误的具体原因。由于错误的可能原因众多，这导致最终提供给学习者的反馈信息往往过于笼统，难以针对个体情况进行精准指导。更重要的是，这种方法没有提供发音动作的修正反馈，缺乏直观的视觉指导，这是在提高发音准确性方面极为关键的。

在技术上更先进的尝试，如使用核磁共振技术获取学习者的口型发音数据，也面临着实际应用的限制。核磁共振设备的高昂成本使其难以普及，并且当前还不存在一种技术方案，能够在任意给定的跟读文本上实现综合的语音和图像反馈，从而提供多模态的、用户友好的反馈体验。

发明内容

为了解决现有技术在不能够在任意给定的跟读文本上实现综合的语音和图像反馈，从而提供多模态的、用户友好的反馈体验的技术问题，本发明实施例提供了一种大模型发音偏误检测及发音动作图像反馈方法及装置。所述技术方案如下：

一方面，提供了一种大模型发音偏误检测及发音动作图像反馈方法，该方法由大模型发音偏误检测及发音动作图像反馈设备实现，该方法包括：

S1、获取二语学习者音频，将二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列；对实际音素序列进行错误识别处理，获得错误发音；

S2、构建知识图谱，通过知识图谱对错误发音进行对应正确发音的搜索，获得反馈信息；

S3、将反馈信息输入至大语言模型中，获得反馈文本；

S4、预设正确发音的口型图片，基于正确发音的口型图片通过图生图技术生成对应的发音口型图像；

S5、将反馈文本和发音口型图像综合反馈给二语学习者，完成大模型发音偏误检测及发音动作图像反馈。

可选地，S1中，获取二语学习者音频，将二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列，包括：

获取二语学习者音频；

构建发音偏误模型，通过预设的标准跟读文本对发音偏误模型进行训练，获得训练好的发音偏误模型，

将二语学习者音频输入至训练好的发音偏误模型中，输出二语学习者的实际音素，实际音素包括正确发音和错误发音。

可选地，S1中，对实际音素序列进行错误识别处理，获得错误发音，包括：

获取实际音素序列，通过维特比算法，从实际音素序列中的正确音素和实际音素中，识别存在的发音错误的音素，获得错误发音。

可选地，步骤S2中，构建知识图谱，通过知识图谱对错误发音进行对应正确发音的搜索，获得反馈信息，包括：

识别并获取错误发音；

构建知识图谱，知识图谱包括中文声母、中文韵母，以及每个中文声母中文韵母的发音属性；

通过知识图谱对错误发音进行对应正确发音的搜索，获得反馈信息。

可选地，步骤S3中，将反馈信息输入至大语言模型中，获得反馈文本，包括：

将反馈信息输入至大语言模型中，通过大语言模型对反馈信息进行润色和总结，生成反馈文本。

可选地，S4中，预设正确发音的口型图片，基于正确发音的口型图片通过图生图技术生成对应的发音口型图像，包括：

预设声韵母的口型图片，从口型图片中提取关键的图像轮廓信息；

添加知识图谱中与口型图片的发音细节相关的文本描述，生成发音口型图片。

可选地，将反馈文本和发音口型图像综合反馈给二语学习者，完成大模型发音偏误检测及发音动作图像反馈，包括：

获取反馈信息以及发音口型图像；

将反馈信息和发音口型图像综合发送至展示页面端；

二语学习者获取发音偏误情况及后续发音练习方向，完成大模型发音偏误检测及发音动作图像反馈。

另一方面，提供了一种大模型发音偏误检测及发音动作图像反馈装置，该装置应用于大模型发音偏误检测及发音动作图像反馈方法，该装置包括：

发音偏误识别模块，用于获取二语学习者音频，将二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列；对实际音素序列进行错误识别处理，获得错误发音；

知识图谱模块，用于构建知识图谱，通过知识图谱对错误发音进行对应正确发音的搜索，获得反馈信息；

反馈文本生成模块，用于将反馈信息输入至大语言模型中，获得反馈文本；

图生图模块，用于预设正确发音的口型图片，基于正确发音的口型图片通过图生图技术生成对应的发音口型图像；

综合反馈模块，用于将反馈文本和发音口型图像综合反馈给二语学习者，完成大模型发音偏误检测及发音动作图像反馈。

另一方面，提供一种大模型发音偏误检测及发音动作图像反馈设备，所述大模型发音偏误检测及发音动作图像反馈设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上述大模型发音偏误检测及发音动作图像反馈方法中的任一项方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述大模型发音偏误检测及发音动作图像反馈方法中的任一项方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明提出了一种创新的基于知识图谱检索的大语言模型发音偏误检测及发音动作图像反馈方法。此方法的核心在于，它能够自动生成针对任意跟读文本的发音动作反馈，包括文本和图像信息，而无需依赖预先编写的反馈内容。这一创新解决了现有技术中的两大主要问题：一是显著降低了对专业语音人员的依赖，从而减少了人力成本；二是突破了仅限于特定跟读文本的限制，实现了更广泛应用的可能性。此外，通过结合文字和图像反馈，本技术为二语学习者提供了一种更全面、直观的学习体验，从而在提高学习效率和发音准确性方面具有显著优势。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种大模型发音偏误检测及发音动作图像反馈方法流程图；

图2是本发明实施例提供的知识图谱搜索结果图；

图3是本发明实施例提供的大语言模型润色图；

图4是本发明实施例提供的图生图效果图；

图5是本发明实施例提供的一种大模型发音偏误检测及发音动作图像反馈装置框图；

图6是本发明实施例提供的一种大模型发音偏误检测及发音动作图像反馈设备的结构示意图。

具体实施方式

下面结合附图，对本发明中的技术方案进行描述。

在本发明实施例中，“示例地”、“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。此外，在本发明实施例中，“和/或”所表达的含义可以是两者都有，或者可以是两者任选其一。

本发明实施例中，“图像”，“图片”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。“的(of)”，“相应的(corresponding，relevant)”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本发明实施例中，有时候下标如W1可能会笔误为非下标的形式如W1，在不强调其区别时，其所要表达的含义是一致的。

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种大模型发音偏误检测及发音动作图像反馈方法，该方法可以由大模型发音偏误检测及发音动作图像反馈设备实现，该大模型发音偏误检测及发音动作图像反馈设备可以是终端或服务器。如图1所示的大模型发音偏误检测及发音动作图像反馈方法流程图；该方法的处理流程可以包括如下的步骤：

S101、获取二语学习者音频，将二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列；对实际音素序列进行错误识别处理，获得错误发音；

一种可行的实施方式中，S101中，获取二语学习者音频，将二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列，包括：

获取二语学习者音频；

一种可行的实施方式中，S101中，对实际音素序列进行错误识别处理，获得错误发音，包括：

一种可行的实施方式中，初始步骤涉及对二语学习者的音频输入进行处理。音频首先被送入一个高效的发音偏误模型，该模型负责识别学习者的实际音素。随后，这些音素与标准跟读文本中的正确音素进行对比，以便识别出潜在的发音错误。本技术通过借助发音偏误模型检测的结果，从而可以识别出任何跟读文本的发音错误，对比基于有限状态自动机的方法通过建模预先设定的偏误路径，并不能为任意跟读文本提供偏误反馈。现有也有基于发音偏误模型的反馈系统，但是现有基于发音偏误的系统只能告诉二语学习者哪读错了，而给不出具体的改正方法。

一种可行的实施方式中，本发明通过以下示例阐释维特比算法的应用：

获取一段阅读文本“robbery bribery fraud”，并提供了其正确和实际的音素序列。

正确音素：“sil r aa b er iy b r ay b er iysil f r ao d sil”实际音素：“sil r aa b er iy b l ao b er iysil f r ao d sil”

算法的目标是通过将实际音素序列与正确序列对比来识别错误发音。在这个例子中，发音错误发生在正确音素序列中是'r ay'(在单词“bribery”中)，而实际音素序列中则为'l ao'。

逐步计算过程如下：

1.根据模型中定义的状态(音素)和转移概率，初始化概率矩阵。

2.对实际音素序列中的每个音素，计算从前一状态转移到当前音素的概率，同时考虑到观察到的音素的可能性。

3.填充完概率矩阵后，从最后一个音素开始回溯，以追踪最可能的状态序列。

该算法将检测到最可能的音素序列在发音错误的地方偏离，即在应为'r ay'的地方变成了'l ao'。这种偏离被标记为发音错误。

这个例子展示了本发明如何在系统中应用维特比算法，通过比较预期音素序列与实际发音序列来检测发音错误。

S102、构建知识图谱，通过知识图谱对错误发音进行对应正确发音的搜索，获得反馈信息；

一种可行的实施方式中，步骤S102中，构建知识图谱，通过知识图谱对错误发音进行对应正确发音的搜索，获得反馈信息，包括：

识别并获取错误发音；

一种可行的实施方式中，一旦识别出可能的发音错误，系统便会利用知识图谱来搜索错误音素的正确发音方法。这一知识图谱针对中文声韵母，包含丰富的实体信息，例如每个声韵母的具体发音(sound属性)和相关的发音反馈(feedback属性)。通过这种方法，系统可以准确地找到每个错误音素的改进方案。如图2给出了知识图谱搜索结果的图片。本发明通过在知识图谱查找错误音素的正确读法，从而可以给予二语学习者改正的具体反馈。

一种可行的实施方式中，通过知识图谱，系统能够根据实际音素识别结果查询出错音素的正确发音方法。这一技术特征保证了发音反馈的准确性和针对性，为学习者提供更精准的发音指导。

S103、将反馈信息输入至大语言模型中，获得反馈文本；

一种可行的实施方式中，步骤S103中，将反馈信息输入至大语言模型中，获得反馈文本，包括：

一种可行的实施方式中，润色是指对文本进行编辑和调整，使其更加流畅、清晰，易于用户理解。这通常包括改善语法结构、选择更合适的词汇、调整句子顺序等，以增强文本的可读性和吸引力。

一种可行的实施方式中，总结是指提取文本的主要内容和关键信息，形成简洁、精炼的表述。在本发明中，总结可以指根据一系列具体的反馈(例如，发音错误的反馈文本)，分析并提取出共性错误，从而使反馈更加集中和高效。

一种可行的实施方式中，从知识图谱中提取的反馈信息被整合并送至一个大型语言模型，如GPT-4。这个环节的目的是对原始文本进行润色和总结，使之变得更加符合用户需求和友好。如图3是语言模型润色后的结果。

S104、预设正确发音的口型图片，基于正确发音的口型图片通过图生图技术生成对应的发音口型图像；

一种可行的实施方式中，S104中，预设正确发音的口型图片，基于正确发音的口型图片通过图生图技术生成对应的发音口型图像，包括：

一种可行的实施方式中，由于直接从从文本生成口型图像，目前的模型训练数据过于稀疏，直接文本生成的效果并不好。本发明使用图生图的技术，提前做好一些声韵母的口型图片，然后从输入图片中提取关键的图像轮廓信息，再添加细节的文本描述，生成想要的口型图片。如图4是本发明实现的图像效果。

S105、将反馈文本和发音口型图像综合反馈给二语学习者，完成大模型发音偏误检测及发音动作图像反馈。

一种可行的实施方式中，S105中，将反馈文本和发音口型图像综合反馈给二语学习者，完成大模型发音偏误检测及发音动作图像反馈，包括：

获取反馈信息以及发音口型图像；

将反馈信息和发音口型图像综合发送至展示页面端；

一种可行的实施方式中，本发明的反馈方式具有跨文本通用性：本发明实现了对任意跟读文本的发音动作反馈，不受特定文本内容和类型的限制。这一特点使得学习者可以根据个人需求和兴趣选择任何文本进行发音练习，为其提供更广泛的学习选择。

本发明实施例中，本发明创造性地提供了一种对任意跟读文本都能够进行有效反馈的方案。相较于现有工业界的解决方案，本发明的广泛适用性使其成为一种更为灵活和全面的学习工具。传统方案往往受限于特定跟读文本的范围，而本发明不受文本类型和内容的限制，为二语学习者提供了更加个性化和广泛的学习支持。这一特点使得学习者能够选择自己感兴趣或需要强化的文本，从而更有效地进行发音练习，提高学习效果。

本发明引入了多模态反馈，同时提供文本和图像信息。这种创新的设计使得二语学习者能够以更直观和全面的方式理解和掌握发音技巧。传统的反馈方式主要侧重于文字信息，而本发明通过结合文本和图像信息，为学习者提供了更具体、更形象的发音动作示范。这样的多模态反馈可以在听觉和视觉两个方面同步引导学习者，使其更轻松地理解和模仿正确的发音。通过这一创新，本发明不仅提高了学习效果，还为二语学习者提供了更丰富的学习体验。

本发明实施例中，提出了一种创新的基于知识图谱检索的大语言模型发音偏误检测及发音动作图像反馈方法。此方法的核心在于，它能够自动生成针对任意跟读文本的发音动作反馈，包括文本和图像信息，而无需依赖预先编写的反馈内容。这一创新解决了现有技术中的两大主要问题：一是显著降低了对专业语音人员的依赖，从而减少了人力成本；二是突破了仅限于特定跟读文本的限制，实现了更广泛应用的可能性。此外，通过结合文字和图像反馈，本技术为二语学习者提供了一种更全面、直观的学习体验，从而在提高学习效率和发音准确性方面具有显著优势。

图5是根据一示例性实施例示出的一种大模型发音偏误检测及发音动作图像反馈装置框图，该装置用于大模型发音偏误检测及发音动作图像反馈方法。参照图5，该装置包括发音偏误识别模块310、知识图谱模块320、反馈文本生成模块330、图生图模块340以及综合反馈模块350。为了便于说明，图5仅示出了该全流程可视化装置300的主要部件：

发音偏误识别模块310，用于获取二语学习者音频，将二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列；对实际音素序列进行错误识别处理，获得错误发音；

知识图谱模块320，用于构建知识图谱，通过知识图谱对错误发音进行对应正确发音的搜索，获得反馈信息；

反馈文本生成模块330，用于将反馈信息输入至大语言模型中，获得反馈文本；

图生图模块340，用于预设正确发音的口型图片，基于正确发音的口型图片通过图生图技术生成对应的发音口型图像；

综合反馈模块350，用于将反馈文本和发音口型图像综合反馈给二语学习者，完成大模型发音偏误检测及发音动作图像反馈。

可选地，发音偏误识别模块310，用于获取二语学习者音频；

可选地，发音偏误识别模块310，用于获取实际音素序列，通过维特比算法，从实际音素序列中的正确音素和实际音素中，识别存在的发音错误的音素，获得错误发音。

可选地，知识图谱模块320，用于识别并获取错误发音；

可选地，反馈文本生成模块330，用于将反馈信息输入至大语言模型中，通过大语言模型对反馈信息进行润色和总结，生成反馈文本。

可选地，图生图模块340，用于预设声韵母的口型图片，从口型图片中提取关键的图像轮廓信息；

可选地，综合反馈模块350，用于获取反馈信息以及发音口型图像；

将反馈信息和发音口型图像综合发送至展示页面端；

本发明实现了对任意跟读文本的发音动作反馈，不受特定文本内容和类型的限制。这一特点使得学习者可以根据个人需求和兴趣选择任何文本进行发音练习，为其提供更广泛的学习选择。通过知识图谱，系统能够根据实际音素识别结果查询出错音素的正确发音方法。这一技术特征保证了发音反馈的准确性和针对性，为学习者提供更精准的发音指导。通过结合文本和图像信息，为学习者提供了更具体、更形象的发音动作示范。这样的多模态反馈可以在听觉和视觉两个方面同步引导学习者，使其更轻松地理解和模仿正确的发音。通过这一创新，本发明不仅提高了学习效果，还为二语学习者提供了更丰富的学习体验。

图6是本发明实施例提供的一种大模型发音偏误检测及发音动作图像反馈设备的结构示意图，如图6所示，大模型发音偏误检测及发音动作图像反馈设备可以包括上述图5所示的大模型发音偏误检测及发音动作图像反馈装置。可选地，大模型发音偏误检测及发音动作图像反馈设备410可以包括处理器2001。

可选地，大模型发音偏误检测及发音动作图像反馈设备410还可以包括存储器2002和收发器2003。

其中，处理器2001与存储器2002以及收发器2003，如可以通过通信总线连接。

下面结合图6对大模型发音偏误检测及发音动作图像反馈设备410的各个构成部件进行具体的介绍：

其中，处理器2001是大模型发音偏误检测及发音动作图像反馈设备410的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器2001是一个或多个中央处理器(central processing unit，CPU)，也可以是特定集成电路(applicationspecific integrated circuit，ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)。

可选地，处理器2001可以通过运行或执行存储在存储器2002内的软件程序，以及调用存储在存储器2002内的数据，执行大模型发音偏误检测及发音动作图像反馈设备410的各种功能。

在具体的实现中，作为一种实施例，处理器2001可以包括一个或多个CPU，例如图6中所示出的CPU0和CPU1。

在具体实现中，作为一种实施例，大模型发音偏误检测及发音动作图像反馈设备410也可以包括多个处理器，例如图6中所示的处理器2001和处理器2004。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

其中，所述存储器2002用于存储执行本发明方案的软件程序，并由处理器2001来控制执行，具体实现方式可以参考上述方法实施例，此处不再赘述。

可选地，存储器2002可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器2002可以和处理器2001集成在一起，也可以独立存在，并通过大模型发音偏误检测及发音动作图像反馈设备410的接口电路(图6中未示出)与处理器2001耦合，本发明实施例对此不作具体限定。

收发器2003，用于与网络设备通信，或者与终端设备通信。

可选地，收发器2003可以包括接收器和发送器(图6中未单独示出)。其中，接收器用于实现接收功能，发送器用于实现发送功能。

可选地，收发器2003可以和处理器2001集成在一起，也可以独立存在，并通过大模型发音偏误检测及发音动作图像反馈设备410的接口电路(图6中未示出)与处理器2001耦合，本发明实施例对此不作具体限定。

需要说明的是，图6中示出的大模型发音偏误检测及发音动作图像反馈设备410的结构并不构成对该路由器的限定，实际的知识结构识别设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，大模型发音偏误检测及发音动作图像反馈设备410的技术效果可以参考上述方法实施例所述的大模型发音偏误检测及发音动作图像反馈方法的技术效果，此处不再赘述。

应理解，在本发明实施例中的处理器2001可以是中央处理单元(centralprocessing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本发明实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random accessmemory，RAM)可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件(如电路)、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本发明中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种大模型发音偏误检测及发音动作图像反馈方法，其特征在于，所述方法包括：

S1、获取二语学习者音频，将所述二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列；对所述实际音素序列进行错误识别处理，获得错误发音；

S2、构建知识图谱，通过所述知识图谱对所述错误发音进行对应正确发音的搜索，获得反馈信息；

S3、将所述反馈信息输入至大语言模型中，获得反馈文本；

S4、预设正确发音的口型图片，基于所述正确发音的口型图片通过图生图技术生成对应的发音口型图像；

S5、将所述反馈文本和发音口型图像综合反馈给所述二语学习者，完成大模型发音偏误检测及发音动作图像反馈。

2.根据权利要求1所述的方法，其特征在于，所述S1中，获取二语学习者音频，将所述二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列，包括：

获取二语学习者音频；

构建发音偏误模型，通过预设的标准跟读文本对所述发音偏误模型进行训练，获得训练好的发音偏误模型，

将所述二语学习者音频输入至训练好的发音偏误模型中，输出二语学习者的实际音素，所述实际音素包括正确发音和错误发音。

3.根据权利要求1所述的方法，其特征在于，所述S1中，对所述实际音素序列进行错误识别处理，获得错误发音，包括：

获取实际音素序列，通过维特比算法，从所述实际音素序列中的正确音素和实际音素中，识别存在的发音错误的音素，获得错误发音。

4.根据权利要求2所述的方法，其特征在于，所述步骤S2中，构建知识图谱，通过所述知识图谱对所述错误发音进行对应正确发音的搜索，获得反馈信息，包括：

识别并获取错误发音；

构建知识图谱，所述知识图谱包括中文声母、中文韵母，以及每个中文声母中文韵母的发音属性；

通过所述知识图谱对所述错误发音进行对应正确发音的搜索，获得反馈信息。

5.根据权利要求3所述的方法，其特征在于，所述步骤S3中，将所述反馈信息输入至大语言模型中，获得反馈文本，包括：

将所述反馈信息输入至大语言模型中，通过大语言模型对所述反馈信息进行润色和总结，生成反馈文本。

6.根据权利要求5所述的方法，其特征在于，所述S4中，预设正确发音的口型图片，基于所述正确发音的口型图片通过图生图技术生成对应的发音口型图像，包括：

预设声韵母的口型图片，从所述口型图片中提取关键的图像轮廓信息；

添加知识图谱中与所述口型图片的发音细节相关的文本描述，生成发音口型图片。

7.根据权利要求6所述的方法，其特征在于，所述将所述反馈文本和发音口型图像综合反馈给所述二语学习者，完成大模型发音偏误检测及发音动作图像反馈，包括：

获取反馈信息以及发音口型图像；

将所述反馈信息和发音口型图像综合发送至展示页面端；

所述二语学习者获取发音偏误情况及后续发音练习方向，完成大模型发音偏误检测及发音动作图像反馈。

8.一种大模型发音偏误检测及发音动作图像反馈装置，其特征在于，所述装置包括：

发音偏误识别模块，用于获取二语学习者音频，将所述二语学习者音频输入至发音偏误模型中，输出二语学习者的实际音素序列；对所述实际音素序列进行错误识别处理，获得错误发音；

知识图谱模块，用于构建知识图谱，通过所述知识图谱对所述错误发音进行对应正确发音的搜索，获得反馈信息；

反馈文本生成模块，用于将所述反馈信息输入至大语言模型中，获得反馈文本；

图生图模块，用于预设正确发音的口型图片，基于所述正确发音的口型图片通过图生图技术生成对应的发音口型图像；

综合反馈模块，用于将所述反馈文本和发音口型图像综合反馈给所述二语学习者，完成大模型发音偏误检测及发音动作图像反馈。

9.一种大模型发音偏误检测及发音动作图像反馈设备，其特征在于，所述大模型发音偏误检测及发音动作图像反馈设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。