CN113515952B

CN113515952B - 一种用于蒙古语对话模型联合建模方法、系统及设备

Info

Publication number: CN113515952B
Application number: CN202110949412.XA
Authority: CN
Inventors: 谢秀兰; 香莲; 赵志燕; 龙梅
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2023-09-12
Anticipated expiration: 2041-08-18
Also published as: CN113515952A

Abstract

本发明公开了一种用于蒙古语对话模型联合建模方法，应用于语音对话技术领域，具体步骤包括如下：建立词典库、语法规则库、对话场景分类模型、和目标语言模型；获取蒙古话原始语句，蒙古话原始语句为文本形式；蒙古话原始语句根据词典库和语法规则库进行语句划分，将蒙古话原始语句划分为单词或短语；将单词或短语输入对话场景分类模型中，确定对话场景；根据单词或短语在对话场景中出现的次数确定单词或短语的内容，并输入目标语言模型内根据目标语言的语法规则输出文本。本发明能够保证对于文本形式或语音形式的原始语句的语义识别更加准确；进而语音文本互转模型能够实现语音形式与文本形式的相互转换，大大便利了两种不同语言进行对话通信。

Description

一种用于蒙古语对话模型联合建模方法、系统及设备

技术领域

本发明涉及语音对话技术领域，更具体的说是涉及一种用于蒙古语对话模型联合建模方法、系统及设备。

背景技术

今天世界上一千万左右蒙古族人口使用着传统蒙古文(包括内蒙古的旧蒙古文和新疆的托忒蒙古文)和新蒙古文(或叫斯拉夫蒙古文、西里尔蒙古文，蒙古国和俄罗斯境内蒙古人使用)两种拼音文字。所以，学习蒙古语可以选择其中一种文字或两种文字。随着手机和网络的普及很多人在写手机短信、发电子邮件、网上留言时选择用拉丁文拼写蒙古语的方式，也很方便。

目前，在两种不同语言进行对话通信时，现有的语音对话翻译方法主要是通过语音识别将源语言的语音信号转换为源语言文字，将该源语言文字翻译成目标语言文字，并通过语音合成将该目标语言文字合成为对应的目标语言语音。

在上述现有的语音对话翻译方法中，由于在对源语言文字进行翻译时，将源语言文字中的词汇翻译为对应的目标语言词汇，未考虑对话的话题领域和句型结构，使得语音对话翻译的准确度低。

因此，如何提供一种用于蒙古语对话模型联合建模方法、系统及设备是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种用于蒙古语对话模型联合建模方法、系统及设备，本发明采用对话场景分类模型、目标语言模型、模糊匹配模型和语音文本互转模型进行联合建模，其中利用对话场景分类模型确定对话场景和模糊匹配模型，能够保证对于文本形式或语音形式的原始语句的语义识别更加准确；进而语音文本互转模型能够实现语音形式与文本形式的相互转换，大大便利了两种不同语言进行对话通信。

为了达到上述目的，本发明采用如下技术方案：

一种用于蒙古语对话模型联合建模方法，具体步骤包括如下：

建立词典库、语法规则库、对话场景分类模型、和目标语言模型；

获取蒙古话原始语句，其中所述蒙古话原始语句为文本形式；

所述蒙古话原始语句根据所述词典库和所述语法规则库进行语句划分，将所述蒙古话原始语句划分为单词或短语；

将所述单词或短语输入所述对话场景分类模型中，确定对话场景；

根据所述单词或短语在所述对话场景中出现的次数确定所述单词或所述短语的内容，并输入所述目标语言模型内根据目标语言的语法规则输出文本。

优选的，在上述的一种用于蒙古语对话模型联合建模方法中，还包括语音文本互转模型；所述语音文本互转模型接收的所述蒙古话原始语句，其中所述蒙古话原始语句为语音形式；

识别用户的声纹特征，与预设的声纹特征进行匹配；若匹配，则将语音形式的所述蒙古话原始语句转换成文本形式。

优选的，在上述的一种用于蒙古语对话模型联合建模方法中，还包括模糊匹配模型；所述模糊匹配模型包括：转换模糊匹配子模型和文本模糊匹配子模型；其中，所述转换模糊匹配子模型用于识别用户的声纹特征，与预设的声纹特征不匹配，则从所述转换模糊匹配模型的声纹数据库中调用发音相同或相近的预设声纹特征；所述单词或短语在所述对话场景中出现的次数为零时，所述单词或短语输入所述文本模糊匹配子模型，则从所述文本模糊匹配子模型的文本数据库中调用同义或近义的单词或短语。

优选的，在上述的一种用于蒙古语对话模型联合建模方法中，所述语句划分的具体步骤包括：

确定所述蒙古话原始语句中每个字出现的先后顺序；

根据语法规则进行划分。

优选的，在上述的一种用于蒙古语对话模型联合建模方法中，还包括语义验证；具体步骤包括：

根据所述蒙古话原始语句确定原始语义；

根据语法规则进行划分，划分成不同句子成分的单词或短语；

根据所述单词或短语对应的句子成分进行组合得到第二语义；

所述原始语义与所述第二语义进行比对；

若匹配，则划分正确；

若不匹配，则输入文本模糊匹配子模型进行模糊匹配。

优选的，在上述的一种用于蒙古语对话模型联合建模方法中，所述语音文本互转模型将所述目标语言模型的输出的文本形式的目标语言转换成语音形式。

一种用于蒙古语对话模型联合建模系统，包括：

模型库，用于存储对话场景分类模型、目标语言模型；

数据库，包括词典库、语法规则库；

语句划分模块，将所述蒙古话原始语句调用所述词典库和所述语法规则库进行语句划分模块，将所述蒙古话原始语句划分为单词或短语；

控制器，所述控制器根据所述单词或短语调用所述对话场景分类模型，确定对话场景；

对话输出模块，输出控制器调用目标语言模型得到的目标语言。

优选的，在上述的一种用于蒙古语对话模型联合建模系统中，所述模型库还包括：语音文本互转模型；所述语音文本互转模型根据所述控制器的指令进行语音和文本形式的互相转换。

优选的，在上述的一种用于蒙古语对话模型联合建模系统中，所述数据库还包括：声纹数据库和文本数据库；所述模型库还包括：转换模糊匹配子模型和文本模糊匹配子模型；

其中，所述转换模糊匹配子模型根据所述控制器的指令进行声纹匹配，识别用户的声纹特征，与预设的声纹特征不匹配，则从所述转换模糊匹配模型的声纹数据库中调用发音相同或相近的预设声纹特征；

所述控制器根据所述单词或短语在所述对话场景中出现的次数为零时，所述单词或短语输入所述文本模糊匹配子模型，则从所述文本模糊匹配子模型的文本数据库中调用同义或近义的单词或短语。

一种用于蒙古语对话模型联合建模设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现一种用于蒙古语对话模型联合建模方法的步骤。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种用于蒙古语对话模型联合建模方法、系统及设备，本发明采用对话场景分类模型、目标语言模型、模糊匹配模型和语音文本互转模型进行联合建模，其中利用对话场景分类模型确定对话场景和模糊匹配模型，能够保证对于文本形式或语音形式的原始语句的语义识别更加准确；进而语音文本互转模型能够实现语音形式与文本形式的相互转换，大大便利了两种不同语言进行对话通信。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明的结构框图；

图3为本发明的计算机设备的内部结构图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种用于蒙古语对话模型联合建模方法，如图1所示，具体步骤包括如下：

获取蒙古话原始语句，其中蒙古话原始语句为文本形式；

蒙古话原始语句根据词典库和语法规则库进行语句划分，将蒙古话原始语句划分为单词或短语；

将单词或短语输入对话场景分类模型中，确定对话场景；

根据单词或短语在对话场景中出现的次数确定单词或短语的内容，并输入目标语言模型内根据目标语言的语法规则输出文本。

进一步，对话场景分类模型具体场景分类方法：接收输入的用户对话信息；

基于所述用户对话信息，采用预置的场景识别规则对预置候选场景进行筛选，得到所述用户对话信息对应的第一类候选场景；以及基于所述用户对话信息，采用对话场景分类模型对所述预置候选场景进行筛选，得到所述用户对话信息对应的第二类候选场景；

基于所述第一类候选场景与所述第二类候选场景，对所述用户对话信息进行增强学习处理，得到与所述用户对话信息对应的最优对话场景；

判断所述最优对话场景与当前对话场景是否相同，若不相同，则将所述最优对话场景作为当前对话场景。

例如根据词典库和语法规则库进行语句划分，将蒙古话原始语句划分为：/>由于可能出现的场景是超市、农田或者厨房，再加上其他单词或短语，则可判断最优对话场景为超市。

其中，这三个词在超市场景中均出现多次，目标语言模型根据超市场景中出现的次数确定单词或短语的内容，分别是“白菜”“多少钱”“一斤”，并输入目标语言模型内根据目标语言的语法规则输出：白菜多少钱一斤。

为了进一步优化上述技术方案，还包括语音文本互转模型；语音文本互转模型接收的蒙古话原始语句，其中蒙古话原始语句为语音形式；

识别用户的声纹特征，与预设的声纹特征进行匹配；若匹配，则将语音形式的蒙古话原始语句转换成文本形式。

为了进一步优化上述技术方案，还包括模糊匹配模型；模糊匹配模型包括：转换模糊匹配子模型和文本模糊匹配子模型；其中，转换模糊匹配子模型用于识别用户的声纹特征，与预设的声纹特征不匹配，则从转换模糊匹配模型的声纹数据库中调用发音相同或相近的预设声纹特征；单词或短语在对话场景中出现的次数为零时，单词或短语输入文本模糊匹配子模型，则从文本模糊匹配子模型的文本数据库中调用同义或近义的单词或短语。

为了进一步优化上述技术方案，语句划分的具体步骤包括：

确定蒙古话原始语句中每个字出现的先后顺序；

根据语法规则进行划分。

例如：蒙古话原始语句中出现从句时，可能出现两个主语、两个谓语等，所以要确定每个单词或短语出现的先后顺序。

为了进一步优化上述技术方案，还包括语义验证；具体步骤包括：

根据蒙古话原始语句确定原始语义；

根据单词或短语对应的句子成分进行组合得到第二语义；

原始语义与第二语义进行比对；

若匹配，则划分正确；

若不匹配，则输入文本模糊匹配子模型进行模糊匹配。

为了进一步优化上述技术方案，语音文本互转模型将目标语言模型的输出的文本形式的目标语言转换成语音形式。

一种用于蒙古语对话模型联合建模系统，如图2所示，包括：

模型库，用于存储对话场景分类模型、目标语言模型；

数据库，包括词典库、语法规则库；

语句划分模块，将蒙古话原始语句调用词典库和语法规则库进行语句划分，将蒙古话原始语句划分为单词或短语；

控制器，控制器根据单词或短语调用对话场景分类模型，确定对话场景；

为了进一步优化上述技术方案，模型库还包括：语音文本互转模型；语音文本互转模型根据控制器的指令进行语音和文本形式的互相转换。

为了进一步优化上述技术方案，数据库还包括：声纹数据库和文本数据库；模型库还包括：转换模糊匹配子模型和文本模糊匹配子模型；

其中，转换模糊匹配子模型根据控制器的指令进行声纹匹配，识别用户的声纹特征，与预设的声纹特征不匹配，则从转换模糊匹配模型的声纹数据库中调用发音相同或相近的预设声纹特征；

控制器根据单词或短语在对话场景中出现的次数为零时，单词或短语输入文本模糊匹配子模型，则从文本模糊匹配子模型的文本数据库中调用同义或近义的单词或短语。

一种用于蒙古语对话模型联合建模设备，如图3所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现一种用于蒙古语对话模型联合建模方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于蒙古语对话模型联合建模方法，其特征在于，具体步骤包括如下：建立词典库、语法规则库、对话场景分类模型、和目标语言模型；

根据所述单词或短语在所述对话场景中出现的次数确定所述单词或所述短语的内容，并输入所述目标语言模型内根据目标语言的语法规则输出文本；

所述对话场景分类模型具体场景分类方法：接收输入的用户对话信息；

还包括模糊匹配模型；所述模糊匹配模型包括：转换模糊匹配子模型和文本模糊匹配子模型；其中，所述转换模糊匹配子模型用于识别用户的声纹特征，与预设的声纹特征不匹配，则从所述转换模糊匹配子模型的声纹数据库中调用发音相同或相近的预设声纹特征；所述单词或短语在所述对话场景中出现的次数为零时，所述单词或短语输入所述文本模糊匹配子模型，则从所述文本模糊匹配子模型的文本数据库中调用同义或近义的单词或短语；

所述语句划分的具体步骤包括：

确定所述蒙古话原始语句中每个字出现的先后顺序；

根据语法规则进行划分；

还包括语义验证；具体步骤包括：

根据所述蒙古话原始语句确定原始语义；

所述原始语义与所述第二语义进行比对；

若匹配，则划分正确；

若不匹配，则输入文本模糊匹配子模型进行模糊匹配。

2.根据权利要求1所述的一种用于蒙古语对话模型联合建模方法，其特征在于，还包括语音文本互转模型；所述语音文本互转模型接收的所述蒙古话原始语句，其中所述蒙古话原始语句为语音形式；

3.根据权利要求2所述的一种用于蒙古语对话模型联合建模方法，其特征在于，所述语音文本互转模型将所述目标语言模型的输出的文本形式的目标语言转换成语音形式。

4.一种用于蒙古语对话模型联合建模系统，其特征在于，包括：

模型库，用于存储对话场景分类模型、目标语言模型；

数据库，包括词典库、语法规则库；

语句划分模块，将蒙古话原始语句调用所述词典库和所述语法规则库进行语句划分，将所述蒙古话原始语句划分为单词或短语；

对话输出模块，输出控制器调用目标语言模型得到的目标语言；

所述数据库还包括：声纹数据库和文本数据库；所述模型库还包括：转换模糊匹配子模型和文本模糊匹配子模型；

其中，所述转换模糊匹配子模型根据所述控制器的指令进行声纹匹配，识别用户的声纹特征，与预设的声纹特征不匹配，则从所述转换模糊匹配子模型的声纹数据库中调用发音相同或相近的预设声纹特征；

所述控制器根据所述单词或短语在所述对话场景中出现的次数为零时，所述单词或短语输入所述文本模糊匹配子模型，则从所述文本模糊匹配子模型的文本数据库中调用同义或近义的单词或短语；

所述语句划分的具体步骤包括：

确定所述蒙古话原始语句中每个字出现的先后顺序；

根据语法规则进行划分；

还包括语义验证；具体步骤包括：

根据所述蒙古话原始语句确定原始语义；

所述原始语义与所述第二语义进行比对；

若匹配，则划分正确；

若不匹配，则输入文本模糊匹配子模型进行模糊匹配。

5.根据权利要求4所述的一种用于蒙古语对话模型联合建模系统，其特征在于，所述模型库还包括：语音文本互转模型；所述语音文本互转模型根据所述控制器的指令进行语音和文本形式的互相转换。

6.一种用于蒙古语对话模型联合建模设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。