CN110795927A

CN110795927A - n-gram语言模型读取方法、装置、电子设备及存储介质

Info

Publication number: CN110795927A
Application number: CN201911003725.5A
Authority: CN
Inventors: 郭震; 陈孝良; 冯大航; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-14
Anticipated expiration: 2039-10-18
Also published as: CN110795927B

Abstract

一种n‑gram语言模型读取方法，应用于计算机技术领域，包括：将原始语言模型按照元等级进行拆分，得到多个元等级不同的元文法模型，在元等级相邻的两个元文法模型之间建立连接，根据相邻两个元文法模型之间建立的连接关系，读取原始语言模型。本申请还公开了一种n‑gram语言模型读取装置、电子设备及存储介质，按照元等级对语音模型进行拆分和连接，从而按照词元数量对语音模型分别进行读取，减少了读取时内存的占用，降低大语言模型读取的内存占用率，避免同时一次读取整个模型导致的内存占用过大，或无法读取的现象出现。

Description

n-gram语言模型读取方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种n-gram语言模型读取方法、装置、电子设备及存储介质。

背景技术

语言模型是自然语言处理的基础，尤其在基于统计模型的语音识别、机器翻译、汉语自动分词和句法分析等相关研究中得到了广泛应用，其用来预测字符(词)序列产生概率的模型，即假设当前词出现的概率只依赖于前n-1个词，计算得到的语句概率分布建模被称为n-gram语言模型。目前主要采用的是n元语言模型(n-gram model)，这种模型构建简单、直接。在实际应用中，n的取值通常为1、2或3。

发明内容

本申请的主要目的在于提供一种n-gram语言模型读取方法、装置、电子设备及存储介质，旨在解决现有技术中因n元语言模型整体读取而引起的内存占用过大，模型无法使用的问题。

为实现上述目的，本申请实施例第一方面提供一种n-gram语言模型读取方法，包括：

将原始语言模型按照元等级进行拆分，得到多个元等级不同的元文法模型；

在元等级相邻的两个元文法模型之间建立连接；

根据相邻两个元文法模型之间建立的连接关系，读取所述原始语言模型。

本申请实施例第二方面提供一种n-gram语言模型读取装置，包括：

拆分模块，用于将原始语言模型按照元等级进行拆分，得到多个元等级不同的元文法模型；

建立模块，用于在元等级相邻的两个元文法模型之间建立连接；

读取模块，用于根据相邻两个元文法模型之间建立的连接关系，读取所述原始语言模型。

本申请实施例第三方面提供了一种电子设备，包括：

存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本申请实施例第一方面提供的n-gram语言模型读取方法。

本申请实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例第一方面提供的n-gram语言模型读取方法。

从上述本申请实施例可知，本申请提供的n-gram语言模型读取方法、装置、电子设备及存储介质，将原始语言模型按照元等级进行拆分，得到多个元等级不同的元文法模型，在元等级相邻的两个元文法模型之间建立连接，根据相邻两个元文法模型之间建立的连接关系，读取原始语言模型，按照元等级对语音模型进行拆分和连接，从而按照词元数量对语音模型分别进行读取，减少了读取时内存的占用，降低大语言模型读取的内存占用率，避免同时一次读取整个模型导致的内存占用过大，或无法读取的现象出现。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的n-gram语言模型读取方法的流程示意图；

图2为本申请一实施例提供的n-gram语言模型读取方法中连接建立的流程示意图；

图3为本申请一实施例提供的n-gram语言模型读取方法中模型读取的流程示意图；

图4为本申请一实施例提供的n-gram语言模型读取装置的结构示意图；

图5为本申请一实施例提供的n-gram语言模型读取装置中建立模块的结构示意图；

图6为本申请一实施例提供的n-gram语言模型读取装置中读取模块的结构示意图；

图7示出了一种电子设备的硬件结构示意图。

具体实施方式

为使得本申请的申请目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请一实施例提供的n-gram语言模型读取方法的流程示意图，该方法可应用于电子设备中，电子设备包括：手机、平板电脑、手提电脑、智能手表、智能眼镜等可在移动中进行数据处理的电子装置以及台式计算机、一体机、智能电视机等非可在移动中进行数据处理的电子装置，该方法主要包括以下步骤：

S101、将原始语言模型按照元等级进行拆分，得到多个元等级不同的元文法模型；

语言模型是指用来预测字符(词)序列产生概率的模型。

n元语法(n-gram)指文本中连续出现的n个语词。

n元语法模型，又称n-gram语言模型，是基于(n-1)阶马尔可夫链的一种概率语言模型，通过n个语词出现的概率来推断语句的结构，n的取值一般为1、2或3。当n分别为1、2、3时，又分别称为一元文法(unigram)、二元文法(bigram)与三元文法(trigram)。

本申请其中一个实施例中，元等级即指n，将原始语言模型按照元等级进行拆分后，得到一元文法模型、二元文法模型和三元文法模型。

其中，按文法拆分后的各模型，其格式仍然为Arpa格式的模型，即模型每行分别为词概率、词组、后备值，示例性的，Arpa格式的一元文法模型为：prob word1 backoff。Arpa格式的二元文法模型为：prob word1 word2 backoff。Arpa格式的三元文法模型为：probword1 word2 word3 backoff。

一元文法模型(unigram model)，表示一个词出现的概率与历史词无关。

二元文法模型(bigram model)，表示一个词出现的概率仅与它前一个历史词有关。

三元文法模型(Trigram model)，表示一个词出现的概率仅与它前两个历史词有关。

S102、在元等级相邻的两个元文法模型之间建立连接；

将一元文法模型、二元文法模型和三元文法模型之间建立连接，具体的，在一元文法模型、二元文法模型之间建立连接，以及，在二元文法模型和三元文法模型之间建立连接。

在本申请其中一个实施例中，步骤S102之前还包括：按照预置字典中词的顺序，对所有元文法模型中的词进行排序，并记录词概率和后备值。可理解的，即对步骤S101中得到的Arpa格式的各模型中记录的词组，按照预置字典中词的顺序进行排序。示例性的，预置词典中词的顺序依次为word1 word2 word3，而当前二元文法模型中词的排列为word2word1，则按照word2和word1在预置词典中的排序，对该二元文法模型中的词进行重新排序为word1 word2。同时，按照Arpa格式记录word1 word2的词概率和后备值。

在本申请其中一个实施例中，请参阅图2，步骤S102包括：

S1021、获取当前词；

由于当前词所在的一元文法模型没有上一级元文法模型，故当前词是指二元文法模型和三元文法模型中存储的词，其中，词是指具有实际含义的字，<S>和</S>不属于词。

在本申请其中一个实施例中，当当前词属于该二元文法模型时，该当前词为该二元文法模型的首个词，示例性的，在二元文法模型prob word1 word2 backoff中，当前词为word1，在三元文法模型prob<S>word1 backoff中，由于<S>不属于词，当前词仍为word1。当当前词属于该三元文法模型时，该当前词为该三元文法模型的前两个词。示例性的，在三元文法模型prob word1 word2 word3 backoff中，当前词为word1 word2。

S1022、在该当前词所在的元文法模型的上一级元文法模型中查找该当前词；

示例性的，当当前词在二元文法模型中时，在一元文法模型中查找该当前词。当当前词在三元文法模型中时，在二元文法模型中查找该当前词。具体查找方式本申请实施例不做具体限制，可以为在其上一级原文法模型中随机查找，或按照递归法依次进行查找，或按照预设查找规则进行查找，例如，从前至后进行查找、从中间往两侧进行查找等。

S1023、建立该元文法模型中该当前词指向该上一级元文法模型中该当前词的指针；

由n-gram语言模型可知，如果一个n元词存在，则其“历史”词也存在，示例性的，如果“A B C”是存在的，则“A B”也是存在的，“A B”即为“A B C”的“历史”词。因此，对于一元文法模型以外的二元文法模型和三元文法模型，可以在对应的上一级元文法模型中查找到当前词。示例性的，模型语句为：我有一个梦想，其在一元文法模型中：

\1-grams：

Prob1 <S> backoff1

Prob2 我 backoff2

Prob3 有 backoff3

Prob4 一个 backoff4

Prob5 梦想 backoff5

Prob6 </S> backoff6

其在二元文法模型中：

\2-grams：

Prob7 <S> 我 backoff7

Prob8 我有 backoff8

Prob9 有一个 backoff9

Prob10 一个梦想 backoff10

Prob11 梦想 </S> backoff11

其在三元文法模型中：

\3-grams：

Prob12 <S> 我有 backoff12

Prob13 我有一个 backoff13

Prob14 有一个梦想 backoff14

Prob15 一个梦想 </S> backoff15

Prob16 梦想 </S> </S> backoff15

故在上述示例中，在各二元文法模型内的当前词分别为我、我、有、一个、梦想，依次建立二元文法模型中指向一元文法模型中对应词的指针。类似的，在各三元文法模型内的当前词分别为我有、我有、有一个、一个梦想、梦想</S>，依次建立三元文法模型中指向二元文法模型中对应词的指针。

S1024、获取下一当前词，执行步骤S1022，直至该元文法模型中所有当前词均建立与上一级元文法模型中对应当前词的指针；

S103、根据相邻两个元文法模型之间建立的连接关系，读取该原始语言模型。

在本申请其中一个实施例中，请参阅图3，步骤S103还包括：

S1031、根据各元文法模型中的词指向对应上一级元文法模型中相同词的指针，拼接相邻两个元文法模型；

可理解的，即拼接一元文法模型和二元文法模型，二元文法模型和三元文法模型。

S1032、按元等级由低至高依次读取元文法模型。

可理解的，依次按照一元文法模型、二元文法模型和三元文法模型的顺序进行读取。

在本申请实施例中，将原始语言模型按照元等级进行拆分，得到多个元等级不同的元文法模型，在元等级相邻的两个元文法模型之间建立连接，根据相邻两个元文法模型之间建立的连接关系，读取原始语言模型，按照元等级对语音模型进行拆分和连接，从而按照词元数量对语音模型分别进行读取，减少了读取时内存的占用，降低大语言模型读取的内存占用率，避免同时一次读取整个模型导致的内存占用过大，或无法读取的现象出现。

请参阅图4，图4是本申请一实施例提供的n-gram语言模型读取装置的结构示意图，该装置可内置于电子设备中，该装置主要包括：

拆分模块201、建立模块202和读取模块203；

拆分模块201，用于将原始语言模型按照元等级进行拆分，得到多个元等级不同的元文法模型；

建立模块202，用于在元等级相邻的两个元文法模型之间建立连接；

在本申请其中一个实施例中，在元等级相邻的两个元文法模型之间建立连接之前还包括：排序记录模块，用于按照预置字典中词的顺序，对所有元文法模型中的词进行排序，并记录词概率和后备值。可理解的，即对得到的Arpa格式的各模型中记录的词组，按照预置字典中词的顺序进行排序。

读取模块203，用于根据相邻两个元文法模型之间建立的连接关系，读取该原始语言模型。

在本申请其中一个实施例中，请参阅图5，建立模块202包括：

获取子模块2021，用于获取当前词；

在本申请其中一个实施例中，当当前词属于该二元文法模型时，该当前词为该二元文法模型的首个词。当当前词属于该三元文法模型时，该当前词为该三元文法模型的前两个词。

查找子模块2022，用于在该当前词所在的元文法模型的上一级元文法模型中查找该当前词；

建立子模块2023，用于建立该元文法模型中该当前词指向该上一级元文法模型中该当前词的指针；

由n-gram语言模型可知，如果一个n元词存在，则其“历史”词也存在，示例性的，如果“A B C”是存在的，则“A B”也是存在的，“A B”即为“A B C”的“历史”词。因此，对于一元文法模型以外的二元文法模型和三元文法模型，可以在对应的上一级元文法模型中查找到当前词。

获取子模块2021，还用于获取下一当前词，执行在该当前词所在的元文法模型的上一级元文法模型中查找该当前词的步骤，直至该元文法模型中所有当前词均建立与上一级元文法模型中对应当前词的指针。

在本申请其中一个实施例中，请参阅图6，读取模块203包括：

拼接子模块2031，用于根据各元文法模型中的词指向对应上一级元文法模型中相同词的指针，拼接相邻两个元文法模型；

读取子模块2032，用于按元等级由低至高依次读取元文法模型。

在本申请实施例中，将原始语言模型按照元等级进行拆分，得到多个元等级不同的元文法模型，在元等级相邻的两个元文法模型之间建立连接，根据相邻两个元文法模型之间建立的连接关系，读取该原始语言模型，按照元等级对语音模型进行拆分和连接，从而按照词元数量对语音模型分别进行读取，减少了读取时内存的占用，降低大语言模型读取的内存占用率，避免同时一次读取整个模型导致的内存占用过大，或无法读取的现象出现。

进一步的，该电子装置包括：存储器、处理器及存储在所存储器上并可在该处理器上运行的计算机程序，该处理器执行所述计算机程序时，实现如前述图1至图3所示实施例中描述的n-gram语言模型读取方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的电子装置中，该计算机可读存储介质可以是上述各实施例中设置在主控芯片和数据采集芯片中的存储单元。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现前述图1至图3所示实施例中描述的n-gram语言模型读取方法。

示例性的，电子装置可以为移动或便携式并执行无线通信的各种类型的计算机系统设备中的任何一种。具体的，电子装置可以为移动电话或智能电话(例如，基于iPhoneTM，基于Android TM的电话)，便携式游戏设备(例如Nintendo DS TM，PlayStationPortable TM，Gameboy Advance TM，iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐播放器以及数据存储设备，其他手持设备以及诸如手表、耳机、吊坠、耳机等，电子装置还可以为其他的可穿戴设备(例如，诸如电子眼镜、电子衣服、电子手镯、电子项链、电子纹身、电子设备或智能手表的头戴式设备(HMD))。

电子装置还可以是多个电子设备中的任何一个，多个电子设备包括但不限于蜂窝电话、智能电话、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐记录器、录像机、照相机、其他媒体记录器、收音机、医疗设备、车辆运输仪器、计算器、可编程遥控器、寻呼机、膝上型计算机、台式计算机、打印机、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器，便携式医疗设备以及数码相机及其组合。

在一些情况下，电子装置可以执行多种功能(例如，播放音乐，显示视频，存储图片以及接收和发送电话呼叫)。如果需要，电子装置可以是诸如蜂窝电话、媒体播放器、其他手持设备、腕表设备、吊坠设备、听筒设备或其他紧凑型便携式设备的便携式设备。

如图7所示，电子设备10可以包括控制电路，该控制电路可以包括存储和处理电路30。该存储和处理电路30可以包括存储器，例如硬盘驱动存储器，非易失性存储器(例如闪存或用于形成固态驱动器的其它电子可编程限制删除的存储器等)，易失性存储器(例如静态或动态随机存取存储器等)等，本申请实施例不作限制。存储和处理电路30中的处理电路可以用于控制电子设备10的运转。该处理电路可以基于一个或多个微处理器，微控制器，数字信号处理器，基带处理器，功率管理单元，音频编解码器芯片，专用集成电路，显示驱动器集成电路等来实现。

存储和处理电路30可用于运行电子设备10中的软件，例如互联网浏览应用程序，互联网协议语音(Voice over Internet Protocol，VOIP)电话呼叫应用程序，电子邮件应用程序，媒体播放应用程序，操作系统功能等。这些软件可以用于执行一些控制操作，例如，基于照相机的图像采集，基于环境光传感器的环境光测量，基于接近传感器的接近传感器测量，基于诸如发光二极管的状态指示灯等状态指示器实现的信息显示功能，基于触摸传感器的触摸事件检测，与在多个(例如分层的)显示器上显示信息相关联的功能，与执行无线通信功能相关联的操作，与收集和产生音频信号相关联的操作，与收集和处理按钮按压事件数据相关联的控制操作，以及电子设备10中的其它功能等，本申请实施例不作限制。

电子设备10还可以包括输入-输出电路42。输入-输出电路42可用于使电子设备10实现数据的输入和输出，即允许电子设备10从外部设备接收数据和也允许电子设备10将数据从电子设备10输出至外部设备。输入-输出电路42可以进一步包括传感器32。传感器32可以包括环境光传感器，基于光和电容的接近传感器，触摸传感器(例如，基于光触摸传感器和/或电容式触摸传感器，其中，触摸传感器可以是触控显示屏的一部分，也可以作为一个触摸传感器结构独立使用)，加速度传感器，和其它传感器等。

输入-输出电路42还可以包括一个或多个显示器，例如显示器14。显示器14可以包括液晶显示器，有机发光二极管显示器，电子墨水显示器，等离子显示器，使用其它显示技术的显示器中一种或者几种的组合。显示器14可以包括触摸传感器阵列(即，显示器14可以是触控显示屏)。触摸传感器可以是由透明的触摸传感器电极(例如氧化铟锡(ITO)电极)阵列形成的电容式触摸传感器，或者可以是使用其它触摸技术形成的触摸传感器，例如音波触控，压敏触摸，电阻触摸，光学触摸等，本申请实施例不作限制。

电子设备10还可以包括音频组件36。音频组件36可以用于为电子设备10提供音频输入和输出功能。电子设备10中的音频组件36可以包括扬声器，麦克风，蜂鸣器，音调发生器以及其它用于产生和检测声音的组件。

通信电路38可以用于为电子设备10提供与外部设备通信的能力。通信电路38可以包括模拟和数字输入-输出接口电路，和基于射频信号和/或光信号的无线通信电路。通信电路38中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说，通信电路38中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(Near Field Communication，NFC)的电路。例如，通信电路38可以包括近场通信天线和近场通信收发器。通信电路38还可以包括蜂窝电话收发器和天线，无线局域网收发器电路和天线等。

电子设备10还可以进一步包括电池，电力管理电路和其它输入-输出单元40。输入-输出单元40可以包括按钮，操纵杆，点击轮，滚动轮，触摸板，小键盘，键盘，照相机，发光二极管和其它状态指示器等。

用户可以通过输入-输出电路42输入命令来控制电子设备10的操作，并且可以使用输入-输出电路42的输出数据以实现接收来自电子设备10的状态信息和其它输出。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本申请所提供的n-gram语言模型读取方法、装置、电子设备及存储介质的描述，对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种n-gram语言模型读取方法，其特征在于，包括：

在元等级相邻的两个元文法模型之间建立连接；

2.根据权利要求1所述的n-gram语言模型读取方法，其特征在于，所述在元等级相邻的两个元文法模型之间建立连接包括：

获取当前词；

在所述当前词所在的元文法模型的上一级元文法模型中查找所述当前词；

建立所述元文法模型中所述当前词指向所述上一级元文法模型中所述当前词的指针；

获取下一当前词，执行在所述当前词所在的元文法模型的上一级元文法模型中查找所述当前词的步骤，直至所述元文法模型中所有当前词均建立与上一级元文法模型中对应当前词的指针。

3.根据权利要求2所述的n-gram语言模型读取方法，其特征在于，所述根据相邻两个元文法模型之间建立的连接关系，读取所述原始语言模型包括：

根据各元文法模型中的词指向对应上一级元文法模型中相同词的指针，拼接相邻两个元文法模型；

按元等级由低至高依次读取元文法模型。

4.根据权利要求1任意一项所述的n-gram语言模型读取方法，其特征在于，所述多个元等级不同的元文法模型包括一元文法模型、二元文法模型和三元文法模型。

5.根据权利要求2至4任意一项所述的n-gram语言模型读取方法，其特征在于，当当前词属于所述二元文法模型时，所述当前词为所述二元文法模型的首个词；

当当前词属于所述三元文法模型时，所述当前词为所述三元文法模型的前两个词。

6.根据权利要求1至4任意一项所述的n-gram语言模型读取方法，其特征在于，所述在元等级相邻的两个元文法模型之间建立连接之前，包括：

按照预置字典中词的顺序，对所有元文法模型中的词进行排序，并记录词概率和后备值。

7.一种n-gram语言模型读取装置，其特征在于，包括：

8.根据权利要求7所述的n-gram语言模型读取装置，其特征在于，所述建立模块包括：

获取子模块，用于获取当前词；

查找子模块，用于在所述当前词所在的元文法模型的上一级元文法模型中查找所述当前词；

建立子模块，用于建立所述元文法模型中所述当前词指向所述上一级元文法模型中所述当前词的指针；

所述获取子模块，还用于获取下一当前词，执行在所述当前词所在的元文法模型的上一级元文法模型中查找所述当前词的步骤，直至所述元文法模型中所有当前词均建立与上一级元文法模型中对应当前词的指针。

9.根据权利要求8所述的n-gram语言模型读取装置，其特征在于，所述读取模块包括：

拼接子模块，用于根据各元文法模型中的词指向对应上一级元文法模型中相同词的指针，拼接相邻两个元文法模型；

读取子模块，用于按元等级由低至高依次读取元文法模型。

10.一种电子设备，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至6中的任一项所述的n-gram语言模型读取方法中的各个步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至6中的任一项所述的n-gram语言模型读取方法中的各个步骤。