发明内容
本发明提供一种路径解码方法、装置、计算机设备及存储介质,可以提高通过HMM模型获取最优路径的准确度,解决了HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。
第一方面,本发明实施例提供了一种路径解码方法,所述方法包括:
根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;
采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列;
在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。
在上述实施例中,所述采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列,包括:
根据预先确定的所述各个状态矩阵中当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数,计算所述下一列的各个隐变量对应的路径分数;
根据所述下一列的各个隐变量对应的路径分数确定所述下一列的目标隐变量;将所述下一列设置为所述当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。
在上述实施例中,在所述计算所述下一列的各个隐变量对应的路径分数之前,所述方法还包括:
在预先确定的词典库中查找所述下一列的各个隐变量对应的Tri-gram词组;
若在所述预先确定的词典库中查找到所述Tri-gram词组,将预先设置的第一预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;
若在所述预先确定的词典库中未查找到所述Tri-gram词组,将预先设置的第二预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;其中,所述第二预设分数大于所述第一预设分数100倍以上。
在上述实施例中,所述在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径,包括:
根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序;
根据排序结果在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径。
第二方面,本发明实施例还提供了一种路径解码装置,所述装置包括:确定模块和计算模块;其中,
所述确定模块,根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;
所述计算模块,用于采用分数相加法获取所述N个状态矩阵中各个状态矩阵对应的最优状态序列;
所述确定模块,还用于在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。
在上述实施例中,所述计算模块,具体用于根据预先确定的所述各个状态矩阵中当前列的各个隐变量对应的路径分数确定所述当前列的目标隐变量;根据所述当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数,计算所述下一列的各个隐变量对应的路径分数;根据所述下一列的各个隐变量对应的路径分数确定所述下一列的目标隐变量;将所述下一列设置为所述当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。
在上述实施例中,所述计算模块包括:查找子模块和确定子模块;其中,
所述查找子模块,用于在预先确定的词典库中查找所述下一列的各个隐变量对应的Tri-gram词组;
所述确定子模块,用于若在所述预先确定的词典库中查找到所述Tri-gram词组,将预先设置的第一预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;若在所述预先确定的词典库中未查找到所述Tri-gram词组,将预先设置的第二预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;其中,所述第二预设分数大于所述第一预设分数100倍以上。
在上述实施例中,所述确定模块,具体用于根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序;根据排序结果在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径。
第三方面,本发明实施例提供了一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的路径解码方法。
第四方面,本发明实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述任一实施例所述的路径解码方法。
本发明实施例提出了一种路径解码方法、装置、计算机设备及存储介质,先根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;然后采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列;再在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。也就是说,在本发明的技术方案中,可以采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列。而在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行,无法保证通过HMM模型获取到最优路径的准确度。因此,和现有技术相比,本发明实施例提出的路径解码方法、装置、计算机设备及存储介质,可以提高通过HMM模型获取最优路径的准确度,解决了HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题;并且,本发明实施例的技术方案实现简单方便、便于普及,适用范围更广。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的路径解码方法的流程示意图。如图1所示,路径解码方法可以包括以下步骤:
步骤101、根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数。
在本发明的具体实施例中,计算机设备可以根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数。具体地,计算机设备可以先将待解码短文本划分为若干个短语,确定出若干观测序列;然后对各个短语进行标记,确定出待解码短文本对应的状态矩阵。由于计算机设备可以将待解码短文本划分为若干个短语,而这些短语可能会存在不同的组合情况,每一种组合情况会对应于一个观测序列,每一个观测序列对应于一个状态矩阵,因此,一个待解码短文本就会对应于N个状态矩阵。例如,对于短文本“我想听春天里的故事”,计算机设备可以先将该短文本划分为两个词:“我想听”和“春天里的故事”;然后计算机设备可以将“春天里的故事”标记为“music_name”。此外,计算机设备还可以将该短文本划分为四个词:“我想听”、“春天里”、“的”、“故事”;然后计算机设备可以将“春天里”标记为“story_name”;将“故事”标记为“story_category”,从而确定出该短文本对应的若干观测序列以及该观测序列对应的状态矩阵。再例如,对于短文本“我想听小红帽”,计算机设备可以先将该短文本划分为两个词“我想听”和“小红帽”;然后计算机设备可以将“小红帽”标记为“story_name”、“music_name”和“childsong_name”,从而确定出该观测序列对应的状态矩阵,状态矩阵中每一列包括至少一个状态节点,从首列状态节点向后连接,可以组合出所有可能的状态序列。需要说明的是,在本发明的具体实施例中,各个状态矩阵中的原词,同样作为各个列的隐变量参与运算。
步骤102、采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列。
在本发明的具体实施例中,计算机设备可以采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列。具体地,计算机设备可以根据预先确定的当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的当前目标隐变量到下一列的各个隐变量的转移分数,计算下一列的各个隐变量对应的路径分数;根据下一列的各个隐变量对应的路径分数确定下一列的目标隐变量;将下一列设置为当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。例如,对于短文本“我想听周杰伦的歌东风破”,计算机设备可以先将该短文本划分为六个词:“我”、“想听”、“周杰伦”、“的”、“歌”、“东风破”;然后计算机设备可以将“周杰伦”标记为“Tag1”、“Tag2”、“Tag3”;将“歌”标记为“Tag4”;将“东风破”标记为“Tag5”、“Tag6”。在本发明的具体实施例中,计算机设备在计算下一列的各个隐变量对应的路径分数时,会将3个隐变量为一组去词典库中查找下一列的各个隐变量对应的Tri-gram词组,例如“我想听Tag2”,并逐个向句末进行滑动,直到最后一个结束符截止计算。若在词典库中未查找到下一列的各个隐变量对应的Tri-gram词组,会进行相应惩罚,路径分数增加八万分。
步骤103、在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。
在本发明的具体实施例中,计算机设备可以在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。具体地,计算机设备可以根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序;然后根据排序结果在N个最优状态序列中确定出待解码短文本对应的M个最优路径。
本发明实施例提出的路径解码方法,先根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;然后采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列;再在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。也就是说,在本发明的技术方案中,可以采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列。而在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行,无法保证通过HMM模型获取到最优路径的准确度。因此,和现有技术相比,本发明实施例提出的路径解码方法,可以提高通过HMM模型获取最优路径的准确度,解决了HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题;并且,本发明实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例二
图2为本发明实施例二提供的路径解码方法的流程示意图。如图2所示,路径解码方法可以包括以下步骤:
步骤201、根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数。
在本发明的具体实施例中,计算机设备可以根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数。具体地,计算机设备可以先将待解码短文本划分为若干个短语;然后对各个短语进行标记,确定出待解码短文本对应的状态矩阵。由于计算机设备可以将待解码短文本划分为若干个短语,而这些短语可能会存在不同的组合情况,每一种组合情况会对应于一个观测序列,每一个观测序列对应于一个状态矩阵,因此,一个待解码短文本就会对应于N个状态矩阵。例如,对于短文本“我想听春天里的故事”,计算机设备可以先将该短文本划分为两个词:“我想听”和“春天里的故事”;然后计算机设备可以将“春天里的故事”标记为“music_name”。此外,计算机设备还可以将该短文本划分为四个词:“我想听”、“春天里”、“的”、“故事”;然后计算机设备可以将“春天里”标记为“story_name”;将“故事”标记为“story_category”,从而确定出该短文本对应的若干观测序列以及该观测序列对应的状态矩阵。再例如,对于短文本“我想听小红帽”,计算机设备可以先将该短文本划分为两个词“我想听”和“小红帽”;然后计算机设备可以将“小红帽”标记为“story_name”、“music_name”和“childsong_name”,从而确定出该观测序列对应的状态矩阵,状态矩阵中每一列包括至少一个状态节点,从首列状态节点向后连接,可以组合出所有可能的状态序列。需要说明的是,在本发明的具体实施例中,各个状态矩阵中的原词,同样作为各个列的隐变量参与运算。
步骤202、根据预先确定的当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的当前列的目标隐变量到下一列的各个隐变量的转移分数,计算下一列的各个隐变量对应的路径分数。
在本发明的具体实施例中,当前列可以是各个状态矩阵中任意一列,假设当前列是各个状态矩阵中的第一列,在本步骤中,计算机设备可以根据预先确定的第一列的目标隐变量对应的路径分数和预先确定的第二列的各个隐变量对应的发射分数以及预先确定的第一列的目标隐变量到第二列的各个隐变量的转移分数,计算第二列的各个隐变量对应的路径分数。再假设当前列是各个状态矩阵中的第二列,在本步骤中,计算机设备可以根据预先确定的第二列的目标隐变量对应的路径分数和预先确定的第三列的各个隐变量对应的发射分数以及预先确定的第二列的目标隐变量到第三列的各个隐变量的转移分数,计算第三列的各个隐变量对应的路径分数;以此类推;其中,当前列的各个隐变量对应的路径分数指的是各个状态矩阵中的第一列的目标隐变量到第二列的目标隐变量、第二列的目标隐变量到第三列的目标隐变量、...、到上一列的目标隐变量,再到当前列的各个隐变量组成的路径的分数。
举例说明,假设当前列的目标隐变量为当前列的第四个隐变量,则下一列的各个隐变量对应的路径分数等于当前列的第四个隐变量对应的路径分数和下一列的各个隐变量对应的发射分数以及预先确定的当前列的第四个隐变量到下一列的各个隐变量的转移分数,计算下一列的各个隐变量对应的路径分数。例如,对于短文本“我想听周杰伦的歌东风破”,计算机设备可以先将该短文本划分为“我”、“想听”、“周杰伦”、“的”、“歌”、“东风破”;然后计算机设备可以将“周杰伦”标记为“Tag1”、“Tag2”、“Tag3”;将“歌”标记为“Tag4”;将“东风破”标记为“Tag5”、“Tag6”。在本步骤中,计算机设备首先从当前节点“我”开始,向前查找两个词,并进入词典库查找当前字节片段“我”对应的当前Tri-gram词组,由于在预先确定的词典库中未查找到当前Tri-gram词组,则计算机设备可以将“我”对应的路径分数确定为:发射分数与惩罚分数之和,即:100+80000=80100。然后计算机设备开始计算“想听”对应的路径分数,由于词典库中只存在三元转移概率,计算机设备可以将“想听”对应的路径分数确定为:“我”对应的路径分数、“想听”对应的发射分数与惩罚分数之和,即:80100+100+80000=160200。然后计算机设备开始分别计算P1、“我”—“想听”—“周杰伦”、P2、“我”—“想听”—“Tag1”、P3“我”—“想听”—“Tag2”、P4“我”—“想听”—“Tag3”的路径分数。P1score=160200+80000+100=240300;P2score=160200+81000=241200;P3score=160200+100+1000=161300;P4score=160200+81000=241200。
较佳地,在本发明的具体实施例中,计算机设备在计算下一列的各个隐变量对应的路径分数之前,计算机设备还可以在预先确定的词典库中查找下一列的各个隐变量对应的Tri-gram词组;若计算机设备在预先确定的词典库中查找到Tri-gram词组,则计算机设备可以将预先设置的第一预设分数作为当前列的目标隐变量到下一列的各个隐变量的转移分数;若计算机设备在预先确定的词典库中未查找到Tri-gram词组,则计算机设备可以将预先设置的第二预设分作作为当前列的目标隐变量到下一列的各个隐变量的转移分数;其中,第二预设分数大于第一预设分数100倍以上。需要说明的是,在本发明的具体实施例中,不限定第一预设分数和第二预设分数的取值范围,即满足第二预设分数大于第一预设分数100倍以上即可。较佳地,第一预设分数可以取值为100;第二预设分数可以取值为80000。在本发明的具体实施例中,隐变量的发射分数设置:原词为100,打上标签的为1000。
步骤203、根据下一列的各个隐变量对应的路径分数确定下一列的目标隐变量;将下一列设置为当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。
在本发明的具体实施例中,计算机设备可以根据下一列的各个隐变量对应的路径分数确定下一列的目标隐变量;将下一列设置为当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量。具体地,计算机设备可以在下一列的各个隐变量对应的路径分数中选择一个路径分数最小的隐变量,确定为下一列的目标隐变量。将下一列设置为当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。
步骤204、在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。
在本发明的具体实施例中,计算机设备可以计算机设备可以在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。具体地,计算机设备可以根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序;然后根据排序结果在N个最优状态序列中确定出待解码短文本对应的M个最优路径。这里,状态序列分数表示各个最优状态序列的一个得分,这个得分是根据最终确定出的最优状态序列得到的,分数越小,路径越优。
本发明实施例提出的路径解码方法,先根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;然后采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列;再在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。也就是说,在本发明的技术方案中,可以采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列。而在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行,无法保证通过HMM模型获取到最优路径的准确度。因此,和现有技术相比,本发明实施例提出的路径解码方法,可以提高通过HMM模型获取最优路径的准确度,解决了HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题;并且,本发明实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例三
图3为本发明实施例三提供的路径解码方法的流程示意图。如图3所示,路径解码方法可以包括以下步骤:
步骤301、根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数。
在本发明的具体实施例中,计算机设备可以根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数。具体地,计算机设备可以先将待解码短文本划分为若干个短语;然后对各个短语进行标记,确定出待解码短文本对应的状态矩阵。由于计算机设备可以将待解码短文本划分为若干个短语,而这些短语可能会存在不同的组合情况,每一种组合情况会对应于一个观测序列,每一个观测序列对应于一个状态矩阵,因此,一个待解码短文本就会对应于N个状态矩阵。例如,对于短文本“我想听春天里的故事”,计算机设备可以先将该短文本划分为两个词:“我想听”和“春天里的故事”;然后计算机设备可以将“春天里的故事”标记为“music_name”。此外,计算机设备还可以将该短文本划分为四个词:“我想听”、“春天里”、“的”、“故事”;然后计算机设备可以将“春天里”标记为“story_name”;将“故事”标记为“story_category”,从而确定出该短文本对应的若干观测序列以及该观测序列对应的状态矩阵。再例如,对于短文本“我想听小红帽”,计算机设备可以先将该短文本划分为两个词“我想听”和“小红帽”;然后计算机设备可以将“小红帽”标记为“story_name”、“music_name”和“childsong_name”,从而确定出该观测序列对应的状态矩阵,从首列状态节点向后连接,可以组合出所有可能的状态序列。需要说明的是,在本发明的具体实施例中,各个状态矩阵中的原词,同样作为各个列的隐变量参与运算。
步骤302、根据预先确定的当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的当前列的目标隐变量到下一列的各个隐变量的转移分数,计算下一列的各个隐变量对应的路径分数。
在本发明的具体实施例中,当前列可以是各个状态矩阵中任意一列,假设当前列是各个状态矩阵中的第一列,在本步骤中,计算机设备可以根据预先确定的第一列的目标隐变量对应的路径分数和预先确定的第二列的各个隐变量对应的发射分数以及预先确定的第一列的目标隐变量到第二列的各个隐变量的转移分数,计算第二列的各个隐变量对应的路径分数。再假设当前列是各个状态矩阵中的第二列,在本步骤中,计算机设备可以根据预先确定的第二列的目标隐变量对应的路径分数和预先确定的第三列的各个隐变量对应的发射分数以及预先确定的第二列的目标隐变量到第三列的各个隐变量的转移分数,计算第三列的各个隐变量对应的路径分数;以此类推;其中,当前列的各个隐变量对应的路径分数指的是各个状态矩阵中的第一列的目标隐变量到第二列的目标隐变量、第二列的目标隐变量到第三列的目标隐变量、...、到上一列的目标隐变量,再到当前列的各个隐变量组成的路径的分数。
步骤303、根据下一列的各个隐变量对应的路径分数确定下一列的目标隐变量;将下一列设置为当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。
在本发明的具体实施例中,计算机设备可以根据下一列的各个隐变量对应的路径分数确定下一列的目标隐变量;将下一列设置为当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量。具体地,计算机设备可以在下一列的各个隐变量对应的路径分数中选择一个路径分数最小的隐变量,确定为下一列的目标隐变量。将下一列设置为当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。
步骤304、根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序。
在本发明的具体实施例中,计算机设备可以根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序。具体地,计算机设备可以按照从小到大的顺序将N个最优状态序列进行排序,这里,状态序列分数表示各个最优状态序列的一个得分,这个得分是根据最终确定出的最优状态序列得到的,分数越小,路径越优。
步骤305、根据排序结果在N个最优状态序列中确定出待解码短文本对应的M个最优路径。
在本发明的具体实施例中,计算机设备可以根据排序结果在N个最优状态序列中确定出待解码短文本对应的M个最优路径。具体地,计算机设备可以在N个最优状态序列中确定出M个分数最小的最优状态序列作为待解码短文本对应的M个最优路径。
本发明实施例提出的路径解码方法,先根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;然后采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列;再在N个最优状态序列中确定出待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。也就是说,在本发明的技术方案中,可以采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列。而在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行,无法保证通过HMM模型获取到最优路径的准确度。因此,和现有技术相比,本发明实施例提出的路径解码方法,可以提高通过HMM模型获取最优路径的准确度,解决了HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题;并且,本发明实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例四
图4为本发明实施例四提供的路径解码装置的第一结构示意图。如图4所示,所述装置包括:确定模块401和计算模块402;其中,
所述确定模块401,根据待解码短文本确定出与其对应的N个状态矩阵;其中,N为大于等于1的自然数;
所述计算模块402,用于采用分数相加法获取N个状态矩阵中各个状态矩阵对应的最优状态序列;
所述确定模块401,还用于在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径;其中,M为大于等于1且小于等于N的自然数。
进一步的,所述计算模块402,具体用于根据预先确定的各个状态矩阵中当前列的各个隐变量对应的路径分数确定所述当前列的目标隐变量;根据所述当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数,计算所述下一列的各个隐变量对应的路径分数;根据所述下一列的各个隐变量对应的路径分数确定所述下一列的目标隐变量;将所述下一列设置为所述当前列,重复执行以上操作,直到计算出各个状态矩阵中的最后一列的目标隐变量;其中,各个状态矩阵中的各个列的目标隐变量组成各个状态矩阵对应的一个最优状态序列。
图5为本发明实施例四提供的路径解码装置的第二结构示意图。如图5所示,所述计算模块402包括:查找子模块4021和确定子模块4022;其中,
所述查找子模块4021,用于在预先确定的词典库中查找所述下一列的各个隐变量对应的Tri-gram词组;
所述确定子模块4022,用于若在所述预先确定的词典库中查找到所述Tri-gram词组,将预先设置的第一预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;若在所述预先确定的词典库中未查找到所述Tri-gram词组,将预先设置的第二预设分数作为所述当前列的目标隐变量到所述下一列的各个隐变量的转移分数;其中,所述第二预设分数大于所述第一预设分数100倍以上。
进一步的,所述确定模块401,具体用于根据预先确定的各个最优状态序列对应的状态序列分数将N个最优状态序列进行排序;根据排序结果在N个最优状态序列中确定出所述待解码短文本对应的M个最优路径。
上述路径解码装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的路径解码方法。
实施例五
图6为本发明实施例五提供的计算机设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性计算机设备的框图。图6显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的路径解码方法。
实施例六
本发明实施例六提供了一种计算机存储介质。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或计算机设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。