CN110852101B - 一种路径解码方法、装置、计算机设备及存储介质 - Google Patents

一种路径解码方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110852101B
CN110852101B CN201911076169.4A CN201911076169A CN110852101B CN 110852101 B CN110852101 B CN 110852101B CN 201911076169 A CN201911076169 A CN 201911076169A CN 110852101 B CN110852101 B CN 110852101B
Authority
CN
China
Prior art keywords
column
state
decoded
short text
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911076169.4A
Other languages
English (en)
Other versions
CN110852101A (zh
Inventor
吴开宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Rubu Technology Co ltd
Original Assignee
Shenzhen Rubu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Rubu Technology Co ltd filed Critical Shenzhen Rubu Technology Co ltd
Priority to CN201911076169.4A priority Critical patent/CN110852101B/zh
Publication of CN110852101A publication Critical patent/CN110852101A/zh
Application granted granted Critical
Publication of CN110852101B publication Critical patent/CN110852101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种路径解码方法、装置、计算机设备及存储介质。所述方法包括:根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。本发明实施例的技术方案,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。

Description

一种路径解码方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及文本处理技术领域,尤其涉及一种路径解码方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的不断发展,出现了大量的短信息流,这些信息的数量巨大,但是长度一般都很短,此类信息多被称为短文本。具体地,短文本是指长度非常短,一般在140个字符以内的文本,例如常见的通过移动通信网络发出的手机短消息,通过及时通信软件发出的即时消息,网络日志的评论、互联网新闻的评论等。
在现有的路径解码方法中,通常先通过分词先将原始短文本划分为若干个词;确定出原始短文本对应的至少一个原始文本路径;然后对各个词进行标记;再通过隐马尔可夫模型(Hidden Markov Model,HMM)进行建模,通过维特比算法对HMM模型进行求解,确定出原始短文本对应的最优路径。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行。然而在计算机实际计算过程中路径概率往往远小于1,而计算机存储数据的精度有限无法保证路径概率可靠。以C++语言为例,用double类型存储路径概率,根据编译器的不同有效数字位是15位~16位,例如路径概率为3.24X 10-17则无法用double类型存储;此外,实际应用过程当中,由于很多词不会打上标签,因此转移概率的组合非常多;而考虑到性能问题,转移概率的文件不可能无限增大,很多转移概率并未收录,则路径概率在不断累乘过程中很容易碰到没有转移概率的情况,此时只能以极小的概率来表示无转移概率的情况,因此路径概率会变得更小,使得double类型难以存储。并且,在现有的路径解码方法中,传统方式只能通过维特比算法获取到待解码短文本对应的一个最优路径,而无法获取到待解码短文本对应的N个最优路径。因此,需要通过一定的方式来尽可能地克服这一问题,但是在现有技术中还没有一种有效的解决方式。
发明内容
本发明提供一种路径解码方法、装置、计算机设备及存储介质,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题。
第一方面,本发明实施例提供了一种路径解码方法,所述方法包括:
根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;
根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;
根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。
在上述实施例中,所述根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵,包括:
将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。
在上述实施例中,所述根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径,包括:
将所述状态矩阵的最后一列设置为当前列;根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数;将所述上一列各个状态到所述当前列的其中一个状态的路径分数进行排序;将所述上一列设置为所述当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出所述待解码短文本对应的N个最优路径。
在上述实施例中,所述根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数,包括:
根据所述上一列的各个状态对应节点的发射分数以及所述当前列的上一列的各个节点到所述当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出所述当前列最优状态上一列的Y个候选节点;计算Y个候选节点的各个状态到所述当前列的其中一个状态的路径分数。
第二方面,本发明实施例还提供了一种路径解码装置,所述装置包括:获取模块和确定模块;其中,
所述获取模块,用于根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;
所述确定模块,用于根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。
在上述实施例中,所述确定模块,具体用于将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。
在上述实施例中,所述确定模块包括:计算子模块和确定子模块;其中,
所述计算子模块,用于将所述状态矩阵的最后一列设置为当前列;根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数;
所述确定子模块,用于将所述上一列各个状态到所述当前列的其中一个状态的路径分数进行排序;将所述上一列设置为所述当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出所述待解码短文本对应的N个最优路径。
在上述实施例中,所述确定子模块,具体用于根据所述上一列的各个状态对应节点的发射分数以及所述当前列的上一列的各个节点到所述当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出所述当前列最优状态上一列的Y个候选节点;计算Y个候选节点的各个状态到所述当前列的其中一个状态的路径分数。
第三方面,本发明实施例提供了一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的路径解码方法。
第四方面,本发明实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述任一实施例所述的路径解码方法。
本发明实施例提出了一种路径解码方法、装置、计算机设备及存储介质,先根据待解码短文本,获取待解码短文本对应的节点矩阵;然后根据待解码短文本对应的节点矩阵,确定出待解码短文本对应的状态矩阵;再根据待解码短文本对应的状态矩阵,确定出待解码短文本对应的N个最优路径;其中,N为大于1的自然数。也就是说,在本发明的技术方案中,采用回溯法确定出待解码短文本对应的N个最优路径。而在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行,无法保证通过HMM模型获取到最优路径的准确度;并且,在现有的路径解码方法中,传统方式只能通过维特比算法获取到待解码短文本对应的一个最优路径,而无法获取到待解码短文本对应的N个最优路径。因此,和现有技术相比,本发明实施例提出的路径解码方法、装置、计算机设备及存储介质,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题;并且,本发明实施例的技术方案实现简单方便、便于普及,适用范围更广。
附图说明
图1为本发明实施例一提供的路径解码方法的流程示意图;
图2为本发明实施例一提供的节点矩阵的结构示意图;
图3为本发明实施例一提供的状态矩阵的结构示意图;
图4为本发明实施例二提供的路径解码方法的流程示意图;
图5为本发明实施例三提供的路径解码装置的第一结构示意图;
图6为本发明实施例三提供的路径解码装置的第二结构示意图;
图7是本发明实施例四提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的路径解码方法的流程示意图。如图1所示,路径解码方法可以包括以下步骤:
步骤101、根据待解码短文本,获取待解码短文本对应的节点矩阵。
在本发明的具体实施例中,计算机设备可以根据待解码短文本,获取待解码短文本对应的节点矩阵。例如,对于短文本“我想听春天里的故事”,计算机设备可以先将该短文本划分为两个词:“我想听”和“春天里的故事”;然后计算机设备可以将“春天里的故事”标记为“music_name”。此外,计算机设备还可以将该短文本划分为四个词:“我想听”、“春天里”、“的”、“故事”;然后计算机设备可以将“春天里”标记为“story_name”;将“故事”标记为“story_category”,从而确定出该短文本对应的若干观测序列以及该观测序列对应的节点矩阵。再例如,对于短文本“我想听小红帽”,计算机设备可以先将该短文本划分为两个词“我想听”和“小红帽”;然后计算机设备可以将“小红帽”标记为“story_name”、“music_name”和“childsong_name”,从而确定出该观测序列对应的节点矩阵,节点矩阵中的每一列包括至少一个节点,从首列节点向后连接,可以组合出所有可能的序列。需要说明的是,在本发明的具体实施例中,各个节点矩阵中的原词,同样作为各个列的隐变量参与运算。
较佳地,在本发明的具体实施例中,计算机设备可以将预先设置的起始位所在列设置为当前列,根据当前列的各个隐变量以及预先确定的上一列的状态,获取当前列的状态;然后将当前列的下一列设置为当前列,重复执行上述操作,直到获取到预先设置的结束节点所在列的状态;其中,起始位设置在待解码短文本的句首位置;结束节点设置在待解码短文本的句末位置。
图2为本发明实施例一提供的节点矩阵的结构示意图。如图2所示,节点矩阵可以包括11个节点,分别为:起始节点$、我、想听、叶惠美、节点1(Tag1)、节点2(Tag2)、节点3(Tag3)、节点4(Tag4)、节点5(Tag5)、节点6(Tag6)、结束节点$。根据该节点矩阵可以获取到很多种走法,例如:起始节点$-我-想听-叶惠美-结束节点$、起始节点$-我-想听-Tag5-结束节点$、起始节点$-我-想听-Tag6-结束节点$、起始节点$-我-Tag3-叶惠美-结束节点$、起始节点$-我-Tag3-Tag5-结束节点$、起始节点$-我-Tag3-Tag6-结束节点$、起始节点$-我-Tag4-叶惠美-结束节点$、起始节点$-我-Tag4-Tag5-结束节点$、起始节点$-我-Tag4-Tag6-结束节点$、起始节点$-Tag1-想听-叶惠美-结束节点$、起始节点$-Tag1-想听-Tag5-结束节点$、起始节点$-Tag1-想听-Tag6-结束节点$、起始节点$-Tag1-Tag3-叶惠美-结束节点$、起始节点$-Tag1-Tag3-Tag5-结束节点$、起始节点$-Tag1-Tag3-Tag6-结束节点$。
步骤102、根据待解码短文本对应的节点矩阵,确定出待解码短文本对应的状态矩阵。
在本发明的具体实施例中,计算机设备可以据待解码短文本对应的节点矩阵,确定出待解码短文本对应的状态矩阵。图3为本发明实施例一提供的状态矩阵的结构示意图。如图3所示,该状态矩阵包括18个状态,分别为:状态1(State1)至状态8(State18);每一个状态表示一种走法,它记录当前节点(节点矩阵中的节点),以及上一列State节点(状态矩阵中的节点),以及从起始节点$走到当前节点的路径分数。例如,状态4(State4),它可能由以下节点组成:起始节点$-Tag1-想听。
步骤103、根据待解码短文本对应的状态矩阵,确定出待解码短文本对应的N个最优路径;其中,N为大于1的自然数。
在本发明的具体实施例中,计算机设备可以根据待解码短文本对应的状态矩阵,确定出待解码短文本对应的N个最优路径;其中,N为大于1的自然数。具体地,计算机设备可以将节点矩阵中的最后一列设置为当前列,根据当前列的前一列的各个节点对应的路径分数以及当前列的前一列的各个节点到当前列的各个节点的转移分数,计算当前列的其中一个节点对应的Y个路径分数,即获得了Y个上一列的候选节点,对候选节点进行排序;将当前列的上一列设置为当前列,并根据顺序重复上述过程,遵循深度优先原则,直到确定出待解码短文本对应的N个最优路径。
在本发明的具体实施例中,为了求得N条最优路径,可以使用的是树的深度优先搜索策略:从最后一列(假如第i列)的state(也只会有一个state,因为节点矩阵最后一列有个结束$)向句首看,可以找出从第i-1列转移到i列state的候选candidate_state(根据i-1列转移到i列的路径分数进行排序)从candidate_state中排好序的state按顺序继续向第i-2列重复这个过程,直到找到k条路径返回后,(对于当前i列的state才会从它的candidate_state中选择第二优的state像句首方向(即第i-2列方向)进行搜索。整个搜索过程,当k达到2N时,则会停止搜索。把所有的状态矩阵(假设有X个状态矩阵)得到的2N条路径汇总排序(2N×X),求出前N条路径分数最高的,即为解码短文本对应的N个最优路径。
本发明实施例提出的路径解码方法,先根据待解码短文本,获取待解码短文本对应的节点矩阵;然后根据待解码短文本对应的节点矩阵,确定出待解码短文本对应的状态矩阵;再根据待解码短文本对应的状态矩阵,确定出待解码短文本对应的N个最优路径;其中,N为大于1的自然数。也就是说,在本发明的技术方案中,采用回溯法确定出待解码短文本对应的N个最优路径。而在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行,无法保证通过HMM模型获取到最优路径的准确度;并且,在现有的路径解码方法中,传统方式只能通过维特比算法获取到待解码短文本对应的一个最优路径,而无法获取到待解码短文本对应的N个最优路径。因此,和现有技术相比,本发明实施例提出的路径解码方法,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题;并且,本发明实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例二
图4为本发明实施例二提供的路径解码方法的流程示意图。如图4所示,路径解码方法可以包括以下步骤:
步骤401、根据待解码短文本,获取待解码短文本对应的节点矩阵。
在本发明的具体实施例中,计算机设备可以根据待解码短文本,获取待解码短文本对应的节点矩阵。例如,对于短文本“我想听春天里的故事”,计算机设备可以先将该短文本划分为两个词:“我想听”和“春天里的故事”;然后计算机设备可以将“春天里的故事”标记为“music_name”。此外,计算机设备还可以将该短文本划分为四个词:“我想听”、“春天里”、“的”、“故事”;然后计算机设备可以将“春天里”标记为“story_name”;将“故事”标记为“story_category”,从而确定出该短文本对应的若干观测序列以及该观测序列对应的节点矩阵。再例如,对于短文本“我想听小红帽”,计算机设备可以先将该短文本划分为两个词“我想听”和“小红帽”;然后计算机设备可以将“小红帽”标记为“story_name”、“music_name”和“childsong_name”,从而确定出该观测序列对应的节点矩阵,节点矩阵中的每一列包括至少一个节点,从首列节点向后连接,可以组合出所有可能的序列。需要说明的是,在本发明的具体实施例中,各个节点矩阵中的原词,同样作为各个列的隐变量参与运算。
在本发明的具体实施例中,路径计算的节点矩阵可以如下述表1所示:
表1
如上述表1所示,计算机设备可以根据预先确定的当前列的目标隐变量对应的路径分数和预先确定的下一列的各个隐变量对应的发射分数以及预先确定的当前列的目标隐变量到下一列的各个隐变量的转移分数,计算下一列的各个隐变量对应的路径分数。具体地,计算机设备可以根据预先确定的第一列的目标隐变量对应的路径分数和预先确定的第二列的各个隐变量对应的发射分数以及预先确定的第一列的目标隐变量到第二列的各个隐变量的转移分数,计算第二列的各个隐变量对应的路径分数。再假设当前列是各个节点矩阵中的第二列,计算机设备可以根据预先确定的第二列的目标隐变量对应的路径分数和预先确定的第三列的各个隐变量对应的发射分数以及预先确定的第二列的目标隐变量到第三列的各个隐变量的转移分数,计算第三列的各个隐变量对应的路径分数;以此类推;其中,当前列的各个隐变量对应的路径分数指的是各个节点矩阵中的第一列的目标隐变量到第二列的目标隐变量、第二列的目标隐变量到第三列的目标隐变量、...,再到当前列的各个隐变量组成的路径的分数。举例说明,假设当前列的目标隐变量为当前列的第四个隐变量,则下一列的各个隐变量对应的路径分数等于当前列的第四个隐变量对应的路径分数和下一列的各个隐变量对应的发射分数以及预先确定的当前列的第四个隐变量到下一列的各个隐变量的转移分数,计算下一列的各个隐变量对应的路径分数。例如,对于短文本“我想听周杰伦的歌东风破”,计算机设备可以先将该短文本划分为“我”、“想听”、“周杰伦”、“的”、“歌”、“东风破”;然后计算机设备可以将“周杰伦”标记为“Tag1”、“Tag2”、“Tag3”;将“歌”标记为“Tag4”;将“东风破”标记为“Tag5”、“Tag6”。在本步骤中,计算机设备首先从当前节点“我”开始,向前查找两个词,并进入词典库查找当前字节片段“我”对应的当前Tri-gram词组,由于在预先确定的词典库中未查找到当前Tri-gram词组,则计算机设备可以将“我”对应的路径分数确定为:发射分数与惩罚分数之和,即:100+80000=80100。然后计算机设备开始计算“想听”对应的路径分数,由于词典库中只存在三元转移概率,计算机设备可以将“想听”对应的路径分数确定为:“我”对应的路径分数、“想听”对应的发射分数与惩罚分数之和,即:80100+100+80000=160200。然后计算机设备开始分别计算P1、“我”—“想听”—“周杰伦”、P2、“我”—“想听”—“Tag1”、P3“我”—“想听”—“Tag2”、P4“我”—“想听”—“Tag3”的路径分数。P1score=160200+80000+100=240300;P2score=160200+81000=241200;P3score=160200+100+1000=161300;P4score=160200+81000=241200。
在本发明的具体实施例中,计算机设备可以根据下一列的各个隐变量对应的路径分数确定下一列的目标隐变量;将下一列设置为当前列,重复执行以上操作,直到计算出各个节点矩阵中的最后一列的目标隐变量。具体地,计算机设备可以在下一列的各个隐变量对应的路径分数中选择一个路径分数最小的隐变量,确定为下一列的目标隐变量。将下一列设置为当前列,重复执行以上操作,直到计算出各个节点矩阵中的最后一列的目标隐变量;其中,各个节点矩阵中的各个列的目标隐变量组成各个节点矩阵对应的一个最优节点序列。
在本发明的具体实施例中,计算机设备可以在M个最优节点序列中确定出待解码短文本对应的最优路径。具体地,计算机设备可以根据预先确定的各个最优节点序列对应的状态序列分数,将M个最优状态序列进行排序;然后根据排序结果在M个最优节点序列中确定出待解码短文本对应的最优路径。这里,节点序列分数表示各个最优状态序列的一个得分,这个得分是根据最终确定出的最优节点序列得到的,分数越小,路径越优。
S402、将节点矩阵中的最后一列设置为当前列,根据当前列的前一列的各个状态对应的路径分数以及当前列的前一列的各个状态到当前列的各个状态的转移分数,计算当前列的各个状态对应的路径分数。
在本发明的具体实施例中,状态矩阵可以如下述表2所示:
表2
在上述表2中,st为状态(state)的简写。在维护状态矩阵时,可以在待解码短文本的句首位置插入一个起始节点$,在待解码短文本的句末位置插入两个结束节点$。第i列的状态由第i-1列的状态和第i列的node共同计算得出,state的本质是一种路径走法。例如,起始位前无node,因此只有一种走法,即st1;当路径走到“歌”字时,上一列共四个状态,与节点“歌”可扩展出四个状态,但仅取路径分数最高的状态,与节点“Tag4”也可以扩展出四个状态,取分数最高的状态,最终获得两个状态st12和st13;继续往下一步继续走会面临三个节点,因此对于st12来说就会有三种走法:st14、st15和st16,以此类推。
在本发明的具体实施例中,计算机设备可以将状态矩阵中的最后一列设置为当前列,根据当前列的前一列的各个状态对应的路径分数以及当前列的前一列的各个状态到当前列的各个状态的转移分数,计算当前列的各个状态对应的路径分数。例如,假设st15对应的路径分数加上从st15到st20的转移分数是最小的,则该路径是最优的,并可依次找出次优状态。依次向句首方向递归,找到当前状态的n个最佳候选状态并排序,当递归重新返回到句末时,st20便可找到n个按路径分数排序的路径。
步骤403、根据当前列的其中一个状态,以及上一列的所有状态,可以分别计算上一列各个状态到当前列的该状态的路径分数;将上一列各个状态到当前列的该状态的路径分数进行排序;将当前列的前一列设置为当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出待解码短文本对应的N个最优路径。
在本发明的具体实施例中,计算机设备可以根据当前列的其中一个状态,以及上一列的所有状态,可以分别计算上一列各个状态到当前列的该状态的路径分数;将上一列各个状态到当前列的该状态的路径分数进行排序;将当前列的前一列设置为当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出待解码短文本对应的N个最优路径。具体地,计算机设备可以根据上一列的各个状态对应节点的发射分数以及当前列的上一列的各个节点到当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出当前列最优状态上一列的Y个候选节点;其中,Y为大于等于1的自然数;计算Y个候选节点的各个状态到当前列的其中一个状态的路径分数。
在本发明的具体实施例中,为了求得N条最优路径,可以使用的是树的深度优先搜索策略:从最后一列(假如第i列)的state(也只会有一个state,因为节点矩阵最后一列有个结束$)向句首看,可以找出从第i-1列转移到i列state的候选candidate_state(根据i-1列转移到i列的路径分数进行排序)从candidate_state中选择最优的state继续向第i-2列重复这个过程,直到找到k条路径返回后,(对于当前i列的state才会从它的candidate_state中选择第二优的state像句首方向(即第i-2列方向)进行搜索。整个搜索过程,当k达到2N时,则会停止搜索。把所有的状态矩阵(假设有X个状态矩阵)得到的2N条路径汇总排序(2N×X),求出前N条路径分数最高的,即为解码短文本对应的N个最优路径。
本发明实施例提出的路径解码方法,先根据待解码短文本,获取待解码短文本对应的节点矩阵;然后根据待解码短文本对应的节点矩阵,确定出待解码短文本对应的状态矩阵;再根据待解码短文本对应的状态矩阵,确定出待解码短文本对应的N个最优路径;其中,N为大于1的自然数。也就是说,在本发明的技术方案中,采用回溯法确定出待解码短文本对应的N个最优路径。而在现有的路径解码方法中,传统的HMM在计算路径概率时,无论是计算发射概率还是转移概率,均采用概率相乘的方式进行,无法保证通过HMM模型获取到最优路径的准确度;并且,在现有的路径解码方法中,传统方式只能通过维特比算法获取到待解码短文本对应的一个最优路径,而无法获取到待解码短文本对应的N个最优路径。因此,和现有技术相比,本发明实施例提出的路径解码方法,不仅可以获取到多个最优路径,而且还可以解决HMM模型在实际应用于文本路径解码时路径分数由于过小而不可信的问题;并且,本发明实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例三
图5为本发明实施例三提供的路径解码装置的第一结构示意图。如图5所示,所述装置包括:获取模块501和确定模块502;其中,
所述获取模块501,用于根据所述待解码短文本,获取所述待解码短文本对应的节点矩阵;
所述确定模块502,还用于根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数。
进一步的,所述确定模块502,具体用于将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。
图6为本发明实施例三提供的路径解码装置的第二结构示意图。如图6所示,所述确定模块502包括:计算子模块5021和确定子模块5022;其中,
所述计算子模块5021,用于将所述状态矩阵的最后一列设置为当前列;根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数;
所述确定子模块5022,用于将所述上一列各个状态到所述当前列的其中一个状态的路径分数进行排序;将所述上一列设置为所述当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出所述待解码短文本对应的N个最优路径。
进一步的,所述确定子模块5022,具体用于根据所述上一列的各个状态对应节点的发射分数以及所述当前列的上一列的各个节点到所述当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出所述当前列最优状态上一列的Y个候选节点;计算Y个候选节点的各个状态到所述当前列的其中一个状态的路径分数。
上述路径解码装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的路径解码方法。
实施例四
图7为本发明实施例四提供的计算机设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的路径解码方法。
实施例五
本发明实施例五提供了一种计算机存储介质。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或计算机设备上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种路径解码方法,其特征在于,所述方法包括:
根据待解码短文本,获取所述待解码短文本对应的节点矩阵;
根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;
根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数;
其中,所述根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径,包括:
将所述状态矩阵的最后一列设置为当前列;根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数;将所述上一列各个状态到所述当前列的其中一个状态的路径分数进行排序;将所述上一列设置为所述当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出所述待解码短文本对应的N个最优路径;
其中,根据树的深度优先搜索策略,对X个状态矩阵得到的2N×X条路径汇总排序,将前N条路径分数最高的路径确定为所述待解码短文本对应的N个最优路径。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵,包括:
将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。
3.根据权利要求1所述的方法,其特征在于,所述根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数,包括:
根据所述上一列的各个状态对应节点的发射分数以及所述当前列的上一列的各个节点到所述当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出所述当前列最优状态上一列的Y个候选节点;计算Y个候选节点的各个状态到所述当前列的其中一个状态的路径分数。
4.一种路径解码装置,其特征在于,所述装置包括:获取模块和确定模块;其中,
所述获取模块,用于根据待解码短文本,获取所述待解码短文本对应的节点矩阵;
所述确定模块,用于根据所述待解码短文本对应的节点矩阵,确定出所述待解码短文本对应的状态矩阵;根据所述待解码短文本对应的状态矩阵,确定出所述待解码短文本对应的N个最优路径;其中,N为大于1的自然数;
其中,所述确定模块包括:计算子模块和确定子模块;其中,
所述计算子模块,用于将所述状态矩阵的最后一列设置为当前列;根据所述当前列的其中一个状态以及所述当前列的上一列的所有状态,分别计算所述上一列的各个状态到所述当前列的其中一个状态的路径分数;
所述确定子模块,用于将所述上一列各个状态到所述当前列的其中一个状态的路径分数进行排序;将所述上一列设置为所述当前列,根据上述排序结果重复执行上述操作,遵循深度优先原则,直到确定出所述待解码短文本对应的N个最优路径;
其中,根据树的深度优先搜索策略,对X个状态矩阵得到的2N×X条路径汇总排序,将前N条路径分数最高的路径确定为所述待解码短文本对应的N个最优路径。
5.根据权利要求4所述的装置,其特征在于:
所述确定模块,具体用于将所述节点矩阵中预先设置的起始节点所在列设置为当前列,根据所述当前列的各个隐变量以及预先确定的上一列的状态,获取所述当前列的状态;根据所述上一列的状态和所述当前列的各个隐变量,计算出所述当前列的目标隐变量的状态;将所述当前列的下一列设置为所述当前列,重复执行上述操作,直到计算出所述节点矩阵中预先设置的结束节点所在列的目标隐变量的状态;其中,所述起始节点设置在所述待解码短文本的句首位置;所述结束节点设置在所述待解码短文本的句末位置。
6.根据权利要求4所述的装置,其特征在于:
所述确定子模块,具体用于根据所述上一列的各个状态对应节点的发射分数以及所述当前列的上一列的各个节点到所述当前列的最优路径的最后一个状态所指向的结束节点的转移分数,计算出所述当前列最优状态上一列的Y个候选节点;计算Y个候选节点的各个状态到所述当前列的其中一个状态的路径分数。
7.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至3中任一项所述的路径解码方法。
8.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至3任一权利要求所述的路径解码方法。
CN201911076169.4A 2019-11-06 2019-11-06 一种路径解码方法、装置、计算机设备及存储介质 Active CN110852101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911076169.4A CN110852101B (zh) 2019-11-06 2019-11-06 一种路径解码方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911076169.4A CN110852101B (zh) 2019-11-06 2019-11-06 一种路径解码方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110852101A CN110852101A (zh) 2020-02-28
CN110852101B true CN110852101B (zh) 2024-01-23

Family

ID=69599077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911076169.4A Active CN110852101B (zh) 2019-11-06 2019-11-06 一种路径解码方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110852101B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016168962A1 (zh) * 2015-04-20 2016-10-27 华为技术有限公司 极化码的译码方法和译码装置
CN108510990A (zh) * 2018-07-04 2018-09-07 百度在线网络技术(北京)有限公司 语音识别方法、装置、用户设备及存储介质
CN109388404A (zh) * 2018-10-10 2019-02-26 北京智能管家科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN110162478A (zh) * 2019-05-28 2019-08-23 南京大学 一种基于缺陷报告的缺陷代码路径定位方法
CN110377591A (zh) * 2019-06-12 2019-10-25 北京百度网讯科技有限公司 训练数据清洗方法、装置、计算机设备及存储介质
WO2021155699A1 (zh) * 2020-02-03 2021-08-12 苏州科技大学 面向中文长文本自动摘要的全局编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100653036B1 (ko) * 2000-12-11 2006-11-30 주식회사 케이티 회전 금지, 유-턴, 피-턴을 고려한 다익스트라 알고리즘또는 플로이드-워셜 알고리즘을 이용한 최단경로 산출방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016168962A1 (zh) * 2015-04-20 2016-10-27 华为技术有限公司 极化码的译码方法和译码装置
CN108510990A (zh) * 2018-07-04 2018-09-07 百度在线网络技术(北京)有限公司 语音识别方法、装置、用户设备及存储介质
CN109388404A (zh) * 2018-10-10 2019-02-26 北京智能管家科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN110162478A (zh) * 2019-05-28 2019-08-23 南京大学 一种基于缺陷报告的缺陷代码路径定位方法
CN110377591A (zh) * 2019-06-12 2019-10-25 北京百度网讯科技有限公司 训练数据清洗方法、装置、计算机设备及存储介质
WO2021155699A1 (zh) * 2020-02-03 2021-08-12 苏州科技大学 面向中文长文本自动摘要的全局编码方法

Also Published As

Publication number Publication date
CN110852101A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
JP6936888B2 (ja) トレーニングコーパスの生成方法、装置、機器及び記憶媒体
TWI636452B (zh) 語音識別方法及系統
CN112329465A (zh) 一种命名实体识别方法、装置及计算机可读存储介质
CN110717331B (zh) 一种基于神经网络的中文命名实体识别方法、装置、设备以及存储介质
CN1667699B (zh) 为字母-声音转换生成有互信息标准的大文法音素单元
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
US20040111253A1 (en) System and method for rapid development of natural language understanding using active learning
CN107221328B (zh) 修改源的定位方法及装置、计算机设备及可读介质
CN111739514B (zh) 一种语音识别方法、装置、设备及介质
US20200301919A1 (en) Method and system of mining information, electronic device and readable storable medium
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
KR20110043645A (ko) 기계 번역을 위한 파라미터들의 최적화
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN111611452B (zh) 搜索文本的歧义识别方法、系统、设备及存储介质
CN114036950A (zh) 一种医疗文本命名实体识别方法及系统
CN114492426B (zh) 子词切分方法、模型训练方法、装置和电子设备
US10394960B2 (en) Transliteration decoding using a tree structure
JP2010134922A (ja) 類似語決定方法およびシステム
CN109657127B (zh) 一种答案获取方法、装置、服务器及存储介质
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
CN111968624B (zh) 数据构建方法、装置、电子设备及存储介质
CN109388404B (zh) 一种路径解码方法、装置、计算机设备及存储介质
CN110852101B (zh) 一种路径解码方法、装置、计算机设备及存储介质
CN111916063A (zh) 基于bpe编码的序列化方法、训练方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210813

Address after: Room 301-112, floor 3, building 2, No. 18, YANGFANGDIAN Road, Haidian District, Beijing 100089

Applicant after: Beijing Rubu Technology Co.,Ltd.

Address before: Room 508-598, Xitian Gezhuang Town Government Office Building, No. 8 Xitong Road, Miyun District Economic Development Zone, Beijing 101500

Applicant before: BEIJING ROOBO TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220915

Address after: 518000 Guangdong 4 Baoan District City, Shenzhen Province, the third floor of the community of Taihang Wutong Industrial Park, 9A

Applicant after: Shenzhen Rubu Technology Co.,Ltd.

Address before: Room 301-112, floor 3, building 2, No. 18, YANGFANGDIAN Road, Haidian District, Beijing 100089

Applicant before: Beijing Rubu Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant