CN109885812B - 一种动态添加热词的方法、装置及可读存储介质 - Google Patents

一种动态添加热词的方法、装置及可读存储介质 Download PDF

Info

Publication number
CN109885812B
CN109885812B CN201910037030.2A CN201910037030A CN109885812B CN 109885812 B CN109885812 B CN 109885812B CN 201910037030 A CN201910037030 A CN 201910037030A CN 109885812 B CN109885812 B CN 109885812B
Authority
CN
China
Prior art keywords
text
path
weight
state transition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910037030.2A
Other languages
English (en)
Other versions
CN109885812A (zh
Inventor
吴帅
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN201910037030.2A priority Critical patent/CN109885812B/zh
Publication of CN109885812A publication Critical patent/CN109885812A/zh
Application granted granted Critical
Publication of CN109885812B publication Critical patent/CN109885812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种动态添加热词的方法、装置及可读存储介质。所述方法包括:载入需要添加的热词文本数据和状态转移图;根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元;针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径;将所述多个路径组合成新路径;对所述新路径中的每条边进行权重赋值。现有添加热词的方法一种需要重新训练语言模型完成热词添加,耗费时间和空间资源,另一种通过调整输出结果来还原热词出现位置,添加精度不高。本发明公开的方法直接在语言模型的动态转移图上修改,既节省了时间和空间资源,又能保证热词添加精度。

Description

一种动态添加热词的方法、装置及可读存储介质
技术领域
本发明涉及自然语言处理技术领域,具体地涉及一种动态添加热词的方法方法、装置及可读存储介质。
背景技术
如今互联网上有大量的数据需要转化成文本,供人类存储或阅读,这就需要计算机解析自然语言文本。为了解析自然语言文本,我们需要经过大量的语料训练生成语言模型,而语言模型又不方便直接调用,通常为了快速读取语言模型,将其转化为状态转移图格式。现代社会飞速发展,每天都新增新词、外来语、流行语或专业术语,这些词汇统称为热词。为了保持语言模型与时俱进,因而需要不断地添加热词。现有的方法通常有两种,一种是增加热词相关语料,利用增加后的语料来训练出新的语言模型,再转化为动态转移图格式。另一种是在在解码结果上做修正,根据输出结果,通过判断是否有热词误输出进行调整。第一种方法需要不断训练新的语言模型以保证热词的添加,耗费大量的计算时间和空间资源。第二种方法由于在文本的结果上做修改,丢失了大量的输入信息,故而添加精度不高。
发明内容
本发明提供了一种动态添加热词的方法、装置及可读存储介质,以实现在使用语言模型解码的过程中快速添加热词的工作。
本发明实施例第一方面提供了一种动态添加热词的方法,所述方法包括:
载入需要添加的热词文本数据和状态转移图;
根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元;
针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径;
将所述多个路径组合成新路径;
对所述新路径中的每条边的权重进行赋值。
可选的,根据所述状态转移图的可输出单元,对所述热词文本进行拆分,得到多个文本单元,包括:
调出所述状态转移图的输出字典;
将所述热词文本与所述输出字典中的可输出单元进行匹配;
根据匹配结果,将所述热词文本数据进行最小拆分,得到所述多个文本单元。
可选的,针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元对应路径,得到多个路径,包括:
针对所述多个文本单元中的每个文本单元,执行以下步骤:
找到该文本单元在所述输出字典中对应的输出索引;
根据所述输出索引,检索该文本单元在所述状态转移图中相应的边和结点;
根据该文本单元的对应边,对所述对应边的前向进行搜索,得到该文本单元对应路径的起始结点;
根据该文本单元的对应边,对所述对应边的后向进行搜索,得到该文本单元对应路径的终止结点;
根据搜索到的该文本单元的对应边的起始点和终止点,确定该文本单元对应的路径。
可选的,将所述多个路径组合成新路径,包括:
将所述多个路径上的结点代表的状态做出相应调整;
将调整后的多个路径依次连接,得到所述新路径。
可选的,对所述新路径中的每条边的权重进行赋值,包括:
通过语言模型计算第i个所述文本单元概率Pi和相应热词概率P;
将所述文本单元概率Pi和所述相应热词概率P带入额外权重计算公式计算所述新路径带来的额外权重Δw;
计算所述新路径中每条边上原来的权重之和;
将所述权重之和带入权重优化方程中,不断调整每条边修改后的权重,使所述修改后的权重满足所述权重优化方程。
可选的,所述额外权重Δw计算公式为:
Figure BDA0001946251340000031
其中,ω为概率转化权重函数,
Figure BDA0001946251340000032
为所述状态转移图对应的“减法”规则,
Figure BDA0001946251340000033
为所述多个文本单元概率的连乘求积。
可选的,所述权重优化方程为:
Figure BDA0001946251340000034
其中,wi,j→i,j+1为第i个文本单元对应路径上第j个节点到第j+1个节点上的边的权重,w′为相应的新权重,W为原来权重的总和,W′为所述新权重的总和,mi-1为所述第i个文本单元对应路径上的总结点数减一,minw′()表示遍历w′的取值取括号内表达式的最小值,‖‖指范数,是一种空间上一维向量长度或大小的表示,s.t.表示满足此约束条件。
可选的,所述方法还包括:
将所述状态转移图中原有路径上自循环边的权重值进行哈希运算,得到所述权重值的哈希表;
查询所述哈希表,得到所述新路径上自循环边的权重值;
根据所述权重值为所述新路径添加自循环边。
在本发明实施例第二方面提供了一种添加热词装置,所述装置包括:
数据载入模块,用于载入需要添加的热词文本数据状态转移图;
文本拆分模块,用于根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元;
路径搜索模块,用于针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径;
路径组合模块,用于将所述多个路径组合成新路径;
权重赋值模块,用于对所述新路径中的每条边的权重进行赋值。
可选的,所述文本拆分模块包括:
字典准备子模块,用于调出所述状态转移图的输出字典;
文本匹配子模块,用于将所述热词文本与所述输出字典中的可输出单元进行匹配;
文本拆分子模块,用于根据匹配结果,将所述热词文本数据进行最小拆分,得到所述多个文本单元。
可选的,所述路径搜索模块包括:
步骤执行子模块,用于针对所述多个文本单元中的每个文本单元,执行以下步骤:
索引定位子模块,用于找到该文本单元在所述输出字典中对应的输出索引;
文本检索子模块,用于根据所述输出索引,检索该文本单元在所述状态转移图中相应的边和结点;
前向搜索子模块,用于根据该文本单元的对应边,对所述对应边的前向进行搜索,得到该文本单元对应路径的起始结点;
后向搜索子模块,根据该文本单元的对应边,对所述对应边的后向进行搜索,得到该文本单元对应路径的终止结点;
路径确定子模块,用于根据搜索到的该文本单元的对应边的起始点和终止点,确定该文本单元对应的路径。
可选的,所述路径组合模块包括:
状态修改子模块,用于将所述多个路径上的结点代表的状态做出相应调整;
路径连接子模块,用于将调整后的多个路径依次连接,得到所述新路径。
可选的,所述权重赋值模块包括:
概率计算子模块,用于通过语言模型计算第i个所述文本单元概率Pi和相应热词概率P;
额外权重计算子模块,用于将所述文本单元概率Pi和所述相应热词概率P带入额外权重计算公式计算所述新路径带来的额外权重Δw;
权重求和子模块,用于计算所述新路径中每条边上原来的权重之和;
权重调整子模块,用于将所述权重之和带入权重优化方程中,不断调整每条边修改后的权重,使所述修改后的权重满足所述权重优化方程。
可选的,所述额外权重子模块包括公式:
Figure BDA0001946251340000051
其中,ω为概率转化权重函数,
Figure BDA0001946251340000052
为所述状态转移图对应的“减法”规则,
Figure BDA0001946251340000053
为所述多个文本单元概率的连乘求积。
可选的,所述权重调整子模块包括公式:
Figure BDA0001946251340000054
其中,wi,j→i,j+1为第i个文本单元对应路径上第j个节点到第j+1个节点上的边的权重,w′为相应的新权重,W为原来权重的总和,W′为所述新权重的总和,mi-1为所述第i个文本单元对应路径上的总结点数减一,minw′()表示遍历w′的取值取括号内表达式的最小值,‖‖指范数,是一种空间上一维向量长度或大小的表示,s.t.表示满足此约束条件。
可选的,所述装置还包括:
哈希运算模块,用于将所述状态转移图中原有路径上自循环边的权重值进行哈希运算,得到所述权重值的哈希表;
权重查询模块,用于查询所述哈希表,得到所述新路径上自循环边的权重值;
自循环边添加模块,用于根据所述权重值为所述新路径添加自循环边。
本发明提供的技术方案可以带来以下有益效果:
一、本发明直接从已有的状态转移图上做修改,利用转移图中已有的状态信息或者相近的单元信息进行操作,利用已有的文本单元对应路径组合成新的路径完成热词的添加。这种方法占用计算资源量小,具体而言包括但是不限于减少计算时间和空间。
二、本发明直接在状态转移图上做修改,在占用资源量小的情况下同时保证了热词添加的精度,在解码的过程中表现为增加了解码正确率。
附图说明
为了更清楚地说明本发明各个实施例的技术方案,下面将对本发明各个实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提出的一种动态添加热词方法的流程图;
图2是本发明实施例提出的一种语言模型状态转移图;
图3是本发明实施例提出的一种路径组合流程示意图;
图4是本发明另一实施例提供的一种动态添加热词方法的流程图;
图5是本发明实施例提出的一种新路径添加自循环边的示意图;
图6是本发明一实施例提供的一种动态添加热词的装置示意图;
图7是本发明另一实施例提供的一种动态添加热词装置的示意图。
具体实施方式
下文描述了本发明的具体实施方式,该实施方式为示意性的,旨在揭示本发明的具体工作过程,不能理解为对权利要求的保护范围的进一步限定。
参考图1,图1是本发明实施例提出的一种动态添加热词方法的流程图。如图1所示,该方法包括以下步骤:
步骤S11:载入需要添加的热词文本数据和状态转移图。
热词在狭义上指的是随着时间的推移,自然语言的新增词汇,如新词、外来语、流行语或专业词汇等,因为这些词汇的不断更导致旧的语言模型上的词汇匮乏,需要不断更新。广义上,指的是任何语言模型中尚未涵盖额词汇,学术上又称之为集外词。
状态转移图的作用是描述状态之间的转移关系,为了快速读取语言模型,通常将其转化为状态转移图的格式以方便快速读取。这种图具有多种表达形式,这里采用结点和边连接的结构表示,采用结点代表状态,边代表相应转移的文本单元。
参考图2,图2本发明实施例提出的一种语言模型状态转移图,事实上所有的状态转移图还可以包括输入边,但是由于输入边并不影响本发明,所以附图中所有涉及过程中一律略去。
如图2所示:
此转态转移图由7个结点和6条边组成,共有三个状态。S代表起始状态,T代表转移状态,E代表终止状态。其中结点之间的边上的字母a,b,c各代表一个文本单元,w表示此文本单元的权重,其中w1~w6分别代表a、k1、b、k2、c、k3的权重,权重越大,转移概率越高,k表示此边输出为空,不输出内容。文本单元a,b,c共同组成一条路径,输出abc这个词或短语。注意,abc指代需要添加的热词。语言模型中的所有字、词和短语都可以转化为状态转移图格式。
步骤S12:根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元。
在一种实施方式中,步骤S12包括以下步骤:
调出所述状态转移图的输出字典;
将所述热词文本与所述输出字典中的可输出单元进行匹配;
根据匹配结果,将所述热词文本数据进行最小拆分,得到所述多个文本单元。
状态转移图的输出字典实际上是一个数据的存储单元,其中存储了对应的状态转移图的可输出单元信息,通过此输出字典可以确定状态转移图中的输出单元。
例如状态转移图中可输出单元为“a”,那么在输出字典中就会相应的记录可输出单元“a”。
想要将热词文本添加进状态转移图中,首先必须保证热词文本中的所有单元都在状态转移图的可输出单元之中,若此热词的所有文本单元都在状态转移图的可输出单元之中,则此热词可以进行文本拆分,若此热词文本中一个或多个文本单元不在状态转移图的可输出单元之中,则无法将热词将文本进行拆分,进而无法完成热词的添加。
例如载入热词文本为“降维打击”,与输出字典中的可输出单元进行匹配,发现“维”不属于该状态转移图的可输出单元,则热词“降维打击”无法完成文本拆分,添加热词失败。
若输入的热词文本与状态转移图的可输出单元相匹配,则可进行文本拆分,拆分时使用最小拆分原则,这样有利于简化后续的计算处理。
例如输入热词为“神经网络”,状态转移图的可输出单元中有“神经”、“网络”、“神”、“经”、“网”、“络”,则按最小拆分原则,将热词文本拆分为“神经”、“网络”这两个个文本单元。
步骤S13:针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径。
针对所述多个文本单元中的每个文本单元,执行以下步骤:
找到该文本单元在所述输出字典中对应的输出索引。
在状态转移图的输出字典中有每个文本单元对应的输出索引,通过这些输出索引可以访问到该文本单元的数据。在热词文本拆分成文本单元时,就可以使用这些输出索引来进行文本单元的检索。
根据所述输出索引,检索该文本单元在所述状态转移图中相应的边和结点。
通过输出字典中的输出索引,可以检索出每个文本单元在状态转移图中的边和结点。输出字典中的输出索引中存储了每个可输出文本单元在状态转移图中数据的位置信息,通过输出索引中记录的位置信息可以快速找到状态转移图中每个文本单元的数据,完成边和结点的查询定位。
例如待查找文本单元为“a”,对应的输出索引记录文本单元“a”在状态转移图数据存储地址的第m位,遍历所有边的输出单元读取第m位数据,则搜索到了文本单元“a”对应的边和结点数据。
根据该文本单元的对应边,对所述对应边的前向进行搜索,得到该文本单元对应路径的起始结点。
根据文本单元对应边的信息对进行路径搜索,可得到该文本单元对应路径的起始结点,搜索方法在这里不做限定,常用的方法是二分遍历搜索法。
例如一条文本单元对应路径为起始结点S,边A,转移结点T1,边B,转移结点T2,边C,终止结点E,结点和边依次连接形成一条路径。文本单元n对应的边为B,用二分遍历法进行前向搜索,访问转移结点T1,判定T1非该路径的起始结点,则继续向前搜索,访问起始结点S,搜索到起始结点S,完成搜索。
根据该文本单元的对应边,对所述对应边的后向进行搜索,得到该文本单元对应路径的终止结点。
后向搜索的方法不做限定,可采用深度遍历搜索方法,深度遍历搜索法是顺着一条路径一直搜索到终止,利用深度遍历搜索法可以快速搜索到该文本单元的终止点。
例如一条文本单元对应路径为起始结点S,边A,转移结点T1,边B,转移结点T2,边C,终止结点E,结点和边依次连接。文本单元对应的边为B,用深度遍历搜索方法进行后向搜索,访问转移结点T2,发现T2非终止结点,继续向后搜索,访问该路径终止结点E,搜索到该路径终止结点E,完成搜索。
根据搜索到的该文本单元的对应边的起始点和终止点,确定该文本单元对应的路径。
通过前向搜索确定该文本单元对应路径的起始结点,通过后向搜索确定该文本单元对应路径的终止结点,由起始结点到终止结点的所有边和结点组成了此文本单元对应的路径。
步骤S14:将所述多个路径组合成新路径。
将所述多个路径上的结点代表的状态做出相应调整。
参考图3,图3是本发明实施例提出的一种路径组合流程示意图,如图3所示:
一个文本单元对应了一条路径,一般一条路径中有多个状态结点,只有文本单元所在的边输出该文本单元,剩余的边输出为空。分别代表了该路径的起始状态、转移状态和终止状态。在组合新路径时通常要将部分路径中的部分结点代表状态做出相应改变,为后续的组合路径做准备。
目标热词为“da”,原状态转移图中已有的词语路径为“ab”、“cd”,需要的目标文本单元为“d”、“a”,通过文本拆分定位和路径搜索得到文本单元“d”,“a”的对应路径。在原有词语路径中,文本单元“d”对应路径的起始结点状态为T,终止结点状态为E,文本单元“a”对应路径的起始结点状态为S,终止结点状态为T。要将文本单元“d”、“a”对应的路径组合为一条新的路径“da”,需要将文本单元“d”对应路径的起始结点状态由T调整为S,终止结点状态由E调整为T,将文本单元“a”对应路径的起始结点状态由S调整为T,终止状态结点由T调整为E。
将调整后的多个路径依次连接,得到所述新路径。
目标热词为“da”,将前一步骤得到的结果,即调整好结点状态后的文本单元“d”、“a”对应的路径按“d”在前,“a”在后的顺序连接,得到热词“da”的路径。
步骤S15:对所述新路径中的每条边的权重进行赋值。
通过语言模型计算第i个所述文本单元概率Pi和相应热词概率P。
语言模型是一种概率模型,可以通过函数来计算语言模型中所有文本数据出现的概率,当新路径组合成功后,语言模型通过函数来计算每个文本单元在所有文本数据中出现的概率Pi和相应的热词概率P。语言模型不做限制,例如:N元概率、隐马尔可夫链、条件随机场及神经网络等模型。一种可行的方式便是直接调用生成状态转图的语言模型。
将所述文本单元概率Pi和所述相应热词概率P带入额外权重计算公式计算所述新路径带来的额外权重Δw。
所述额外权重Δw计算公式为:
Figure BDA0001946251340000101
其中,ω为概率转化权重函数,
Figure BDA0001946251340000102
为所述状态转移图对应的“减法”规则,
Figure BDA0001946251340000103
为所述多个文本单元概率的连乘求积。将额外权重作为已知条件用作后续计算。
计算所述新路径中每条边上原来的权重之和。
新路径中的每条边上都带有原来的权重,将将原来的权重之和记为:
Figure BDA0001946251340000111
其中i为第i个文本单元,j为第j个结点,mi-1为第i个文本单元的总结点数减一,wi,j→i,j+1为第i个单元对应路径上第j个结点到第j+1个结点上的边上的权重。
对应的新路径中每条边上修改后的权重之和就记为:
Figure BDA0001946251340000112
其中i为第i个文本单元,j为第j个结点,mi-1为第i个文本单元的总结点数减一,w′i,j→i,j+1为第i个单元对应路径上第j个结点到第j+1个结点上的边上的权重。
将所述权重之和带入权重优化方程中,不断调整每条边修改后的权重,使所述修改后的权重满足所述权重优化方程。
所述权重优化方程为:
Figure BDA0001946251340000113
其中,wi,j→i,j+1为第i个文本单元对应路径上第j个节点到第j+1个节点上的边的权重,w′为相应的新权重,W为原来权重的总和,W′为所述新权重的总和,mi-1为所述第i个文本单元对应路径上的总结点数减一,minw′()表示遍历w′的取值取括号内表达式的最小值,‖‖指范数,是一种空间上一维向量长度或大小的表示,s.t.表示满足此约束条件。
通过运算来不断调整每条边的权重,使w′满足权重优化方程,当w′满足了权重优化方程之后,修改完成,同时也完成了热词的添加。
参考图4,图4是本发明另一实施例提供的一种动态添加热词方法的流程图。如图所示,该方法除包括步骤S11-步骤S15外,还包括以下步骤:
步骤S16:将所述状态转移图中原有路径上自循环边的权重值进行哈希运算,得到所述权重值的哈希表。
大多数状态转移图中都存在自循环边,加入自循环边,可以让状态转移图的输出更加稳定,自循环边上的权重值代表了自循环边所在结点的下一条边上的文本单元转移到自身的几率大小。当原状态转移图中有自循环边时新增的路径也需要添加自循环边。哈希运算是一种将不同长度的二进制值映射为固定长度二进制值的算法,这个值就叫做哈希值,将哈希值存储在一个地址单元之中,得到哈希表。通过哈希表可以快速查询每条路径上的自循环边上的权重值。
步骤S17:查询所述哈希表,得到所述新路径上的自循环边的权重值。
哈希表上存有原状态转移图上自循环边的权重值,新路径由原状态转移图中的路径截取拼接而成,路径上每个文本单元的自循环边的权重值和原路径上每个文本单元的自循环边的权重值是相等的。通过查询状态转移图就可以得到每个文本单元的自循环边的权重值。
步骤S18:根据所述权重值为所述新路径添加自循环边。
查询到自循环边的权重值之后,将查询到的权重值添加到生成新路径上的对应自循环边上,完成自循环边的添加。
参考图5,图5是本发明实施例提出的一种新路径添加自循环边的示意图。如图5所示:
将此路径视为新生成的路径,状态转移图的原有路径上存在自循环边,此路径输出的内容为“ab”,“ab”可以是词或短语,w1~w4分别代表各对应边上的权重。事先对状态转移图原路径中每个边上的权重值w进行哈希运算,将计算后的结果存在哈希表中以便查询,其中包含文本单元“a”、“b”路径上自循环边的哈希值。当“ab”对应的新路径生成时,查询哈希表,得到文本单元“a”、“b”对应路径上自循环边的权重值w5、w6、w7、w8、w9,将查询得到的权重值添加到新路径上对应的结点,完成自循环边的添加。
基于同一发明构思,本发明一实施例提供一种动态添加热词的装置。参考图6,图6是本发明一实施例提供的一种动态添加热词的装置示意图。如图6所示,该装置包括:
数据载入模块501,用于载入需要添加的热词文本数据状态转移图;
文本拆分模块502,用于根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元;
路径搜索模块503,用于针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径;
路径组合模块504,用于将所述多个路径组合成新路径;
权重赋值模块505,用于对所述新路径中的每条边的权重进行赋值。
可选的,所述文本拆分模块包括:
字典准备子模块,用于调出所述状态转移图的输出字典;
文本匹配子模块,用于将所述热词文本与所述输出字典中的可输出单元进行匹配;
文本拆分子模块,用于根据匹配结果,将所述热词文本数据进行最小拆分,得到所述多个文本单元。
可选的,所述路径搜索模块包括:
步骤执行子模块,用于针对所述多个文本单元中的每个文本单元,执行以下步骤:
索引定位子模块,用于找到该文本单元在所述输出字典中对应的输出索引;
文本检索子模块,用于根据所述输出索引,检索该文本单元在所述状态转移图中相应的边和结点;
前向搜索子模块,用于根据该文本单元的对应边,对所述对应边的前向进行搜索,得到该文本单元对应路径的起始结点;
后向搜索子模块,根据该文本单元的对应边,对所述对应边的后向进行搜索,得到该文本单元对应路径的终止结点;
路径确定子模块,用于根据搜索到的该文本单元的对应边的起始点和终止点,确定该文本单元对应的路径。
可选的,所述路径组合模块包括:
状态修改子模块,用于将所述多个路径上的结点代表的状态做出相应调整;
路径连接子模块,用于将调整后的多个路径依次连接,得到所述新路径。
可选的,所述权重赋值模块包括:
概率计算子模块,用于通过语言模型计算第i个所述文本单元概率Pi和相应热词概率P;
额外权重计算子模块,用于将所述文本单元概率Pi和所述相应热词概率P带入额外权重计算公式计算所述新路径带来的额外权重Δw;
权重求和子模块,用于计算所述新路径中每条边上原来的权重之和;
权重调整子模块,用于将所述权重之和带入权重优化方程中,不断调整每条边修改后的权重,使所述修改后的权重满足所述权重优化方程。
可选的,所述额外权重子模块包括公式:
Figure BDA0001946251340000141
其中,Δw为额外权重,ω为概率转化权重函数,
Figure BDA0001946251340000142
为所述状态转移图对应的“减法”规则,
Figure BDA0001946251340000143
为所述多个文本单元概率的连乘求积。
可选的,所述权重调整子模块包括公式:
Figure BDA0001946251340000144
其中,wi,j→i,j+1为第i个文本单元对应路径上第j个节点到第j+1个节点上的边的权重,w′为相应的新权重,W为原来权重的总和,W′为所述新权重的总和,mi-1为所述第i个文本单元对应路径上的总结点数减一,minw′表示遍历w′的取值取括号内表达式的最小值,‖‖指范数,是一种空间上一维向量长度或大小的表示,s.t.表示满足此约束条件。
综合上述实例,在本发明的另一实施例中,通过查询原有路径上自循环边的权重值的哈希表为新路径上的自循环边添加权重值。参考图7,图7是本发明另一实施例提供的一种动态添加热词装置的示意图。如图7所示,该装置除包括上述模块之外,还包括:
哈希运算模块506,用于将所述状态转移图中原有路径上自循环边的权重值进行哈希运算,得到所述权重值的哈希表;
权重查询模块507,用于查询所述哈希表,得到所述新路径上自循环边的权重值;
自循环边添加模块508,用于根据所述权重值为所述新路径添加自循环边。
基于同一发明构思,本发明另一实施例提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明上述任一实施例所述的方法中的步骤。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (9)

1.一种动态添加热词的方法,其特征在于,包括:
载入需要添加的热词文本数据和状态转移图;
根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元;
针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径;
将所述多个路径组合成新路径;
对所述新路径中的每条边的权重进行赋值,包括:
通过语言模型计算第i个文本单元概率Pi和相应热词概率P,所述文本单元概率Pi和相应热词概率P为所述每个文本单元在所有文本数据中出现的概率和相应的热词概率;
将所述文本单元概率Pi和所述相应热词概率P代入额外权重计算公式计算所述新路径带来的额外权重Δw;
计算所述新路径中每条边上原来的权重之和;
将所述权重之和与所述额外权重Δw代入权重优化方程中,不断调整每条边修改后的权重,使所述修改后的权重满足所述权重优化方程。
2.如权利要求1所述的方法,其特征在于,根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元,包括:
调出所述状态转移图的输出字典;
将所述热词文本数据与所述输出字典中的可输出单元进行匹配;
根据匹配结果,将所述热词文本数据进行最小拆分,得到所述多个文本单元。
3.如权利要求1所述的方法,其特征在于,针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径,包括:
针对所述多个文本单元中的每个文本单元,执行以下步骤:
找到该文本单元在所述输出字典中对应的输出索引;
根据所述输出索引,检索该文本单元在所述状态转移图中相应的边和结点;
根据该文本单元的对应边,对所述对应边的前向进行搜索,得到该文本单元对应路径的起始结点;
根据该文本单元的对应边,对所述对应边的后向进行搜索,得到该文本单元对应路径的终止结点;
根据搜索到的该文本单元的对应边的起始结点和终止结点,确定该文本单元对应的路径。
4.如权利要求1所述的方法,其特征在于,将所述多个路径组合成新路径,包括:
对所述多个路径上的结点代表的状态做出相应调整;
将调整后的多个路径依次连接,得到所述新路径。
5.如权利要求1所述的方法,其特征在于,所述额外权重计算公式为:
Figure FDA0002782869030000021
其中,ω为概率转化权重函数,
Figure FDA0002782869030000022
为所述状态转移图对应的“减法”规则,
Figure FDA0002782869030000023
为多个所述文本单元概率Pi的连乘求积。
6.如权利要求1所述的方法,其特征在于,所述权重优化方程为:
Figure FDA0002782869030000024
其中,wi,j→i,j+1为第i个文本单元对应路径上第j个结点到第j+1个结点上的边的权重,w′i,j→i,j+1为第i个单元对应路径上第j个结点到第j+1个结点上的边上的新权重,W为原来权重的总和,W′为所述新权重的总和,mi-1为所述第i个文本单元对应路径上的总结点数减一,minw′()表示遍历w′的取值取括号内表达式的最小值,|| ||指范数,是一种空间上一维向量长度或大小的表示,s.t.表示满足此约束条件。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
将所述状态转移图中原有路径上自循环边的权重值进行哈希运算,得到所述权重值的哈希表;
查询所述哈希表,得到所述新路径上自循环边的权重值;
根据所述权重值为所述新路径添加自循环边。
8.一种添加热词的装置,其特征在于,所述装置包括:
数据载入模块,用于载入需要添加的热词文本数据和状态转移图;
文本拆分模块,用于根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元;
路径搜索模块,用于针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径;
路径组合模块,用于将所述多个路径组合成新路径;
权重赋值模块,用于对所述新路径中的每条边的权重进行赋值,包括:
通过语言模型计算第i个文本单元概率Pi和相应热词概率P,所述文本单元概率Pi和相应热词概率P为所述每个文本单元在所有文本数据中出现的概率和相应的热词概率;
将所述文本单元概率Pi和所述相应热词概率P代入额外权重计算公式计算所述新路径带来的额外权重Δw;
计算所述新路径中每条边上原来的权重之和;
将所述权重之和与所述额外权重Δw代入权重优化方程中,不断调整每条边修改后的权重,使所述修改后的权重满足所述权重优化方程。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的方法中的步骤。
CN201910037030.2A 2019-01-15 2019-01-15 一种动态添加热词的方法、装置及可读存储介质 Active CN109885812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910037030.2A CN109885812B (zh) 2019-01-15 2019-01-15 一种动态添加热词的方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910037030.2A CN109885812B (zh) 2019-01-15 2019-01-15 一种动态添加热词的方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN109885812A CN109885812A (zh) 2019-06-14
CN109885812B true CN109885812B (zh) 2021-02-19

Family

ID=66926034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910037030.2A Active CN109885812B (zh) 2019-01-15 2019-01-15 一种动态添加热词的方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN109885812B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390948B (zh) * 2019-07-24 2022-04-19 厦门快商通科技股份有限公司 一种快速语音识别的方法及系统
CN112634904A (zh) * 2020-12-22 2021-04-09 北京有竹居网络技术有限公司 热词识别方法、装置、介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239432A1 (en) * 2006-03-30 2007-10-11 Microsoft Corporation Common word graph based multimodal input
CN103309852A (zh) * 2013-06-14 2013-09-18 瑞达信息安全产业股份有限公司 一种基于统计和规则的特定领域的合成词发现方法
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法
CN104462105A (zh) * 2013-09-16 2015-03-25 腾讯科技(深圳)有限公司 中文分词方法、装置和服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092595A (zh) * 2017-04-23 2017-08-25 四川用联信息技术有限公司 新的关键词提取技术

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239432A1 (en) * 2006-03-30 2007-10-11 Microsoft Corporation Common word graph based multimodal input
CN103309852A (zh) * 2013-06-14 2013-09-18 瑞达信息安全产业股份有限公司 一种基于统计和规则的特定领域的合成词发现方法
CN104462105A (zh) * 2013-09-16 2015-03-25 腾讯科技(深圳)有限公司 中文分词方法、装置和服务器
CN103678656A (zh) * 2013-12-23 2014-03-26 合肥工业大学 一种基于重复字串的微博新词非监督自动抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A method of Part-Of-Speech guessing of Chinese Unknown Words based on combined features;Hai-Jun Zhang;《Proceedings of the Eighth International Conference on Machine Learning and Cybernetic》;20090712;第328-332页 *
融合规则与统计的微博新词发现方法;周霜霜 等;《计算机应用》;20170410;第37卷(第4期);第1044-1050页 *

Also Published As

Publication number Publication date
CN109885812A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
US9773053B2 (en) Method and apparatus for processing electronic data
CN110263162B (zh) 卷积神经网络及其进行文本分类的方法、文本分类装置
CN103455507B (zh) 搜索引擎推荐方法及装置
CN106815311B (zh) 一种问题匹配方法和装置
EP3707622A1 (en) Generation of text from structured data
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN109062902B (zh) 一种文本语义表达方法及装置
US11461317B2 (en) Method, apparatus, system, device, and storage medium for answering knowledge questions
US11461613B2 (en) Method and apparatus for multi-document question answering
CN110874528B (zh) 文本相似度的获取方法及装置
CN109241243B (zh) 候选文档排序方法及装置
WO2021027125A1 (zh) 序列标注方法、装置、计算机设备和存储介质
US20130159318A1 (en) Rule-Based Generation of Candidate String Transformations
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN109885812B (zh) 一种动态添加热词的方法、装置及可读存储介质
JP2023541742A (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
CN111460117A (zh) 对话机器人意图语料生成方法、装置、介质及电子设备
CN111402864A (zh) 语音处理方法及电子设备
US20190129948A1 (en) Generating method, generating device, and recording medium
CN113505196A (zh) 基于词性的文本检索方法、装置、电子设备及存储介质
CN111309926B (zh) 一种实体链接方法、装置及电子设备
CN115129831A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN110287284B (zh) 语义匹配方法、装置及设备
CN111259126A (zh) 基于词语特征的相似度计算方法、装置、设备及存储介质
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant