CN111310419A - 对词语改写候选集进行更新的方法及装置 - Google Patents
对词语改写候选集进行更新的方法及装置 Download PDFInfo
- Publication number
- CN111310419A CN111310419A CN202010120899.6A CN202010120899A CN111310419A CN 111310419 A CN111310419 A CN 111310419A CN 202010120899 A CN202010120899 A CN 202010120899A CN 111310419 A CN111310419 A CN 111310419A
- Authority
- CN
- China
- Prior art keywords
- rewriting
- probabilities
- words
- updating
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本说明书实施例提供一种对词语改写候选集进行更新的方法,该方法包括:首先,获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写第一目标词语的若干候选词语和对应的若干改写概率;接着,基于多个原始候选集,建立关系网络图;然后,针对关系网络图中表示第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点;再接着,针对多个出度邻居节点中任意的第一邻居节点,根据从第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将第一目标词语改写为第一邻居节点所表示词语的第一改写分数;再然后,基于对应于多个出度邻居节点的多个改写分数和多个词语,更新第一原始候选集。
Description
技术领域
本说明书一个或多个实施例涉及计算机处理技术领域,尤其涉及计算机执行的、对词语改写候选集进行更新的方法及装置。
背景技术
文本处理技术一直是许多领域的研究热点,具体涉及文本分类、文本摘要计算、文本自动生成、文本修改或仿写等等。其中文本自动生成、文本修改或仿写等处理技术中,通常需要对目标词语进行替换或改写,显然,用于对目标词语进行改写的候选词语越丰富,改写得到的文本越丰富,得到优质文本的可能性越大。
因此,需要一种可靠、高效地方案,能够确定出丰富的用于改写目标词语的候选词语。
发明内容
本说明书一个或多个实施例描述了一种对词语改写候选集进行更新的方法,可以对获取的原始候选集进行更新、拓展,从而使得其中的候选词语更加丰富。
根据第一方面,提供一种对词语改写候选集进行更新的方法,该方法包括:获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。
在一个实施例中,所述多个原始候选集基于预设类别的多个文本而预先确定,所述预设类别包括歌词或诗歌。
在一个实施例中,基于所述多个原始候选集,建立关系网络图,包括:对所述若干候选词语对应的改写概率归一化,使得所述第一目标节点的出度有向边的权重之和为1。
在一个实施例中,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数,包括:确定从所述第一目标节点经过K条以内的有向边到达所述第一邻居节点的若干路径;基于各条路径所包含有向边的权重确定对应的路径权重;确定所述若干路径所对应的若干路径权重的和值,作为所述第一改写分数。
在一个具体的实施例中,所述若干路径包括第一路径,所述第一路径包含多条有向边;基于各条路径所包含有向边的权重确定对应的路径权重,包括:将所述多条有向边各自的权重连乘,作为第一路径的路径权重。
在一个实施例中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:对所述多个改写分数进行归一化处理,得到多个第一概率;确定所述多个第一概率中大于预设概率阈值的多个概率值,并对所述多个概率值进行归一化处理,得到多个第二概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个第二概率。
在一个实施例中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:对所述多个改写分数进行排序,并确定其中排在预定名次范围内的多个概率值;对所述多个概率值进行归一化处理,得到多个归一化概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
在一个实施例中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:确定所述多个改写分数中大于预设分数阈值的多个分值,并对所述多个分值进行归一化处理,得到多个归一化概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个分值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
根据第二方面,提供一种对词语改写候选集进行更新的装置,包括:获取单元,配置为获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;所述多个原始候选集基于预设类别的多个文本而预先确定;建立单元,配置为基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;第一确定单元,配置为针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;第二确定单元,配置为针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;更新单元,配置为基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
综上,采用本说明书实施例披露的对词语改写候选集进行更新的方法及装置,可以实现对原始候选集的更新、拓展,使得其中的候选词语更加丰富,改写概率的可信度、精准度和可用性更高,从而辅助文本自动生成、文本自动填充、文本改写、文本修正等文本处理技术的提升,提高相关服务平台的可靠性和用户的使用体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的对词语改写候选集进行更新的方法流程图;
图2示出根据一个实施例的基于多个原始候选集建立的关系网络图;
图3示出根据一个实施例的对词语改写候选集进行更新的装置结构图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,需要一种可靠、高效地方案,能够确定出丰富的用于改写目标词语的候选词语。下面结合一个具体的场景进行说明,如用户在进行词曲创作时,已写出的歌词文本包括“在完全失去之前,才能够回到XX”,此时,用户可以利用音乐服务平台提供的自动填充功能,选定补入XX位置的词语,具体地,音乐服务平台可以将“之前”确定为目标词语,再向用户提供对应的候选词语,如从前、原点等,以供用户选择,从而辅助用户更好、更快的完成歌词创作,进而提高用户体验。显然,向用户提高的候选词语越丰富,用户从中选择出中意词语的可能性越大,用户体验度越高。
具体地,本说明书实施例披露一种对词语改写候选集进行更新的方法,可以实现在原始候选集的基础上,对候选词语进行进一步更新、拓展,从而获得更加丰富的候选词语。下面,结合具体的实施例,对所述方法进行介绍。
图1示出根据一个实施例的对词语改写候选集进行更新的方法流程图,所述方法的执行主体可以为任何具有计算、处理能力的装置或设备或平台或设备集群。如图1所示,所述方法包括以下步骤:
步骤S110,获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;步骤S120,基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;步骤S130,针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;步骤S140,针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;步骤S150,基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。
针对以上步骤,首先需要说明的是,上述“第一原始候选集”、“第一目标词语”等中的“第一”,以及后文中的“第二”等类似用语,仅用于区分同类事物,不具有排序等其他限定作用。
以上步骤具体如下:
首先,在步骤S110,获取多个原始候选集。
具体地,其中每个原始候选集中包括对应的目标词语,用语改写该目标词语的一个或多个候选词语,以及将该目标词语改写为其中各个候选词语的改写概率。
在一个实施例中,上述多个原始候选集基于预设类别的多个文本而预先确定,其中预设类别可以为歌词、诗歌和情书等等。在一个实施例中,可以采用以下方式确定多个原始候选集:首先,获取预设类别的多个文本(如多个歌词文本);接着,针对多个文本中的任意一个文本,划分多个句对;然后,针对多个句对中的任意一个句对(例如,夕阳有诗情啊,黄昏有画意),进行对齐处理,得到对应的对齐句对(例如,夕阳有诗情,黄昏有画意);再接着,对该对齐句对中的两个句子分别进行分词处理,得到多个词对(如,“夕阳,黄昏”、“有,有”、“诗情,画意”),由此类推,可以基于多个文本得到大量的词对,各词对中的词语可以按原有的先后顺序排列;再然后,对大量的词对进行统计分析,得到上述多个原始候选集。在一个具体的实施例中,原始候选集可以采用以下格式{词0|||词1,a%;词2,b%;词3,c%},其中词0表示目标词语,词1、词2和词3表示候选词语,a%、b%和c%为对应的改写概率,通常其中改写概率的和值为1。在一个例子中,多个原始候选集中可以包括{夕阳|||黄昏,60%;落日,30%;晚霞,10%}、{晚霞||| 山下,70%;人家,30%}。在另一个实施例中,原始候选集可以由业务人员,基于采集的多个文本而确定。
基于此,可以获取预先确定的多个原始文本集。
接着,在步骤S120,基于所述多个原始候选集,建立关系网络图,该关系网络图用于描述多个原始候选集中包括的不同词语之间的改写关系。
在一个实施例中,建立关系网络图可以采用以下步骤实现:
首先,获取多个原始候选集中包括的多个目标词语和多个候选词语。接着,对这些词语进行去重处理,得到多个不同的词语,并将这些词语作为多个节点(如图2中的节点A、节点B等)。然后,根据原始候选集中词语之间的改写关系,对多个节点进行连接,其中的改写关系是具有方向性的,相应地,节点之间的连接边为有向边,在一个具体的实施例中,将目标词语对应的节点作为有向边的起始节点,将候选词语对应的节点作为目的节点,由此有向边由起始节点指向目的节点。需要理解,有向边在图示中通常用单向箭头表示,在一个例子中,参见图2,其中节点B1对应的词语用于改写节点A 对应的词语,因此在节点A和节点B之间,建立一条由节点A指向节点B的有向边。需要说明,对于有向边所连接的两个节点,该有向边对于其中起始节点而言称为出度有向边,对于其中的目的节点而言称为入度有向边。再接着,基于改写概率,确定对应的有向边的权重。在一个具体的实施例中,可以直接将改写概率作为对应的有向边的权重。在另一个具体的实施例中,先分别对每个原始候选集中的改写概率进行归一化,再将归一化后的概率确定为对应的有向边的权重,如此可以使得每个目标词语所对应节点的出度有向边的权重之和为1。
以上可以实现关系网络图的建立。由上可知,建立的关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,该关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率。
在以下的步骤S120-步骤S150,主要以多个原始候选集中任意的一个原始候选集为例,描述对原始候选集的拓展、更新。由此类推,可以完成对全部原始候选集的更新。为便于描述,将多个原始候选集中任意的一个原始候选集称为第一原始候选集,将该第一原始候选集中的目标词语称为第一目标词语,相应地,该第一原始候选集中还包括用于改写第一目标词语的若干候选词语和对应的若干改写概率。
在建立上述关系网络图后,接着在步骤S130,针对关系网络图中表示上述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点。
需要说明,在有向图中,若某个节点经过有限数量的有向边可以到达另一个节点,则该某个节点和该另一个节点互为对方的邻居节点,其中有限数量的具体数值称为邻居节点的阶数。此外,还将该某个节点称为该另一个节点的入度邻居节点,且将该另一个节点称为该某个节点的出度邻居节点。例如参见图2,其中节点A的出度邻居节点包括节点B1、节点B2、节点C等。
具体地,上述K为大于1的整数,具体数值可以根据实际需要进行设定或调整,例如,可以设定K=2或3或5,等等。
在一个实施例中,可以根据上述关系网络图的邻接信息,确定第一目标节点的K阶以内的多个出度邻居节点。需要说明,其中邻接信息可以对应于关系网络图的多种存储方式,具体包括邻接矩阵、边数组、邻接表、十字链表和邻接多重表等,均可以用于记录图中节点之间的连接关系。此外,由上述对关系网络图的描述内容可知,节点的连接关系可以包括,节点之间是否存在连接边,连接边的方向性和权重值等,具体请参见前述内容。在一个具体的实施例中,可以通过遍历邻接表的方式,确定第一目标节点的K阶以内的多个出度邻居节点。
在一个例子中,假定K为2,则确定第一目标节点的1阶出度邻居节点和 2阶出度邻居节点。在一个更具体的例子中,参见图2,可以确定出节点A的 1阶出度邻居节点包括节点B1、节点B2和节点C,2阶出度邻居节点包括节点D、节点C和节点E,这些节点共同组成节点A的2阶以内的出度邻居节点。
以上,针对第一目标节点,可以确定出其K阶以内的多个出度邻居节点。然后,在步骤S140,确定多个出度邻居节点对应的多个改写分数。
具体地,针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数。由此类推,可以确定出多个出度邻居节点对应的多个改写分数。
在一个实施例中,针对上述第一邻居节点,先确定从第一目标节点到达第一邻居节点的若干路径,接着基于其中各条路径所包含的有向边的权重确定对应的路径权重,再确定上述若干路径所对应的若干路径权重的和值,作为上述第一改写分数。
在一个具体的实施例中,上述确定第一目标节点到达第一邻居节点的若干路径可以包括:确定从第一目标节点经过N条以内的有向边达到第一邻居节点的若干路径,其中N为预设的不小于K的整数。在一个例子中,N=K。在一个具体的例子中,假定N=K=2,参见图2,在第一目标节点为其中节点A,基于第一邻居节点为其中节点C的情况下,可以确定出节点A经过2条以内的有向边到达节点C的路径有3条,包括A→C、A→B2→C和A→B3→C。在另一个具体的实施例中,上述确定第一目标节点到达第一邻居节点的若干路径可以包括:确定从第一目标节点经过任意的有限数量的有向边达到第一邻居节点的若干路径。如此可以确定第一目标节点到达任意邻居节点的若干路径。
另一方面,在一个具体的实施例中,上述若干路径中包括第一路径,第一路径包含多条有向边。进一步地,在一个具体的实施例中,上述基于各条路径所包含有向边的权重确定对应的路径权重,包括:将所述多条有向边各自的权重连乘,作为第一路径的路径权重。在一个例子中,对于图2中的节点A经过节点B2到达节点C的路径,其路径权重为0.6*0.2=0.12。在另一个具体的实施例中,上述基于各条路径所包含有向边的权重确定对应的路径权重,包括:根据路径中各个有向边与起始节点之间的距离,为各条有向边赋予不同的加权系数,再基于此加权系数和有向边的权重进行加权求和,将得到的和值作为第一路径的路径权重。在一个例子中,对于图2中的节点A经过节点B2到达节点C的路径,有向边A→B2和B2→C的权重分别为0.6和0.2,假定被赋予的加权系数分别为0.6和0.4,则对应的路径权重为0.6*0.6+0.4*0.2=0.44。如此,可以确定出第一目标节点到达第一邻居节点的若干路径对应的若干路径权重。
进一步地,确定上述若干路径所对应的若干路径权重的和值,作为上述第一邻居节点对应的第一改写分数。在一个例子中,参见图2,在第一目标节点为节点A,第一邻居节点为节点C的情况下,可以确定出第一改写分数为 0.2+0.6*0.2+0.1*0.4=0.36。如此,可以确定第一改写分数,相应确定出多个邻居节点对应的多个改写分数。
再接着,在步骤S150,基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。
在一个实施例中,本步骤可以包括:首先,对所述多个改写分数进行归一化处理,得到多个第一概率;接着,确定所述多个第一概率中大于预设概率阈值(如0.05或0.1等)的多个概率值,并对所述多个概率值进行归一化处理,得到多个第二概率;然后,将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个第二概率。在一个例子中,参见图2,在第一目标节点为节点A的情况下,对应的第一原始概率集中包括节点B1、B2、B3和C表示的词语,节点A 的2阶以内的邻居节点包括节点B1、B2、B3、C、D和E,假定对应得到的多个改写分数为0.1、0.6、0.1、0.36、0.06和0.48,则对这些改写分数进行归一化处理得到的多个第一概率包括:0.059、0.353、0.059、0.212、0.035、 0.282,接着,假定预设概率阈值为0.05,则可以确定出大于概率阈值的多个概率值包括0.059、0.353、0.059、0.212、和0.282,并进行归一化得到多个第二概率:0.061、0.366、0.061、0.220和0.292,然后,可以将第一原始候选集中的候选词语更新为节点B1、B2、B3、C和E表示的词语,将其对应的改写概率更新为对应的多个第二概率。
在另一个实施例中,本步骤中可以包括:首先,对所述多个改写分数进行排序,并确定其中排在预定名次范围内(如前3名或前5名)的多个概率值;接着,对所述多个概率值进行归一化处理,得到多个归一化概率;然后,将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
在又一个实施例中,本步骤中可以包括:首先,确定所述多个改写分数中大于预设分数阈值的多个分值,并对所述多个分值进行归一化处理,得到多个归一化概率;接着,将所述第一原始候选集中的所述若干候选词语更新为所述多个分值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
以上,可以实现对第一原始候选集的更新,依次类推,可以实现对多个原始候选集的更新。在一个例子中,假定原始候选集为:{夕阳|||黄昏,60%;落日,30%;晚霞,10%},其经过更新后得到的更新后候选集可能为{夕阳||| 黄昏,40%;落日,20%;晚霞,15%;山下,10%;人家,8%;爱恋,7%},如此可以实现对原始候选集中候选词语的拓展,以及对改写概率的更新,使得候选词语更加丰富,改写概率的可信度、精准度和可用性更高。
综上,采用本说明书实施例披露的对词语改写候选集进行更新的方法,可以对获取的原始候选集进行更新、拓展,使得其中的候选词语更加丰富,改写概率的可信度、精准度和可用性更高,从而辅助文本自动生成、文本自动填充、文本改写、文本修正等文本处理技术的提升,提高相关服务平台的可靠性和用户的使用体验。
根据另一方面的实施例,提供了一种更新装置。具体地,图3示出根据一个实施例的对词语改写候选集进行更新的装置结构图,所述装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。
如图3所示,所述装置300包括:
获取单元310,配置为获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率。建立单元320,配置为基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率。第一确定单元330,配置为针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数。第二确定单元340,配置为针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数。更新单元350,配置为基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。
在一个实施例中,所述多个原始候选集基于预设类别的多个文本而预先确定,所述预设类别包括歌词或诗歌。
在一个实施例中,所述建立单元320具体配置为:对所述若干候选词语对应的改写概率归一化,使得所述第一目标节点的出度有向边的权重之和为1。
在一个实施例中,所述第二确定单元340具体包括:第一确定子单元341,配置为确定从所述第一目标节点经过K条以内的有向边到达所述第一邻居节点的若干路径;第二确定子单元342,配置为基于各条路径所包含有向边的权重确定对应的路径权重;第三确定子单元343,配置为确定所述若干路径所对应的若干路径权重的和值,作为所述第一改写分数。
在一个具体的实施例中,所述若干路径包括第一路径,所述第一路径包含多条有向边;所述第二确定子单元342具体配置为:将所述多条有向边各自的权重连乘,作为第一路径的路径权重。
在一个实施例中,其中所述更新单元350具体配置为:对所述多个改写分数进行归一化处理,得到多个第一概率;确定所述多个第一概率中大于预设概率阈值的多个概率值,并对所述多个概率值进行归一化处理,得到多个第二概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个第二概率。
在一个实施例中,所述更新单元350具体配置为:对所述多个改写分数进行排序,并确定其中排在预定名次范围内的多个概率值;对所述多个概率值进行归一化处理,得到多个归一化概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
在一个实施例中,所述更新单元350具体配置为:确定所述多个改写分数中大于预设分数阈值的多个分值,并对该多个分值进行归一化处理,得到多个归一化概率;将所述第一原始候选集中的所述若干候选词语更新为所述多个分值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
综上,采用本说明书实施例披露的对词语改写候选集进行更新的装置,可以对获取的原始候选集进行更新、拓展,使得其中的候选词语更加丰富,改写概率的可信度、精准度和可用性更高,从而辅助文本自动生成、文本自动填充、文本改写、文本修正等文本处理技术的提升,提高相关服务平台的可靠性和用户的使用体验。
根据又一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图1 所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图1所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (18)
1.一种对词语改写候选集进行更新的方法,包括:
获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;
基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;
针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;
针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;
基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。
2.根据权利要求1所述的方法,其中,所述多个原始候选集基于预设类别的多个文本而预先确定,所述预设类别包括歌词或诗歌。
3.根据权利要求1所述的方法,其中,基于所述多个原始候选集,建立关系网络图,包括:
对所述若干候选词语对应的改写概率归一化,使得所述第一目标节点的出度有向边的权重之和为1。
4.根据权利要求1所述的方法,其中,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数,包括:
确定从所述第一目标节点经过K条以内的有向边到达所述第一邻居节点的若干路径;
基于各条路径所包含有向边的权重确定对应的路径权重;
确定所述若干路径所对应的若干路径权重的和值,作为所述第一改写分数。
5.根据权利要求4所述的方法,其中,所述若干路径包括第一路径,所述第一路径包含多条有向边;基于各条路径所包含有向边的权重确定对应的路径权重,包括:
将所述多条有向边各自的权重连乘,作为第一路径的路径权重。
6.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
对所述多个改写分数进行归一化处理,得到多个第一概率;
确定所述多个第一概率中大于预设概率阈值的多个概率值,并对所述多个概率值进行归一化处理,得到多个第二概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个第二概率。
7.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
对所述多个改写分数进行排序,并确定其中排在预定名次范围内的多个概率值;
对所述多个概率值进行归一化处理,得到多个归一化概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
8.根据权利要求1所述的方法,其中,更新所述第一原始候选集中的候选词语和对应的改写概率,包括:
确定所述多个改写分数中大于预设分数阈值的多个分值,并对所述多个分值进行归一化处理,得到多个归一化概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个分值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
9.一种对词语改写候选集进行更新的装置,包括:
获取单元,配置为获取多个原始候选集,其中任意的第一原始候选集中包括对应的第一目标词语,用于改写所述第一目标词语的若干候选词语,以及将所述第一目标词语改写为其中各个候选词语的改写概率;
建立单元,配置为基于所述多个原始候选集,建立关系网络图;所述关系网络图中包括多个节点,表示所述多个原始候选集中包含的多个不同的词语,所述关系网络图中还包括节点之间的有向边和有向边的权重,分别表示对应词语之间的改写关系和改写概率;
第一确定单元,配置为针对所述关系网络图中表示所述第一目标词语的第一目标节点,确定其K阶以内的多个出度邻居节点,所述K为预设的大于1的整数;
第二确定单元,配置为针对所述多个出度邻居节点中任意的第一邻居节点,根据从所述第一目标节点到该第一邻居节点所经过的有向边和有向边的权重,确定将所述第一目标词语改写为所述第一邻居节点所表示的词语的第一改写分数;
更新单元,配置为基于确定出的对应于所述多个出度邻居节点的多个改写分数,以及所述多个出度邻居节点对应的多个词语,更新所述第一原始候选集中的候选词语和对应的改写概率。
10.根据权利要求9所述的装置,其中,所述多个原始候选集基于预设类别的多个文本而预先确定,所述预设类别包括歌词或诗歌。
11.根据权利要求9所述的装置,其中,所述建立单元具体配置为:
对所述若干候选词语对应的改写概率归一化,使得所述第一目标节点的出度有向边的权重之和为1。
12.根据权利要求9所述的装置,其中,所述第二确定单元具体包括:
第一确定子单元,配置为确定从所述第一目标节点经过K条以内的有向边到达所述第一邻居节点的若干路径;
第二确定子单元,配置为基于各条路径所包含有向边的权重确定对应的路径权重;
第三确定子单元,配置为确定所述若干路径所对应的若干路径权重的和值,作为所述第一改写分数。
13.根据权利要求12所述的装置,其中,所述若干路径包括第一路径,所述第一路径包含多条有向边;所述第二确定子单元具体配置为:
将所述多条有向边各自的权重连乘,作为第一路径的路径权重。
14.根据权利要求9所述的装置,其中所述更新单元具体配置为:
对所述多个改写分数进行归一化处理,得到多个第一概率;
确定所述多个第一概率中大于预设概率阈值的多个概率值,并对所述多个概率值进行归一化处理,得到多个第二概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个第二概率。
15.根据权利要求9所述的装置,其中,所述更新单元具体配置为:
对所述多个改写分数进行排序,并确定其中排在预定名次范围内的多个概率值;
对所述多个概率值进行归一化处理,得到多个归一化概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个概率值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
16.根据权利要求9所述的装置,其中,所述更新单元具体配置为:
确定所述多个改写分数中大于预设分数阈值的多个分值,并对所述多个分值进行归一化处理,得到多个归一化概率;
将所述第一原始候选集中的所述若干候选词语更新为所述多个分值对应的多个词语,将其对应的改写概率更新为所述多个归一化概率。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010120899.6A CN111310419B (zh) | 2020-02-26 | 2020-02-26 | 对词语改写候选集进行更新的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010120899.6A CN111310419B (zh) | 2020-02-26 | 2020-02-26 | 对词语改写候选集进行更新的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310419A true CN111310419A (zh) | 2020-06-19 |
CN111310419B CN111310419B (zh) | 2023-04-28 |
Family
ID=71160263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010120899.6A Active CN111310419B (zh) | 2020-02-26 | 2020-02-26 | 对词语改写候选集进行更新的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310419B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897309A (zh) * | 2015-12-18 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种相似词的聚合方法和装置 |
CN107832299A (zh) * | 2017-11-17 | 2018-03-23 | 北京百度网讯科技有限公司 | 基于人工智能的标题的改写处理方法、装置及可读介质 |
CN109117475A (zh) * | 2018-07-02 | 2019-01-01 | 武汉斗鱼网络科技有限公司 | 一种文本改写的方法以及相关设备 |
CN110032603A (zh) * | 2019-01-22 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种对关系网络图中的节点进行聚类的方法及装置 |
CN110598067A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 词语权重获取方法、装置及存储介质 |
CN110598209A (zh) * | 2019-08-21 | 2019-12-20 | 合肥工业大学 | 用于提取关键词的方法、系统及存储介质 |
CN110717010A (zh) * | 2018-06-27 | 2020-01-21 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及系统 |
-
2020
- 2020-02-26 CN CN202010120899.6A patent/CN111310419B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897309A (zh) * | 2015-12-18 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种相似词的聚合方法和装置 |
CN107832299A (zh) * | 2017-11-17 | 2018-03-23 | 北京百度网讯科技有限公司 | 基于人工智能的标题的改写处理方法、装置及可读介质 |
CN110717010A (zh) * | 2018-06-27 | 2020-01-21 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及系统 |
CN109117475A (zh) * | 2018-07-02 | 2019-01-01 | 武汉斗鱼网络科技有限公司 | 一种文本改写的方法以及相关设备 |
CN110032603A (zh) * | 2019-01-22 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种对关系网络图中的节点进行聚类的方法及装置 |
CN110598209A (zh) * | 2019-08-21 | 2019-12-20 | 合肥工业大学 | 用于提取关键词的方法、系统及存储介质 |
CN110598067A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 词语权重获取方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111310419B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837550B (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
JP7210587B2 (ja) | 知識および自然言語処理を統合するための機械学習 | |
KR101312788B1 (ko) | 지역 워드 휠링/웹 검색을 위한 통계 정보 기반 분류를 위한 컴퓨터 구현 시스템 및 방법 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
US9536444B2 (en) | Evaluating expert opinions in a question and answer system | |
US8204738B2 (en) | Removing bias from features containing overlapping embedded grammars in a natural language understanding system | |
CN112989055B (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN109189894B (zh) | 一种答案抽取方法及装置 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
CN111046158B (zh) | 问答匹配方法及模型训练方法、装置、设备、存储介质 | |
US10013436B1 (en) | Image annotation based on label consensus | |
CN110795938A (zh) | 文本序列分词方法、装置及存储介质 | |
JP2023536103A (ja) | 制御可能なテキスト要約化のためのシステムおよび方法 | |
CN103534696A (zh) | 针对口语语言理解中的域检测利用查询点击记录 | |
CN112214584A (zh) | 使用知识图利用实体关系来发现答案 | |
CN107092667A (zh) | 基于社交网络的群组查找方法和装置 | |
WO2014020834A1 (ja) | 単語潜在トピック推定装置および単語潜在トピック推定方法 | |
CN111310419A (zh) | 对词语改写候选集进行更新的方法及装置 | |
US9378466B2 (en) | Data reduction in nearest neighbor classification | |
US10546247B2 (en) | Switching leader-endorser for classifier decision combination | |
CN115526315A (zh) | 评分卡模型的生成方法和装置 | |
JPWO2010026804A1 (ja) | 近似照合装置、近似照合方法、プログラム及び記録媒体 | |
CN109408713A (zh) | 一种基于用户反馈信息的软件需求检索系统 | |
JP2010266969A (ja) | 文字検索装置、文字検索システム、文字検索方法、入力端末装置、検索サーバおよびプログラム | |
CN113885882B (zh) | 一种还原iOS类型字符串的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |