CN117272938A - 一种用于文本生成的动态限定域解码方法、设备及介质 - Google Patents
一种用于文本生成的动态限定域解码方法、设备及介质 Download PDFInfo
- Publication number
- CN117272938A CN117272938A CN202311557656.9A CN202311557656A CN117272938A CN 117272938 A CN117272938 A CN 117272938A CN 202311557656 A CN202311557656 A CN 202311557656A CN 117272938 A CN117272938 A CN 117272938A
- Authority
- CN
- China
- Prior art keywords
- tree structure
- word
- keywords
- decoding
- word tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005070 sampling Methods 0.000 claims abstract description 86
- 238000012216 screening Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种用于文本生成的动态限定域解码方法、设备及介质。属于电数字数据处理技术领域。解决文本生成效率较低的问题。包括,基于解码内容构建词树结构;获取词树结构中根目录下所有词的第一关键字,基于所有词的第一关键字构建第一解码范围;在第一解码范围中进行字采样,基于第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字;将第二关键字作为父节点,基于词树结构与第二关键字,构建第二解码范围;在第二解码范围中重新进行字采样,基于第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字;直至得到所需采样结果,结束解码范围生成与采样,并确定文本生成过程完成。
Description
技术领域
本申请涉及电数字数据处理技术领域,尤其涉及一种用于文本生成的动态限定域解码方法、设备及介质。
背景技术
随着计算语言学的不断发展,自然语言生成在越来越多的领域得到了应用落地,使用计算机来生成文本,以满足对话、评价、描述、作文等的任务需求,使得自然语言生成技术越来越受到学界和工业界的重视。
现有技术中,文本生成模型是逐字生成的,通常的做法是针对每个token(token指用于将数据划分为不同部分或用于跟踪特定数据对象的处理状态的标识符),在整个词典上计算概率分布,然后进行采样。
由于现有的文本生成方法所需要的解码范围是整个词典,数据量较大,解码范围大,以致使得文本生成结果的可信度较低。
发明内容
本申请实施例提供了一种用于文本生成的动态限定域解码方法、设备及介质,用于解决如下技术问题:由于现有的文本生成方法所需要的解码范围是整个词典,数据量较大,解码范围大,以致使得文本生成结果的可信度较低。
本申请实施例采用下述技术方案:
本申请实施例提供一种用于文本生成的动态限定域解码方法。包括,基于解码内容构建词树结构;获取词树结构中根目录下所有词的第一关键字,基于所有词的第一关键字构建第一解码范围;在第一解码范围中进行字采样,基于第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字;将第二关键字作为父节点,基于词树结构与第二关键字,构建第二解码范围;在第二解码范围中重新进行字采样,基于第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字;直至得到所需采样结果,结束解码范围生成与采样,并确定文本生成过程完成。
本申请实施例通过构建词树结构,限定范围不再是单一词典,而是词树,每个token的解码限定域根据在词树中的位置而定。通过词树结构中根目录下所有词的第一关键字构建第一解码范围,限定范围解码使得生成的文本保证在词树中,不乱生成。其次,基于第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字,兼顾生成内容整体的概率,从而确保生成的文本的准确率,提高文本生成的可信度。
在本申请的一种实现方式中,基于第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字,具体包括:确定出第一解码范围中多个第一关键字分别出现的次数;以及确定出第一解码范围中多个第一关键字的总数量;基于出现的次数与总数量,确定出多个第一关键字分别对应的采样概率;基于采样概率,对多个第一关键字进行排序,以基于排序顺序,将预设数量的第一关键字筛除,以得到筛选后的第一解码范围;在筛选后的第一解码范围中,对剩余的多个第一关键字进行随机采样,以确定出第二关键字。
在本申请的一种实现方式中,将第二关键字作为父节点,基于词树结构与第二关键字,构建第二解码范围,具体包括:基于第二关键字,在词树结构中确定出与第二关键字存在连接关系的多个参考字;其中,多个参考字均为第二关键字的子节点;基于多个参考字构建第二解码范围。
在本申请的一种实现方式中,在第二解码范围中重新进行字采样,基于第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字,具体包括:确定出第二解码范围中多个第二关键字分别出现的次数;以及确定出第二解码范围中多个第二关键字的总数量;基于出现的次数与总数量,确定出多个第二关键字分别对应的采样概率;基于采样概率,对多个第二关键字进行排序,以基于排序顺序,将预设数量的第二关键字筛除,以得到筛选后的第二解码范围;在筛选后的第二解码范围中,对剩余的多个第二关键字进行随机采样,以确定出下一关键字。
在本申请的一种实现方式中,获取词树结构中根目录下所有词的第一关键字,基于所有词的第一关键字构建第一解码范围,具体包括:将词树结构中的根节点设为查找节点;确定出查找节点所对应的多个子节点;确定出多个子节点分别对应的词语,并确定出每个词语的第一个字;根据第一个字,确定是否存在与第一个字相连接的下一个字;在不存在下一个字的情况下,将第一个字对应的子节点设为最后匹配节点;基于每个词语的第一个字,构建第一解码范围。
在本申请的一种实现方式中,基于解码内容构建词树结构,具体包括:获取待构建词树结构的数据;其中,待构建词树结构的数据与解码内容相关;将预置词树结构的根节点作为当前节点,以及,将当前节点的子树确定为当前目标子树;在当前目标子树中对待构建词树结构的数据进行查询,并基于查询结果,将待构建词树结构的数据插入预置词树结构中,以对预置词树结构进行更新,得到基于解码内容构建的词树结构。
在本申请的一种实现方式中,在当前目标子树中对待构建词树结构的数据进行查询,并基于查询结果,将待构建词树结构的数据插入预置词树结构中,以对预置词树结构进行更新,具体包括:在当前目标子树的第一层,查找待构建词树结构的数据的第一个字符;在当前目标子树中,不存在待构建词树结构的数据的第一个字符的情况下,依次将待构建词树结构的数据插入当前目标子树中对应的层;以及依次连接所插入的字符,生成预置词树结构新的路径,以对预置词树结构进行更新。
在本申请的一种实现方式中,在当前目标子树的第一层,查找待构建词树结构的数据的第一个字符之后,方法还包括:在当前目标子树中,存在待构建词树结构的数据的第一个字符的情况下,则将当前节点更新为查找到的第一个字符;以及将待构建词树结构的数据中的第一个字符进行移出,以更新待构建词树结构的数据。
本申请实施例提供一种用于文本生成的动态限定域解码设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:基于解码内容构建词树结构;获取词树结构中根目录下所有词的第一关键字,基于所有词的第一关键字构建第一解码范围;在第一解码范围中进行字采样,基于第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字;将第二关键字作为父节点,基于词树结构与第二关键字,构建第二解码范围;在第二解码范围中重新进行字采样,基于第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字;直至得到所需采样结果,结束解码范围生成与采样,并确定文本生成过程完成。
本申请实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:基于解码内容构建词树结构;获取词树结构中根目录下所有词的第一关键字,基于所有词的第一关键字构建第一解码范围;在第一解码范围中进行字采样,基于第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字;将第二关键字作为父节点,基于词树结构与第二关键字,构建第二解码范围;在第二解码范围中重新进行字采样,基于第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字;直至得到所需采样结果,结束解码范围生成与采样,并确定文本生成过程完成。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本申请实施例通过构建词树结构,限定范围不再是单一词典,而是词树,每个token的解码限定域根据在词树中的位置而定。通过词树结构中根目录下所有词的第一关键字构建第一解码范围,限定范围解码使得生成的文本保证在词树中,不乱生成,其次,基于所述第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字,兼顾生成内容整体的概率,从而确保生成的文本的准确率,提高文本生成的可信度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种用于文本生成的动态限定域解码方法流程图;
图2为本申请实施例提供的一种用于文本生成的动态限定域解码设备的结构示意图。
附图标记:
200用于文本生成的动态限定域解码设备,201处理器,202存储器。
具体实施方式
本申请实施例提供一种用于文本生成的动态限定域解码方法、设备及介质。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
下面通过附图对本申请实施例提出的技术方案进行详细的说明。
图1为本申请实施例提供的一种用于文本生成的动态限定域解码方法流程图,如图1所示,用于文本生成的动态限定域解码方法包括如下步骤:
S101、基于解码内容构建词树结构。
在本申请的一个实施例中,获取待构建词树结构的数据;其中,待构建词树结构的数据与解码内容相关。将预置词树结构的根节点作为当前节点,以及,将当前节点的子树确定为当前目标子树。在当前目标子树中对待构建词树结构的数据进行查询,并基于查询结果,将待构建词树结构的数据插入预置词树结构中,以对预置词树结构进行更新,得到基于解码内容构建的词树结构。
具体地,获取待构建词树结构的数据,该待构建词树结构的数据与当前解码内容相关。获取预置词树结构,在该预置词树结构中,可能不存在该待构建词树结构的数据,也可能存在或部分存在该待构建词树结构的数据。
进一步地,将该预置词树结构的根节点作为当前节点,以及,将当前节点的子树确定为当前目标子树,以便在该当前目标子树中进行查询。具体地,在当前目标子树中对待构建词树结构的数据进行查询,例如,该待构建词树结构的数据存在该当前目标子树中,或者该待构建词树结构的数据不存在于该当前目标子树中。基于不同的查询结果,对当前预置词树结构进行更新,从而得到与当前待构建词树结构的数据相关的词树结构。
在本申请的一个实施例中,在当前目标子树的第一层,查找待构建词树结构的数据的第一个字符。在当前目标子树中,不存在待构建词树结构的数据的第一个字符的情况下,依次将待构建词树结构的数据插入当前目标子树中对应的层;以及依次连接所插入的字符,生成预置词树结构新的路径,以对预置词树结构进行更新。
具体地,在对当前目标子树进行查询时,首先在该目标子树的第一层进行查询,以确定在第一层是否存在待构建词树结构的数据的第一个字符。若不存在该待构建词树结构的数据的第一个字符,则说明当前目标子树中不存在该待构建词树结构的数据,此时,需要将该待构建词树结构的数据插入至当前目标子树对应的层。其中,将待构建词树结构的数据插入当前层时,需要按照待构建词树结构的数据所对应的排列顺序依次进行插入,以确保词树结构的准确性。基于插入的数据,对当前预置词树结构进行更新,从而得到与当前解码内容相匹配的词树结构。
在本申请的一个实施例中,在当前目标子树中,存在待构建词树结构的数据的第一个字符的情况下,则将当前节点更新为查找到的第一个字符。以及将待构建词树结构的数据中的第一个字符进行移出,以更新待构建词树结构的数据。
具体地,若当前目标子树中,存在该待构建词树结构的数据的第一个字符,此时说明该目标子树中存在当前数据,无需对其进行更新。此时,可以将当前节点更新为查到到的第一个字符,以便后续解码。其次,将待构建词树结构的数据中的该第一个字符进行删除,以更新待构建词树结构的数据。从而确保不会对该第一个字符进行重复查询,减少词树结构更新的失误次数。
S102、获取词树结构中根目录下所有词的第一关键字,基于所有词的第一关键字构建第一解码范围。
在本申请的一个实施例中,将词树结构中的根节点设为查找节点。确定出查找节点所对应的多个子节点。确定出多个子节点分别对应的词语,并确定出每个词语的第一个字。根据第一个字,确定是否存在与第一个字相连接的下一个字。在不存在下一个字的情况下,将第一个字对应的子节点设为最后匹配节点。基于每个词语的第一个字,构建第一解码范围。
具体地,将词树结构中的根节点设为查找节点,对该查找节点进行子节点查询,若存在子节点,则确定出各子节点分别对应的词语,并确定出每个词语分别对应的第一个字。其次,确定出是否还存在与该第一个字相连的下一个字,若不存在下一个字,则说明当前子结点不存在下一个结点,无需对其进行下一节点查询,因此对其进行标注,设为最后匹配节点,从而减轻在词语查找中的工作量。将确定出的多个词语分别对应的第一个字进行统计,以建立第一节解码范围。
例如,若构建的词树结构中的词语包括“体育”、“财经”、“时政”以及“娱乐”。对其进行查询,确定出每个词语的第一个字,即,“体育”中的第一个字,“财经”中的第一个字,“时政”中的第一个字以及“娱乐”中的第一个字。基于确定出的多个第一个字,构建第一解码范围。
S103、在第一解码范围中进行字采样,基于第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字。
在本申请的一个实施例中,确定出第一解码范围中多个第一关键字分别出现的次数,以及确定出第一解码范围中多个第一关键字的总数量。基于出现的次数与总数量,确定出多个第一关键字分别对应的采样概率,基于采样概率,对多个第一关键字进行排序,以基于排序顺序。将预设数量的第一关键字筛除,以得到筛选后的第一解码范围。在筛选后的第一解码范围中,对剩余的多个第一关键字进行随机采样,以确定出第二关键字。
具体地,在第一解码范围中,确定出各个第一关键字分别出现的次数,以及确定出该第一解码范围中含有的第一关键词的总数量。基于各第一关键词出现的次数与该总数量之间的比值,确定出各个第一关键词分别对应的采样概率。
进一步地,基于该采样概率,对该第一解码范围中的多个第一关键字进行排序,例如,可以按照采样概率从高至低进行排序,基于排列顺序,将采样概率较低的第一关键字进行筛除,以得到筛选后的第一解码范围。
进一步地,在筛选后的第一解码范围中,对剩余的多个第一关键字进行随机采样,以得到第二关键字。
S104、将第二关键字作为父节点,基于词树结构与第二关键字,构建第二解码范围。
在本申请的一个实施例中,基于所述第二关键字,在所述词树结构中确定出与所述第二关键字存在连接关系的多个参考字,其中,所述多个参考字均为所述第二关键字的子节点。基于所述多个参考字构建所述第二解码范围。
具体地,基于确定出的第二关键字,在词树结构中进行查询,以确定出与该第二关键字相关联的参考字,并统计出得到的多个参考字构建第二解码范围。
S105、在第二解码范围中重新进行字采样,基于第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字。
在本申请的一个实施例中,确定出第二解码范围中多个第二关键字分别出现的次数;以及确定出第二解码范围中多个第二关键字的总数量。基于出现的次数与总数量,确定出多个第二关键字分别对应的采样概率。基于采样概率,对多个第二关键字进行排序,以基于排序顺序,将预设数量的第二关键字筛除,以得到筛选后的第二解码范围。在筛选后的第二解码范围中,对剩余的多个第二关键字进行随机采样,以确定出下一关键字。
具体地,在第二解码范围中,确定出各个第二关键字分别出现的次数,以及确定出该第二解码范围中含有的第二关键词的总数量。基于各第二关键词出现的次数与该总数量之间的比值,确定出各个第二关键词分别对应的采样概率。
进一步地,基于该采样概率,对该第二解码范围中的多个第二关键字进行排序,例如,可以按照采样概率从高至低进行排序,基于排列顺序,将采样概率较低的第二关键字进行筛除,以得到筛选后的第二解码范围。
进一步地,在筛选后的第二解码范围中,对剩余的多个二关键字进行随机采样,以得到下一关键字。
S106、直至得到所需采样结果,结束解码范围生成与采样,并确定文本生成过程完成。
在本申请的一个实施例中,在得到需要的采样结果后,结束解码范围生成与采样,以确定文本生成过程结束。
图2为本申请实施例提供的一种用于文本生成的动态限定域解码设备的结构示意图。如图2所示,用于文本生成的动态限定域解码设备200,包括:至少一个处理器201;以及,与至少一个处理器201通信连接的存储器202;其中,存储器202存储有可被至少一个处理器201执行的指令,指令被至少一个处理器201执行,以使至少一个处理器201能够:基于解码内容构建词树结构;获取所述词树结构中根目录下所有词的第一关键字,基于所述所有词的第一关键字构建第一解码范围;在所述第一解码范围中进行字采样,基于所述第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字;将所述第二关键字作为父节点,基于所述词树结构与所述第二关键字,构建第二解码范围;在所述第二解码范围中重新进行字采样,基于所述第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字;直至得到所需采样结果,结束解码范围生成与采样,并确定文本生成过程完成。
本申请实施例还提供一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:基于解码内容构建词树结构;获取所述词树结构中根目录下所有词的第一关键字,基于所述所有词的第一关键字构建第一解码范围;在所述第一解码范围中进行字采样,基于所述第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字;将所述第二关键字作为父节点,基于所述词树结构与所述第二关键字,构建第二解码范围;在所述第二解码范围中重新进行字采样,基于所述第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字;直至得到所需采样结果,结束解码范围生成与采样,并确定文本生成过程完成。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请的实施例可以有各种更改和变化。而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种用于文本生成的动态限定域解码方法,其特征在于,所述方法包括:
基于解码内容构建词树结构;
获取所述词树结构中根目录下所有词的第一关键字,基于所述所有词的第一关键字构建第一解码范围;
在所述第一解码范围中进行字采样,基于所述第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字;
将所述第二关键字作为父节点,基于所述词树结构与所述第二关键字,构建第二解码范围;
在所述第二解码范围中重新进行字采样,基于所述第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字;
直至得到所需采样结果,结束解码范围生成与采样,并确定文本生成过程完成。
2.根据权利要求1所述的一种用于文本生成的动态限定域解码方法,其特征在于,所述基于所述第一解码范围中多个第一关键字分别对应的采样概率,确定出第二关键字,具体包括:
确定出所述第一解码范围中多个第一关键字分别出现的次数;
以及,确定出所述第一解码范围中所述多个第一关键字的总数量;
基于所述出现的次数与所述总数量,确定出所述多个第一关键字分别对应的采样概率;
基于所述采样概率,对所述多个第一关键字进行排序,以基于排序顺序,将预设数量的第一关键字筛除,以得到筛选后的第一解码范围;
在所述筛选后的第一解码范围中,对剩余的所述多个第一关键字进行随机采样,以确定出所述第二关键字。
3.根据权利要求1所述的一种用于文本生成的动态限定域解码方法,其特征在于,所述将所述第二关键字作为父节点,基于所述词树结构与所述第二关键字,构建第二解码范围,具体包括:
基于所述第二关键字,在所述词树结构中确定出与所述第二关键字存在连接关系的多个参考字;其中,所述多个参考字均为所述第二关键字的子节点;
基于所述多个参考字构建所述第二解码范围。
4.根据权利要求1所述的一种用于文本生成的动态限定域解码方法,其特征在于,所述在所述第二解码范围中重新进行字采样,基于所述第二解码范围中多个第二关键字分别对应的采样概率,确定出下一关键字,具体包括:
确定出所述第二解码范围中多个第二关键字分别出现的次数;
以及,确定出所述第二解码范围中所述多个第二关键字的总数量;
基于所述出现的次数与所述总数量,确定出所述多个第二关键字分别对应的采样概率;
基于所述采样概率,对所述多个第二关键字进行排序,以基于排序顺序,将预设数量的第二关键字筛除,以得到筛选后的第二解码范围;
在所述筛选后的第二解码范围中,对剩余的所述多个第二关键字进行随机采样,以确定出所述下一关键字。
5.根据权利要求1所述的一种用于文本生成的动态限定域解码方法,其特征在于,所述获取所述词树结构中根目录下所有词的第一关键字,基于所述所有词的第一关键字构建第一解码范围,具体包括:
将所述词树结构中的根节点设为查找节点;
确定出所述查找节点所对应的多个子节点;
确定出所述多个子节点分别对应的词语,并确定出每个词语的第一个字;
根据所述第一个字,确定是否存在与所述第一个字相连接的下一个字;
在不存在下一个字的情况下,将所述第一个字对应的子节点设为最后匹配节点;
基于所述每个词语的第一个字,构建所述第一解码范围。
6.根据权利要求1所述的一种用于文本生成的动态限定域解码方法,其特征在于,所述基于解码内容构建词树结构,具体包括:
获取待构建词树结构的数据;其中,所述待构建词树结构的数据与所述解码内容相关;
将预置词树结构的根节点作为当前节点,以及,将当前节点的子树确定为当前目标子树;
在所述当前目标子树中对所述待构建词树结构的数据进行查询,并基于查询结果,将所述待构建词树结构的数据插入所述预置词树结构中,以对所述预置词树结构进行更新,得到基于所述解码内容构建的词树结构。
7.根据权利要求6所述的一种用于文本生成的动态限定域解码方法,其特征在于,所述在所述当前目标子树中对所述待构建词树结构的数据进行查询,并基于查询结果,将所述待构建词树结构的数据插入所述预置词树结构中,以对所述预置词树结构进行更新,具体包括:
在所述当前目标子树的第一层,查找所述待构建词树结构的数据的第一个字符;
在所述当前目标子树中,不存在所述待构建词树结构的数据的第一个字符的情况下,依次将所述待构建词树结构的数据插入所述当前目标子树中对应的层;
以及,依次连接所插入的字符,生成所述预置词树结构新的路径,以对所述预置词树结构进行更新。
8.根据权利要求7所述的一种用于文本生成的动态限定域解码方法,其特征在于,所述在所述当前目标子树的第一层,查找所述待构建词树结构的数据的第一个字符之后,所述方法还包括:
在所述当前目标子树中,存在所述待构建词树结构的数据的第一个字符的情况下,则将所述当前节点更新为查找到的所述第一个字符;
以及,将所述待构建词树结构的数据中的所述第一个字符进行移出,以更新所述待构建词树结构的数据。
9.一种用于文本生成的动态限定域解码设备,其特征在于,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备执行权利要求1-8中的任一项所述的方法。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令能够执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311557656.9A CN117272938B (zh) | 2023-11-22 | 2023-11-22 | 一种用于文本生成的动态限定域解码方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311557656.9A CN117272938B (zh) | 2023-11-22 | 2023-11-22 | 一种用于文本生成的动态限定域解码方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117272938A true CN117272938A (zh) | 2023-12-22 |
CN117272938B CN117272938B (zh) | 2024-02-20 |
Family
ID=89218157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311557656.9A Active CN117272938B (zh) | 2023-11-22 | 2023-11-22 | 一种用于文本生成的动态限定域解码方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117272938B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5696507A (en) * | 1996-05-31 | 1997-12-09 | Daewoo Electronics Co., Inc. | Method and apparatus for decoding variable length code |
US6411957B1 (en) * | 1999-06-30 | 2002-06-25 | Arm Limited | System and method of organizing nodes within a tree structure |
CN106021397A (zh) * | 2016-05-12 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种关键词查找的树结构及实现方法 |
CN110851722A (zh) * | 2019-11-12 | 2020-02-28 | 腾讯云计算(北京)有限责任公司 | 基于字典树的搜索处理方法、装置、设备和存储介质 |
KR102128037B1 (ko) * | 2019-03-18 | 2020-06-29 | 주식회사 로그프레소 | 다계층 메모리 구조에 최적화된 데이터 인덱스 방법 및 그 방법에 의해 인덱스된 데이터의 검색 방법 |
CN111684802A (zh) * | 2017-12-06 | 2020-09-18 | V-诺瓦国际有限公司 | 用于对字节流进行分级编码和解码的方法和设备 |
-
2023
- 2023-11-22 CN CN202311557656.9A patent/CN117272938B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5696507A (en) * | 1996-05-31 | 1997-12-09 | Daewoo Electronics Co., Inc. | Method and apparatus for decoding variable length code |
US6411957B1 (en) * | 1999-06-30 | 2002-06-25 | Arm Limited | System and method of organizing nodes within a tree structure |
CN106021397A (zh) * | 2016-05-12 | 2016-10-12 | 武汉斗鱼网络科技有限公司 | 一种关键词查找的树结构及实现方法 |
CN111684802A (zh) * | 2017-12-06 | 2020-09-18 | V-诺瓦国际有限公司 | 用于对字节流进行分级编码和解码的方法和设备 |
KR102128037B1 (ko) * | 2019-03-18 | 2020-06-29 | 주식회사 로그프레소 | 다계층 메모리 구조에 최적화된 데이터 인덱스 방법 및 그 방법에 의해 인덱스된 데이터의 검색 방법 |
CN110851722A (zh) * | 2019-11-12 | 2020-02-28 | 腾讯云计算(北京)有限责任公司 | 基于字典树的搜索处理方法、装置、设备和存储介质 |
CN111460311A (zh) * | 2019-11-12 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 基于字典树的搜索处理方法、装置、设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
""Sentence-level heuristic tree search for long text generation"", 《COMPLEX & INTELLIGENT SYSTEMS》, vol. 2023 * |
叶庆卫, 汪同庆: "基于二叉树相似性检测的变形文字识别研究", 计算机工程与应用, no. 31 * |
叶敏;范金锋;: "基于二叉排序树及中文分词的关键字过滤技术", 电力信息化, no. 07 * |
Also Published As
Publication number | Publication date |
---|---|
CN117272938B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN104915264A (zh) | 一种输入纠错方法和装置 | |
JP2010506247A (ja) | 迷惑情報をフィルタリングするネットワークベースの方法および装置 | |
US8364696B2 (en) | Efficient incremental parsing of context sensitive programming languages | |
CN110674306B (zh) | 知识图谱的构建方法、装置、电子设备 | |
CN114218932B (zh) | 基于故障因果图谱的航空故障文本摘要生成方法及其装置 | |
WO2015010509A1 (zh) | 一种基于一维线性空间实现Trie树的词典检索方法 | |
CN111708805A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
US10984050B2 (en) | Method, apparatus, and computer program product for managing storage system | |
CN111435406A (zh) | 一种纠正数据库语句拼写错误的方法和装置 | |
CN112115313A (zh) | 正则表达式的生成、数据提取方法、装置、设备及介质 | |
CN111488736A (zh) | 自学习分词方法、装置、计算机设备和存储介质 | |
CN110888876A (zh) | 生成数据库脚本的方法、装置、存储介质及计算机设备 | |
CN117272938B (zh) | 一种用于文本生成的动态限定域解码方法、设备及介质 | |
CN115774750A (zh) | 数据库入湖配置方法、系统、电子设备及存储介质 | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 | |
CN113590650A (zh) | 基于特征表达式的结构化查询语句甄别方法及装置 | |
CN114676155A (zh) | 代码提示信息的确定方法、数据集的确定方法及电子设备 | |
CN111639099A (zh) | 全文索引方法及系统 | |
CN113076330A (zh) | 查询处理方法、装置、数据库系统、电子设备及存储介质 | |
CN111078671A (zh) | 数据表字段的修改方法、装置、设备和介质 | |
CN111078727A (zh) | 一种简要描述生成方法、装置及计算机可读存储介质 | |
CN110543622A (zh) | 文本相似度检测方法、装置、电子设备及可读存储介质 | |
CN114201525B (zh) | 查询数据的方法及装置 | |
CN113297273B (zh) | 查询元数据的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |