CN114281925A - 文本处理方法、装置、设备以及计算机可读存储介质 - Google Patents
文本处理方法、装置、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114281925A CN114281925A CN202011030326.0A CN202011030326A CN114281925A CN 114281925 A CN114281925 A CN 114281925A CN 202011030326 A CN202011030326 A CN 202011030326A CN 114281925 A CN114281925 A CN 114281925A
- Authority
- CN
- China
- Prior art keywords
- keypoints
- model
- input
- input sentences
- syntax tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本公开涉及文本处理领域,并具体涉及一种文本处理方法、装置、设备以及计算机可读存储介质。文本处理方法包括:接收一个或多个输入语句;从所述一个或多个输入语句中识别一个或多个关键点;以及基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。本公开的文本处理方法可以使得压缩结果覆盖所有的关键点且无需考虑语法问题。
Description
技术领域
本申请涉及文本处理领域,并且具体涉及一种文本处理方法、装置、设备以及计算机可读存储介质。
背景技术
近年来,随着计算机处理技术的高速发展,使得更精炼快速地捕获文本中的重要信息成为可能。句子压缩是一种将冗长句子转换成精炼简洁的句子的方法。该技术广泛用于主题的自动获取、摘要生成、问答系统等技术中。
现有的句子压缩方法有:构建关于句子的语法树,通过删减语法树的整个分支来生成压缩句子,或者通过训练基于神经网络的压缩模型来进行句子压缩。通过删减语法树的整个分支来生成压缩句子的方法可能会导致语法问题,而通过训练基于神经网络的压缩模型来进行句子压缩则需要大量的训练数据,人工成本较大。
发明内容
鉴于上述问题,本公开提供了一种文本处理方法、装置、设备以及计算机可读存储介质。
根据本公开的一个方面,提供了一种文本处理方法,包括:接收一个或多个输入语句;从所述一个或多个输入语句中识别一个或多个关键点;以及基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
根据本公开的一个示例,所述基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果包括:针对所述一个或多个输入语句的每个输入语句构建第一语法树,其中,所述第一语法树中的节点与所述输入语句的词相对应;以及基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果。
根据本公开的一个示例,所述基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果包括:基于所述一个或多个关键点,确定所述第一语法树上覆盖所有关键点的最短路径;以及将与所述最短路径对应的词进行组合作为所述压缩结果。
根据本公开的一个示例,所述第一语法树是基于每个输入语句中各个词之间的依存关系和出现顺序构建的。
根据本公开的一个示例,对于多个输入语句,在识别所述一个或多个关键点之前,计算不同输入语句之间重复预定次数的词;以及仅保留一个所述输入语句中的所述重复预定次数的词,并删除其他输入语句中的所述重复预定次数的词。
根据本公开的一个示例,所述从所述一个或多个输入语句中识别一个或多个关键点包括:基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点。
根据本公开的一个示例,所述基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点包括:基于关键点识别模型,从所述一个或多个输入语句中识别一个或多个关键点。
根据本公开的一个示例,通过以下步骤训练所述关键点识别模型:针对所述一个或多个输入语句的每个输入语句构建第二语法树,其中,所述第二语法树中的节点与所述输入语句的词相对应;基于所述第二语法树获得所述一个或多个输入语句中的各个词的深度信息;以及基于所述各个词的深度信息训练所述关键点识别模型。
根据本公开的一个示例,所述基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点还包括:基于所述预定规则和接收的额外信息,从所述一个或多个输入语句中识别一个或多个关键点,其中,所述额外信息包括期望的词、期望的短语和所述一个或多个输入语句对应的文章标题中的一个或多个。
根据本公开的一个示例,基于所述一个或多个输入语句的语句级别、段落级别、文本级别、数据集级别、领域级别中的一个或多个识别所述一个或多个关键点。
根据本公开的一个示例,通过对所述一个或多个输入语句的各个输入句子的词进行打分,来识别所述一个或多个关键点。
根据本公开的一个示例,基于所述一个或多个关键点的正解统计信息、所述一个或多个输入语句的各个输入句子的词的词性统计信息以及语义统计信息中的一个或多个统计信息,来识别所述一个或多个关键点。
根据本公开的一个示例,其中所述压缩结果的长度与所述一个或多个关键点的数量成比例。
根据本公开的一个方面,提供了一种文本处理装置,包括:接收单元,用于接收一个或多个输入语句;识别单元,用于从所述一个或多个输入语句中识别一个或多个关键点;以及压缩单元,用于基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
根据本公开的一个示例,所述压缩单元用于:针对所述一个或多个输入语句的每个输入语句构建第一语法树,其中,所述第一语法树中的节点与所述输入语句的词相对应;以及基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果。
根据本公开的一个示例,所述压缩单元用于:基于所述一个或多个关键点,确定所述第一语法树上覆盖所有关键点的最短路径;以及将与所述最短路径对应的词进行组合作为所述压缩结果。
根据本公开的一个示例,所述第一语法树是基于每个输入语句中各个词之间的依存关系和出现顺序构建的。
根据本公开的一个示例,所述识别单元用于:对于多个输入语句,在识别所述一个或多个关键点之前,计算不同输入语句之间重复预定次数的词;以及仅保留一个所述输入语句中的所述重复预定次数的词,并删除其他输入语句中的所述重复预定次数的词。
根据本公开的一个示例,所述识别单元用于:基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点。
根据本公开的一个示例,所述识别单元用于:基于关键点识别模型,从所述一个或多个输入语句中识别一个或多个关键点。
根据本公开的一个示例,所述识别单元通过以下步骤训练所述关键点识别模型:针对所述一个或多个输入语句的每个输入语句构建第二语法树,其中,所述第二语法树中的节点与所述输入语句的词相对应;基于所述第二语法树获得所述一个或多个输入语句中的各个词的深度信息;以及基于所述各个词的深度信息训练所述关键点识别模型。
根据本公开的一个方面,提供了一种文本处理设备,包括:处理器;以及存储器,其中存储计算机可读指令,其中,在所述计算机可读指令被所述处理器运行时执行文本处理方法,所述方法包括:接收一个或多个输入语句;从所述一个或多个输入语句中识别一个或多个关键点;以及基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
根据本公开的一个方面,提供了一种用于存储计算机可读程序的计算机可读存储介质,所述程序使得计算机执行上述任一方面所述的文本处理方法。
在本公开的上述方面中,基于每个输入语句中各个词之间的依存关系和出现顺序构建语法树,通过识别一个或多个关键点来基于关键点对语法树进行压缩,以获取压缩结果,从而可以使得压缩结果覆盖所有的关键点且无需考虑语法问题。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出了根据本公开实施例的文本处理方法的流程图;
图2示出了根据本公开实施例的训练关键点识别模型的方法的流程图;
图3示出了根据本公开实施例的训练关键点识别模型的示例的示意图;
图4示出了根据本公开实施例的构建的第一语法树的示例的示意图;
图5示出了根据本公开实施例的构建的第一语法树的另一示例的示意图;
图6示出了根据本公开实施例的构建的第一语法树的又一示例的示意图;
图7示出了根据本公开实施例的多个输入语句的处理方法的流程图;
图8示出了根据本公开实施例的文本处理方法获得压缩结果的示例的示意图;
图9示出了根据本公开实施例的训练方法的流程图;
图10示出了根据本公开实施例的训练方法的示意图;
图11示出了根据本公开实施例的训练方法的另一示意图;
图12示出了根据本公开实施例的文本处理装置的功能框图;
图13示出了根据本公开实施例的文本处理设备的功能框图;
图14示出了根据本公开实施例的计算机可读存储介质的示意图;
图15示出了根据本公开实施例的训练装置的功能框图;
图16示出了根据本公开实施例的训练设备的功能框图;
图17示出了本公开实施例所涉及的电子设备的硬件结构的一例的图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获取的所有其他实施例,都属于本公开保护的范围。
本申请中使用了流程图用来说明根据本申请的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步。
首先,参照图1来描述用于实现本公开实施例的文本处理方法100。本公开基于每个输入语句中各个词之间的依存关系和出现顺序构建语法树,通过识别一个或多个关键点来基于关键点对语法树进行压缩,以获取压缩结果,从而可以使得压缩结果覆盖所有的关键点且无需考虑语法问题。
下面结合附图对本公开的实施例及其示例进行详细说明。
本公开的至少一个实施例提供了一种文本处理方法、装置、设备和计算机可读存储介质。下面通过几个示例和实施例对根据本公开的至少一个实施例提供的文本处理进行非限制性说明,如下面所描述的,在不相互抵触的情况下,这些具体示例和实施例中不同特征可以相互组合,从而得到新的示例和实施例,这些新的示例和实施例也都属于本公开保护的范围。
下面参照图1-8描述根据本公开实施例的文本处理方法。
首先,参照图1来描述根据本公开实施例的文本处理方法100。该方法可以由计算机等自动完成。例如,该方法可以应用于文本摘要提取、文本总结、主题的自动获取以及问答系统等。例如,该文本处理获取方法可以以软件、硬件、固件或其任意组合的方式实现,由例如手机、平板电脑、笔记本电脑、桌面电脑、网络服务器等设备中的处理器加载并执行。
如图1所示,该文本处理方法包括以下步骤S101-S103。
在步骤S101中,接收一个或多个输入语句。
在步骤S102中,从所述一个或多个输入语句中识别一个或多个关键点。
在步骤S103中,基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
对于步骤S101,例如,一个或多个输入语句可以是一篇新闻、一段产品介绍、一篇论文等,这里不做限制。
对于步骤S102,例如,一个或多个关键点可以是用户期望的一个或多个字或者词。
例如,从所述一个或多个输入语句中识别一个或多个关键点可以包括:基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点。
例如,所述预定规则可以是任意已知的、用于预测关键短语或词或字的规则。例如,可以以人名、组织、地域、固有术语、通用名称、辅助名称、或者包含特殊字的片段(例如,自定义词或词组)作为一个或多个关键点。
例如,可以基于关键点识别模型,从所述一个或多个输入语句中识别一个或多个关键点。
以下以示例的方式参照图2-3描述一种关键点识别模型。图2示出了根据本公开实施例的训练关键点识别模型的方法200的流程图,图3示出了根据本公开实施例的训练关键点识别模型的示例的示意图。应当认识到,用于识别关键点的关键点识别模型可以是任何已知的模型,这里描述的模型仅仅是一个示例而不是限制。
如图2所示,可以通过以下步骤训练所述关键点识别模型:针对所述一个或多个输入语句的每个输入语句构建第二语法树,其中,所述第二语法树中的节点与所述输入语句的词相对应(S201);基于所述第二语法树获得所述一个或多个输入语句中的各个词的深度信息(S202);以及基于所述各个词的深度信息训练所述关键点识别模型(S203)。
例如,该第二语法树可以是同步树替换文法分析树(诸如基于现有的上下文无关模型的文法分析树(Parse Tree)、或者基于同步树替换文法(Synchronous TreeSubstitution Grammar,STSG)模型)之类的语法树。第二语法树可以基于监督/半监督/无监督的预训练模型(例如,来自变换器的双向编码表示(Bidirectional EncoderRepresentations From Transformers,BERT)、上下文敏感的预训练文本语义提取模型等)获得,这里不做限制。
例如,如图3所示,语句中的字或词的结构有深度和表层两个层次。可以通过第二语法树31获得输入语句30中的各个字或词的深度信息32和表层信息33。可替代地,例如,可以通过基于BERT模型获得的第二语法树来生成输入语句中的各个字或词的深度信息32,然后通过上下文敏感的预训练文本语义提取模型直接提取输入语句中的各个字或词的表层信息33。应当认识到,也可以采用其他方法获得输入语句中的各个字或词的深度信息32和表层信息33,这里不做限制。
接下来,如图3所示,可以基于输入语句中的各个字或词的深度信息32和/或表层信息33来训练关键点识别模型34。可以看出,与仅基于输入语句中的各个字或词的表层信息训练的关键点识别模型相比,基于输入语句中的各个字或词深度信息训练的关键点识别模型的识别效果更好。此外,利用语法树获得各个字或词的深度信息的方式更加简单。
可替代地,例如,所述基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点还可以包括:基于所述预定规则和接收的额外信息,从所述一个或多个输入语句中识别一个或多个关键点,其中,所述额外信息包括期望的词、期望的短语和所述一个或多个输入语句对应的文章标题中的一个或多个。
可替代地,例如,可以基于所述一个或多个输入语句的语句级别、段落级别、文本级别、数据集级别、领域级别中的一个或多个识别所述一个或多个关键点。
可替代地,例如,可以通过对所述一个或多个输入语句的各个输入句子的词进行打分,来识别所述一个或多个关键点。例如,可以基于一定的规则、基于统计学习(例如,词频-逆文本频率指数(Term Frequency-Inverse Document Frequency,TF-IDF)、次模函数(Submodular Function)、潜在语义分析(Latent Semantic Analysis,LSA)等)或基于深度学习方法(例如,分类方法、回归方法等)对所述一个或多个输入语句的各个输入句子的词进行打分,来识别所述一个或多个关键点。例如,还可以基于语法树表示的词或字的特征来对各个输入句子的词进行打分。
可替代地,例如,可以基于所述一个或多个关键点的正解统计信息、所述一个或多个输入语句的各个输入句子的词的词性统计信息以及语义统计信息中的一个或多个统计信息,来识别所述一个或多个关键点。
应当认识到,可以通过上述单独的一个方法或者结合上述多个方法来识别所述一个或多个关键点,这里不做限制。
接下来,返回到图1的步骤S103,例如,基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果可以包括:针对所述一个或多个输入语句的每个输入语句构建第一语法树,其中,所述第一语法树中的节点与所述输入语句的词相对应;以及基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果。
例如,第一语法树可以是基于每个输入语句中各个词之间的依存关系和出现顺序构建的。依存关系遵从依存语法。依存语法是通过分析语言单位内成分之间的依存关系来解释其句法结构,其主张句子中核心动词是支配其他成分的中心成分,而核心动词本身却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。应当认识到,依存语法可以根据需要遵循不同的规则,而不仅仅限于特定的依存规则。
下面参照他图4-6描述根据本公开实施例的构建第一语法树的示例。
如图4所示为基于每个输入语句中各个词之间的依存关系和出现顺序构建的第一语法树。在该语法树中,第一语法树的各个节点A到K与所述输入语句的各个词相对应,从上到下的ABCDEFGHIJK是按照各个词的出现顺序构建的出现顺序路径,右侧的A到C以及D到I等的箭头是基于每个输入语句中各个词之间的依存关系构建的依存路径。可以看出,在识别出的关键点为B、D、E和J的情况下,为了覆盖所有的关键点,可以将该第一语法树压缩为ABCDEFK或者ABCDEFIJK。
例如,可以基于所述一个或多个关键点,确定所述第一语法树上覆盖所有关键点的最短路径,然后将与所述最短路径对应的词进行组合作为所述压缩结果。例如,在图4中,在识别出的关键点为B、D、E和J的情况下,可以将与所述最短路径ABCDEFK对应的词进行组合作为所述压缩结果。
如图5-6所示为根据本公开实施例的构建的第一语法树的示例的示意图。如图5所示,对于输入语句“西门子将努力参与中国的三峡工程建设”,分别基于各个词之间的依存关系构建依存路径(如图5(a)所示)、以及基于各个词的出现顺序构建出现顺序路径(如图5(b)所示)。图6为结合图5所示的依存路径和出现顺序路径构建的第一语法树。可以看出,在识别出的关键点为“将”和“参与”的情况下,将该第一语法树上覆盖所有关键点的最短路径对应的词的组合“西门子将努力参与建设”作为压缩结果;在识别出的关键点为“参与”和“中国”的情况下,将该第一语法树上覆盖所有关键点的最短路径对应的词的组合“西门子参与中国的建设”作为压缩结果;在识别出的关键点为“参与”、“中国”和“三峡”的情况下,将该第一语法树上覆盖所有关键点的最短路径对应的词的组合“西门子参与中国的三峡工程建设”作为压缩结果。可以看出,所述压缩结果的长度与所述一个或多个关键点的数量成比例。
应当认识到,图5-6所示的第一语法树仅仅是一个遵从特定依存关系的示例而不作为限制,本公开的第一语法树可以遵从其他任意合适的依存关系。
此外,对于多个输入语句,可能存在多个重复的词。因此,在识别所述一个或多个关键点之前,先对多个输入语句的重复的词进行处理,从而减小识别关键点时的处理复杂度。
图7示出了根据本公开实施例的多个输入语句的处理的方法300的流程图。如图7所示,对于多个输入语句,在识别所述一个或多个关键点之前,计算不同输入语句之间重复预定次数的词(S301);以及仅保留一个所述输入语句中的所述重复预定次数的词,并删除其他输入语句中的所述重复预定次数的词(S302)。
例如,预定次数可以根据统计数据预先指定,这里不做限制。例如,可以基于每个输入语句中各个词之间的依存关系和出现顺序针对多个输入语句构建第三语法树,如果删除输入语句中的重复预定次数的词之后导致第三语法树的路径中断,则不可删除该输入语句中的重复预定次数的词。
通过预先删除部分输入语句中重复预定次数的词,可以减少识别关键点时的处理复杂度,提升处理效率。
如图8所示为根据本公开实施例的文本处理方法获得压缩结果的示例。
如图8所示,在输入语句80为“2017年7月,国际奥委会决定由法国巴黎承办2024年奥运会,由美国洛杉矶承办2028年奥运会,并于9月14日在秘鲁首都利马召开的国际奥委会第131次全会中正式宣布了这两届奥运会的归属”,从输入语句80中识别的关键点为“决定、承办、召开、宣布”时,通过本公开的方法可以获得的压缩结果81为“国际奥委会决定由巴黎承办2024年奥运会,由洛杉矶承办2028年奥运会,并于9月14日在利马召开的第131次全会中宣布了这两届奥运会的归属”。
本公开通过识别一个或多个关键点来基于关键点对语法树进行压缩,以获取压缩结果,从而可以使得压缩结果覆盖所有的关键点且无需考虑语法问题。
此外,可以基于上述文本处理方法获得的一个或多个输入语句以及该一个或多个输入语句的压缩结果作为训练数据集,来训练压缩模型,由此减少训练复杂度,并提升所训练的压缩模型的准确度。
本公开的至少一个实施例提供了一种训练方法、装置、设备和计算机可读存储介质。下面通过几个示例和实施例对根据本公开的至少一个实施例提供的训练方法进行非限制性说明,如下面所描述的,在不相互抵触的情况下,这些具体示例和实施例中不同特征可以相互组合,从而得到新的示例和实施例,这些新的示例和实施例也都属于本公开保护的范围。
下面参照图9-11描述根据本公开实施例的训练方法。
本公开的训练方法首先基于与期望得到的目标模型作用相同的简易模型获得大量训练数据集,并利用该大量数据集训练目标模型的初始模型,然后利用较少标注的训练数据集对训练后的初始模型进行微调来获得最终目标模型,从而利用较少标注的数据集就能获得期望得到的目标模型,降低了处理复杂度和标注成本并加快了开发周期。
首先,参照图9来描述根据本公开实施例的训练方法400。
例如,该方法可以由计算机等自动完成。该训练方法可以以软件、硬件、固件或其任意组合的方式实现,由例如手机、平板电脑、笔记本电脑、桌面电脑、网络服务器等设备中的处理器加载并执行。
如图9所示,该训练方法包括以下步骤S101-S104。
在步骤S401中,获取第一训练数据集以及所述第一训练数据集的第一预处理结果。
在步骤S402中,利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型。
在步骤S403中,获取第二训练数据集以及所述第二训练数据集的第二预处理结果。
在步骤S404中,利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的,且所述第二训练数据集的数量小于所述第一训练数据集的数量。
例如,该训练方法400可以应用于文本处理领域,所述第二模型、所述第三模型、所述第四模型被用于文本压缩、文本翻译、信息提取和文本生成中的至少一个。本公开的训练方法400不限于文本处理领域,其可以适用于任何合适的领域,这里不做限制。
如图10示出了根据本公开实施例的训练方法400的示意图。为便于理解,下面以将该训练方法应用于文本处理领域的压缩模型为例进行说明。
对于步骤S401,例如,第一训练数据集可以包含大量文本数据(例如,200万条句子)。例如,可以通过第四模型23处理第一训练数据集21来获得第一预处理结果22。例如,在期望利用该训练方法400来训练压缩模型的情况下,第四模型23可以是参考图1描述的文本处理方法的简易压缩模型,第一预处理结果可以是通过上述简易压缩模型获得的压缩文本。
例如,所述第一预处理结果可以是基于所述第四模型通过以下步骤获得的压缩结果:接收一个或多个输入语句;从所述一个或多个输入语句中识别一个或多个关键点;以及基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
例如,所述基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果可以包括:针对所述一个或多个输入语句的每个输入语句构建第一语法树,其中,所述第一语法树中的节点与所述输入语句的词相对应;基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果。
此外,所述压缩结果的长度与所述一个或多个关键点的数量成比例,并且所述训练方法通过所述第四模型获得不同长度的压缩结果作为所述第一预处理结果,可以丰富训练数据集的语法以及长度构成。
获得压缩结果的方法可以参照上述图1-8获得,这里不再赘述。
例如,第四模型23的作用与最终期望通过训练获得的模型的作用相关,从而可以使得训练获得的模型的准确率更高。
对于步骤S402,例如,第一模型24可以是初始化的压缩模型。例如,第一模型24可以通过简单地删除文本中的字或词来获得压缩结果。例如,可以利用上述第一训练数据集21和第一预处理结果22(例如,基于图1所示的简易压缩模型获得的结果)来训练第一模型24,从而获得第二模型25。
对于步骤S403-S404,例如,第二训练数据集27可以只包含较少的数据(例如,1000条句子)。由于已经利用数量远大于第二训练数据集27的第一训练数据集21对第一模型24进行了预训练,从而获得了第二模型25,所以接下来可以利用包含较少数据的第二训练数据集对第二模型进行微调训练,即可得到所期望的训练模型(即,第三模型26)。例如,可以对第二训练数据集27进行人工标注来获得第二预处理结果28。由于第二训练数据集27只包含少量的数据,因此可以降低标注成本并加快开发周期。
从图10可以看出,通过第一训练数据集21和基于与第三模型26相关的第四模型23获得的第一预处理结果22对第一模型进行预训练,可以获得预训练后的第二模型25。接下来,基于数量远少于第一训练数据集21的第二训练数据集27和第二预处理结果28对第二模型进行微调训练,即可得到期望的第三模型26。
例如,所述利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型可以包括:利用所述第一训练数据集、所述第一预处理结果以及判别器(discriminator)来训练所述第一模型以获得第二模型,其中所述判别器基于所训练的所述第一模型的输出结果是否符合预定规则来训练所述第一模型。
例如,所述判别器可以是基于所述第一模型的输入和输出预先训练得到的。例如,所述判别器可以用于判断输出结果是否符合预定句子规则。例如,判别器可以用于判断输出句子是否符合语法规则。
例如,可以在利用所述第一训练数据集以及所述第一预处理结果训练第一模型之前,利用第一模型的输入和输出预先训练判别器。例如,由于第一模型的输入比输出更容易满足语法规则,所以可以将第一模型的输入作为1(满足语法规则),将第一模型的输出作为0(不满足语法规则)来训练判别器,使判别器能够对新的输入进行打分,且该打分结果在0和1之间。应当认识到,1和0仅仅是为了指示满足语法规则的相对程度,其作为本公开的示例而不是限制。
可替代地,例如,可以在利用所述第一训练数据集以及所述第一预处理结果训练第一模型的过程中,利用第一模型的输入和输出预先训练判别器。例如,可以先停止训练第一模型,然后将当前第一模型的输入作为1,将当前第一模型的输出作为0来训练判别器,使判别器能够对新的输入进行打分,且该打分结果在0和1之间。接下来,再利用所述第一训练数据集以及所述第一预处理结果继续训练第一模型。
可替代地,例如,可以迭代地训练第一模型和判别器,使得获得的判别器准确率更高。
应当认识到,上述训练判别器的方法仅仅作为示例,训练判别器的方法不限于此。
例如,在获得预先训练的判别器之后,可以利用所述第一训练数据集、所述第一预处理结果以及判别器来训练所述第一模型以获得第二模型。
例如,可以利用以下损失函数Lp来训练所述第一模型:
Lp=L1+L2 (1)
这里,L1表示基于第一训练数据集和所述第一预处理结果获得的损失函数,L2表示基于判别器获得的损失函数。在此训练期间,判别器的目标是使得模型的输出结果满足语法规则(例如,接近1)。
例如,所述利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型可以包括:利用所述第二训练数据集、所述第二预处理结果以及判别器来训练所述第二模型以获得第三模型,其中所述判别器基于所训练的所述第二模型的输出结果是否符合预定规则来训练所述第二模型。
例如,可以利用以下损失函数Lq来训练所述第二模型:
Lq=L3+L4 (2)
这里,L3表示基于第二训练数据集和所述第二预处理结果获得的损失函数,L4表示基于判别器获得的损失函数。
通过利用判别器对第一模型和第二模型进行训练,可以监督第一模型和第二模型的输出结果是否符合预定规则(例如,语法规则),使得最终训练得到的第三模型的输出结果更加准确。
下面参照图11描述根据本公开实施例的训练方法的另一示意图。
如图11所示,本公开的训练方法包含两个阶段:预训练阶段60和训练阶段62。在预训练阶段60,通过大量数据集51对预训练模型52进行训练。例如,该大量数据集51可以是如上所述的第一训练数据集以及所述第一训练数据集的第一预处理结果。这里,在该训练方法用于训练句子压缩模型时,该第一预处理结果可以是通过如图1所示的文本处理方法获得的压缩结果。例如,在训练阶段,通过少量数据集54对已经经过大量数据集训练的预训练模型52进行微调训练。例如,该少量数据集54可以是如上所述的第二训练数据集以及所述第二训练数据集的第二预处理结果。例如,由于第二训练集包含较少数量的数据,因此,可以利用人工标注等成本或复杂度较大但是准确度较高的处理来获得第二预处理结果,从而可以对已经经过大量数据集训练的预训练模型52进行微调训练,由此提升其输出的准确度。
此外,如图11所示,在预训练阶段60和训练阶段62,还可以通过判别器57来训练预训练模型52,以使得预训练模型52的输出结果符合预定规则。
在本公开的上述方面中,通过首先利用大量数据集训练目标模型的初始模型,然后利用较少标注的训练数据集对训练后的初始模型进行微调来获得最终目标模型,从而利用较少标注的数据集就能获得期望得到的目标模型,降低了处理复杂度和标注成本并加快了开发周期。
应当认识到,本公开所述的训练方法不限于文本处理领域,可替代地,例如,本公开的训练方法还可以用于图像处理领域等。此外,本公开所述的训练方法不限于训练文本压缩模型。
可替代地,例如,本公开的训练方法还可以用于训练机器翻译模型。例如,可以构建一个简单的翻译系统(统计机器翻译系统或单词映射系统),并利用大量数据集基于该翻译系统训练预训练模型,然后使用少量数据集微调该预训练模型。
可替代地,例如,本公开的训练方法还可以用于训练信息提取模型。例如,可以为实体关系建立一个统计字典,并利用大量数据集基于该统计词典训练预训练模型,然后使用少量数据集微调该预训练模型。
可替代地,例如,本公开的训练方法还可以用于训练文本生成模型。例如,可以构建一个简单的文本提取信息系统,并利用大量数据集基于该简单的文本提取信息系统训练预训练模型,然后使用少量数据集微调该预训练模型。
以上,参照附图1-8描述了根据本公开实施例的文本处理方法。以下,将描述根据本公开实施例的文本处理装置。
图12是图示根据本公开实施例的文本处理装置的功能框图。如图12所示,根据本公开实施例的文本处理装置1000包括接收单元1010、识别单元1020和压缩单元1030。上述各模块可以分别执行如上参照图1到图8描述的根据本公开的实施例的文本处理方法的各个步骤。本领域的技术人员理解:这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现,并且本公开不限于它们的任何一个。例如,可以通过中央处理单元(CPU)、文本处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。
例如,接收单元1010可以用于接收一个或多个输入语句,识别单元1020可以用于从所述一个或多个输入语句中识别一个或多个关键点,压缩单元1030可以基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
例如,一个或多个关键点可以是用户期望的一个或多个字或者词。
例如,识别单元1020可以基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点。
例如,所述预定规则可以是任意已知的、用于预测关键短语或词或字的规则。例如,可以以人名、组织、地域、固有术语、通用名称或辅助名称、或者包含特殊字的片段(例如,自定义词或词组)作为一个或多个关键点。
例如,识别单元1020可以基于关键点识别模型,从所述一个或多个输入语句中识别一个或多个关键点。
以下以示例的方式参照图2-3描述一种关键点识别模型。应当认识到,用于识别关键点的关键点识别模型可以是任何已知的模型,这里描述的模型仅仅是一个示例而不是限制。
如图2所示,识别单元1020可以通过以下步骤训练所述关键点识别模型:针对所述一个或多个输入语句的每个输入语句构建第二语法树,其中,所述第二语法树中的节点与所述输入语句的词相对应(S201);基于所述第二语法树获得所述一个或多个输入语句中的各个词的深度信息(S202);以及基于所述各个词的深度信息训练所述关键点识别模型(S203)。
例如,该第二语法树可以是同步树替换文法分析树(诸如基于现有的上下文无关模型的文法分析树(Parse Tree)、或者基于同步树替换文法(Synchronous TreeSubstitution Grammar,STSG)模型)之类的语法树。第二语法树可以基于监督/半监督/无监督的预训练模型(例如,来自变换器的双向编码表示(Bidirectional EncoderRepresentations From Transformers,BERT)、上下文敏感的预训练文本语义提取模型等)获得,这里不做限制。
例如,如图3所示,语句中的字或词的结构有深度和表层两个层次。可以通过第二语法树31获得输入语句30中的各个字或词的深度信息32和表层信息33。可替代地,例如,可以通过基于BERT模型获得的第二语法树来生成输入语句中的各个字或词的深度信息32,然后通过上下文敏感的预训练文本语义提取模型直接提取输入语句中的各个字或词的表层信息33。应当认识到,也可以采用其他方法获得输入语句中的各个字或词的深度信息32和表层信息33,这里不做限制。
接下来,如图3所示,识别单元1020可以基于输入语句中的各个字或词的深度信息32和/或表层信息33来训练关键点识别模型34。可以看出,与仅基于输入语句中的各个字或词的表层信息训练的关键点识别模型相比,基于输入语句中的各个字或词深度信息训练的关键点识别模型的识别效果更好。此外,利用语法树获得各个字或词的深度信息的方式更加简单。
可替代地,例如,识别单元1020可以基于所述预定规则和接收的额外信息,从所述一个或多个输入语句中识别一个或多个关键点,其中,所述额外信息包括期望的词、期望的短语和所述一个或多个输入语句对应的文章标题中的一个或多个。
可替代地,例如,识别单元1020可以基于所述一个或多个输入语句的语句级别、段落级别、文本级别、数据集级别、领域级别中的一个或多个识别所述一个或多个关键点。
可替代地,例如,识别单元1020可以通过对所述一个或多个输入语句的各个输入句子的词进行打分,来识别所述一个或多个关键点。例如,识别单元1020可以基于一定的规则、基于统计学习(例如,词频-逆文本频率指数(Term Frequency-Inverse DocumentFrequency,TF-IDF)、次模函数(Submodular Function)、潜在语义分析(Latent SemanticAnalysis,LSA)等)或基于深度学习方法(例如,分类方法、回归方法等)对所述一个或多个输入语句的各个输入句子的词进行打分,来识别所述一个或多个关键点。例如,识别单元1020可以还可以基于语法树表示的词或字的特征来对各个输入句子的词进行打分。
可替代地,例如,识别单元1020可以基于所述一个或多个关键点的正解统计信息、所述一个或多个输入语句的各个输入句子的词的词性统计信息以及语义统计信息中的一个或多个统计信息,来识别所述一个或多个关键点。
应当认识到,识别单元1020可以通过上述单独的一个方法或者结合上述多个方法来识别所述一个或多个关键点,这里不做限制。
接下来,压缩单元1030可以针对所述一个或多个输入语句的每个输入语句构建第一语法树,其中,所述第一语法树中的节点与所述输入语句的词相对应;以及基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果。
例如,第一语法树可以是基于每个输入语句中各个词之间的依存关系和出现顺序构建的。
如图4所示为基于每个输入语句中各个词之间的依存关系和出现顺序构建的第一语法树。在该语法树中,第一语法树的各个节点A到K与所述输入语句的各个词相对应,从上到下的ABCDEFGHIJK是按照各个词的出现顺序构建的出现顺序路径,右侧的A到C以及D到I等的箭头是基于每个输入语句中各个词之间的依存关系构建的依存路径。可以看出,在识别出的关键点为B、D、E和J的情况下,为了覆盖所有的关键点,可以将该第一语法树压缩为ABCDEFK或者ABCDEFIJK。
例如,压缩单元1030可以基于所述一个或多个关键点,确定所述第一语法树上覆盖所有关键点的最短路径,然后将与所述最短路径对应的词进行组合作为所述压缩结果。例如,在图4中,在识别出的关键点为B、D、E和J的情况下,可以将与所述最短路径ABCDEFK对应的词进行组合作为所述压缩结果。可以看出,所述压缩结果的长度与所述一个或多个关键点的数量成比例。
此外,对于多个输入语句,可能存在多个重复的词。因此,在识别所述一个或多个关键点之前,识别单元1020可以先对多个输入语句的重复的词进行处理,从而减小识别关键点时的处理复杂度。
如图7所示,对于多个输入语句,在识别所述一个或多个关键点之前,计算不同输入语句之间重复预定次数的词(S301);以及仅保留一个所述输入语句中的所述重复预定次数的词,并删除其他输入语句中的所述重复预定次数的词(S302)。
例如,预定次数可以根据统计数据预先指定,这里不做限制。例如,识别单元1020可以基于每个输入语句中各个词之间的依存关系和出现顺序针对多个输入语句构建第三语法树,如果删除输入语句中的重复预定次数的词之后导致第三语法树的路径中断,则不可删除该输入语句中的重复预定次数的词。
识别单元1020通过预先删除部分输入语句中重复预定次数的词,可以减少识别关键点时的处理复杂度,提升处理效率。
下面,参照图13描述根据本公开实施例的文本处理设备1100。图13是根据本公开实施例的文本处理设备的示意图。由于本实施例的文本处理设备的功能与在上文中参照图1描述的方法的细节相同,因此在这里为了简单起见,省略对相同内容的详细描述。
本公开的文本处理设备包括处理器1102;以及存储器1101,其中存储计算机可读指令,其中,在所述计算机可读指令被所述处理器运行时执行文本处理方法,所述方法包括:接收一个或多个输入语句;从所述一个或多个输入语句中识别一个或多个关键点;以及基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
关于不同实施例中的文本处理装置1000和文本处理设备1100的技术效果可以参考本公开的实施例中提供的文本处理方法的技术效果,这里不再赘述。
文本处理装置1000和文本处理设备1100可以用于各种适当的电子设备。
图14是根据本公开实施例的计算机可读存储介质1200的示意图。
如图14所示,本公开还包括一种计算机可读存储介质1200,其上存储计算机可读指令1201,当该计算机可读指令由计算机执行时,计算机执行文本处理方法,包括:接收一个或多个输入语句;从所述一个或多个输入语句中识别一个或多个关键点;以及基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
以上,参照附图描述了根据本公开实施例的训练方法。以下,将描述根据本公开实施例的训练装置。
图15是图示根据本公开实施例的训练装置的功能框图。如图15所示,根据本公开实施例的训练装置1300包括第一获取单元1301、第一训练单元1302、第二获取单元1303和第二训练单元1304。上述各模块可以分别执行如上参照图9到图11描述的根据本公开的实施例的训练方法的各个步骤。本领域的技术人员理解:这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现,并且本公开不限于它们的任何一个。例如,可以通过中央处理单元(CPU)、文本处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。
例如,第一获取单元1301可以用于获取第一训练数据集以及所述第一训练数据集的第一预处理结果。
例如,第一训练数据集可以包含大量文本数据。例如,可以通过第四模型处理第一训练数据集来获得第一预处理结果。例如,在期望利用该训练装置1300来训练压缩模型的情况下,第四模型可以是参考图1描述的文本处理方法的简易压缩模型,第一预处理结果可以是通过上述简易压缩模型获得的压缩文本。
例如,第一训练单元1302可以用于利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型。
例如,第二获取单元1303可以用于获取第二训练数据集以及所述第二训练数据集的第二预处理结果。
例如,第二训练数据集可以只包含较少的数据。由于已经利用数量远大于第二训练数据集的第一训练数据集对第一模型进行了预训练,从而获得了第二模型,所以接下来可以利用包含较少数据的第二训练数据集对第二模型进行微调训练,即可得到所期望的训练模型。例如,可以对第二训练数据集进行人工标注来获得第二预处理结果。由于第二训练数据集只包含少量的数据,因此可以降低标注成本并加快开发周期。
例如,第二训练单元1304可以利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的。
例如,第一训练单元1302可以利用所述第一训练数据集、所述第一预处理结果以及判别器来训练所述第一模型以获得第二模型,其中所述判别器基于所训练的所述第一模型的输出结果是否符合预定规则来训练所述第一模型。
例如,所述判别器可以是基于所述第一模型的输入和输出预先训练得到的。可替代地,例如,可以迭代地训练第一模型和判别器,使得获得的判别器准确率更高。
例如,可以利用以下损失函数Lp来训练所述第一模型:
Lp=L1+L2 (3)
这里,L1表示基于第一训练数据集和所述第一预处理结果获得的损失函数,L2表示基于判别器获得的损失函数。
例如,第二训练单元1304可以利用所述第二训练数据集、所述第二预处理结果以及判别器来训练所述第二模型以获得第三模型,其中所述判别器基于所训练的所述第二模型的输出结果是否符合预定规则来训练所述第二模型。
例如,可以利用以下损失函数Lq来训练所述第二模型:
Lq=L3+L4 (4)
这里,L3表示基于第二训练数据集和所述第二预处理结果获得的损失函数,L4表示基于判别器获得的损失函数。
例如,所述训练装置1300可以应用于文本处理领域,所述第二模型、所述第三模型、所述第四模型被用于文本压缩、文本翻译、信息提取和文本生成中的至少一个,所述判别器用于判断输出结果是否符合预定句子规则。例如,判别器可以用于判断输出句子是否符合语法规则。
下面,参照图16描述根据本公开实施例的训练设备1600。图16是根据本公开实施例的训练设备的示意图。由于本实施例的训练的功能与在上文中参照图9描述的方法的细节相同,因此在这里为了简单起见,省略对相同内容的详细描述。
本公开的训练设备包括处理器1602;以及存储器1601,其中存储计算机可读指令,其中,在所述计算机可读指令被所述处理器运行时执行训练方法,所述方法包括:获取第一训练数据集以及所述第一训练数据集的第一预处理结果;利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型;获取第二训练数据集以及所述第二训练数据集的第二预处理结果;以及利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的,且所述第二训练数据集的数量小于所述第一训练数据集的数量。
关于不同实施例中的训练装置1300和训练设备1600的技术效果可以参考本公开的实施例中提供的训练方法的技术效果,这里不再赘述。
训练装置1300和训练设备1600可以用于各种适当的电子设备。
本公开还包括一种计算机可读存储介质,其上存储计算机可读指令,当该计算机可读指令由计算机执行时,计算机执行训练方法,包括:获取第一训练数据集以及所述第一训练数据集的第一预处理结果;利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型;获取第二训练数据集以及所述第二训练数据集的第二预处理结果;以及利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的,且所述第二训练数据集的数量小于所述第一训练数据集的数量。
<硬件结构>
另外,上述实施方式的说明中使用的框图示出了以功能为单位的块。这些功能块(结构单元)通过硬件和/或软件的任意组合来实现。此外,各功能块的实现手段并不特别限定。即,各功能块可以通过在物理上和/或逻辑上相结合的一个装置来实现,也可以将在物理上和/或逻辑上相分离的两个以上装置直接地和/或间接地(例如通过有线和/或无线)连接从而通过上述多个装置来实现。
例如,本公开的一实施方式中的电子设备可以作为执行本公开的属性识别方法的处理的计算机来发挥功能。图17是示出本公开的一实施方式所涉及的电子设备的硬件结构的一例的图。上述的电子设备10可以作为在物理上包括处理器1001、内存1002、存储器1003、通信装置1004、输入装置1005、输出装置1006、总线1007等的计算机装置来构成。
另外,在以下的说明中,“装置”这样的文字也可替换为电路、设备、单元等。电子设备10的硬件结构可以包括一个或多个图中所示的各装置,也可以不包括部分装置。
例如,处理器1001仅图示出一个,但也可以为多个处理器。此外,可以通过一个处理器来执行处理,也可以通过一个以上的处理器同时、依次、或采用其它方法来执行处理。另外,处理器1001可以通过一个以上的芯片来安装。
电子设备10中的各功能例如通过如下方式实现:通过将规定的软件(程序)读入到处理器1001、内存1002等硬件上,从而使处理器1001进行运算,对由通信装置1004进行的通信进行控制,并对内存1002和存储器1003中的数据的读出和/或写入进行控制。
处理器1001例如使操作系统进行工作从而对计算机整体进行控制。处理器1001可以由包括与周边装置的接口、控制装置、运算装置、寄存器等的中央处理器(CPU,CentralProcessing Unit)构成。
此外,处理器1001将程序(程序代码)、软件模块、数据等从存储器1003和/或通信装置1004读出到内存1002,并根据它们执行各种处理。作为程序,可以采用使计算机执行在上述实施方式中说明的动作中的至少一部分的程序。例如,电子设备10的控制单元401可以通过保存在内存1002中并通过处理器1001来工作的控制程序来实现,对于其它功能块,也可以同样地来实现。
内存1002是计算机可读取记录介质,例如可以由只读存储器(ROM,Read OnlyMemory)、可编程只读存储器(EPROM,Erasable Programmable ROM)、电可编程只读存储器(EEPROM,Electrically EPROM)、随机存取存储器(RAM,Random Access Memory)、其它适当的存储介质中的至少一个来构成。内存1002也可以称为寄存器、高速缓存、主存储器(主存储装置)等。内存1002可以保存用于实施本公开的一实施方式所涉及的无线通信方法的可执行程序(程序代码)、软件模块等。
存储器1003是计算机可读取记录介质,例如可以由软磁盘(flexible disk)、软(注册商标)盘(floppy disk)、磁光盘(例如,只读光盘(CD-ROM(Compact Disc ROM)等)、数字通用光盘、蓝光(Blu-ray,注册商标)光盘)、可移动磁盘、硬盘驱动器、智能卡、闪存设备(例如,卡、棒(stick)、密钥驱动器(key driver))、磁条、数据库、服务器、其它适当的存储介质中的至少一个来构成。存储器1003也可以称为辅助存储装置。
通信装置1004是用于通过有线和/或无线网络进行计算机间的通信的硬件(发送接收设备),例如也称为网络设备、网络控制器、网卡、通信模块等。
输入装置1005是接受来自外部的输入的输入设备(例如,键盘、鼠标、麦克风、开关、按钮、传感器等)。输出装置1006是实施向外部的输出的输出设备(例如,显示器、扬声器、发光二极管(LED,Light Emitting Diode)灯等)。另外,输入装置1005和输出装置1006也可以为一体的结构(例如触控面板)。
此外,处理器1001、内存1002等各装置通过用于对信息进行通信的总线1007连接。总线1007可以由单一的总线构成,也可以由装置间不同的总线构成。
此外,电子设备10可以包括微处理器、数字信号处理器(DSP,Digital SignalProcessor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、可编程逻辑器件(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)等硬件,可以通过该硬件来实现各功能块的部分或全部。例如,处理器1001可以通过这些硬件中的至少一个来安装。
软件无论被称为软件、固件、中间件、微代码、硬件描述语言,还是以其它名称来称呼,都应宽泛地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。
此外,软件、命令、信息等可以经由传输介质被发送或接收。例如,当使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(DSL,Digital Subscriber Line)等)和/或无线技术(红外线、微波等)从网站、服务器、或其它远程资源发送软件时,这些有线技术和/或无线技术包括在传输介质的定义内。
本说明书中说明的各方式/实施方式可以单独使用,也可以组合使用,还可以在执行过程中进行切换来使用。此外,本说明书中说明的各方式/实施方式的处理步骤、序列、流程图等只要没有矛盾,就可以更换顺序。例如,关于本说明书中说明的方法,以示例性的顺序给出了各种各样的步骤单元,而并不限定于给出的特定顺序。
本说明书中使用的“根据”这样的记载,只要未在其它段落中明确记载,则并不意味着“仅根据”。换言之,“根据”这样的记载是指“仅根据”和“至少根据”这两者。
本说明书中使用的对使用“第一”、“第二”等名称的单元的任何参照,均非全面限定这些单元的数量或顺序。这些名称可以作为区别两个以上单元的便利方法而在本说明书中使用。因此,第一单元和第二单元的参照并不意味着仅可采用两个单元或者第一单元必须以若干形式占先于第二单元。
在本说明书或权利要求书中使用“包括(including)”、“包含(comprising)”、以及它们的变形时,这些用语与用语“具备”同样是开放式的。进一步地,在本说明书或权利要求书中使用的用语“或(or)”并非是异或。
本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本公开进行了详细说明,但对于本领域技术人员而言,显然,本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本公开而言并非具有任何限制性的意义。
Claims (10)
1.一种文本处理方法,包括:
接收一个或多个输入语句;
从所述一个或多个输入语句中识别一个或多个关键点;以及
基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
2.根据权利要求1所述的方法,其中,所述基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果包括:
针对所述一个或多个输入语句的每个输入语句构建第一语法树,其中,所述第一语法树中的节点与所述输入语句的词相对应;
基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果。
3.根据权利要求2所述的方法,其中,所述基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果包括:
基于所述一个或多个关键点,确定所述第一语法树上覆盖所有关键点的最短路径;
将与所述最短路径对应的词进行组合作为所述压缩结果。
4.根据权利要求2-3任一项所述的方法,其中,
所述第一语法树是基于每个输入语句中各个词之间的依存关系和出现顺序构建的。
5.根据权利要求1所述的方法,其中,
对于多个输入语句,在识别所述一个或多个关键点之前,计算不同输入语句之间重复预定次数的词;
仅保留一个所述输入语句中的所述重复预定次数的词,并删除其他输入语句中的所述重复预定次数的词。
6.根据权利要求1-5任一项所述的方法,其中,所述从所述一个或多个输入语句中识别一个或多个关键点包括:
基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点。
7.根据权利要求6所述的方法,其中,所述基于预定规则,从所述一个或多个输入语句中识别一个或多个关键点包括:
基于关键点识别模型,从所述一个或多个输入语句中识别一个或多个关键点。
8.根据权利要求7所述的方法,其中,通过以下步骤训练所述关键点识别模型:
针对所述一个或多个输入语句的每个输入语句构建第二语法树,其中,所述第二语法树中的节点与所述输入语句的词相对应;
基于所述第二语法树获得所述一个或多个输入语句中的各个词的深度信息;
基于所述各个词的深度信息训练所述关键点识别模型。
9.一种文本处理装置,包括:
接收单元,用于接收一个或多个输入语句;
识别单元,用于从所述一个或多个输入语句中识别一个或多个关键点;以及
压缩单元,用于基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
10.一种文本处理设备,包括:
处理器;以及
存储器,其中存储计算机可读指令,
其中,在所述计算机可读指令被所述处理器运行时执行文本处理方法,所述方法包括:
接收一个或多个输入语句;
从所述一个或多个输入语句中识别一个或多个关键点;以及
基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011030326.0A CN114281925A (zh) | 2020-09-27 | 2020-09-27 | 文本处理方法、装置、设备以及计算机可读存储介质 |
JP2021152385A JP2022055334A (ja) | 2020-09-27 | 2021-09-17 | テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011030326.0A CN114281925A (zh) | 2020-09-27 | 2020-09-27 | 文本处理方法、装置、设备以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114281925A true CN114281925A (zh) | 2022-04-05 |
Family
ID=80867515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011030326.0A Pending CN114281925A (zh) | 2020-09-27 | 2020-09-27 | 文本处理方法、装置、设备以及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022055334A (zh) |
CN (1) | CN114281925A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997164A (zh) * | 2022-05-31 | 2022-09-02 | 北京深言科技有限责任公司 | 文本生成方法及装置 |
-
2020
- 2020-09-27 CN CN202011030326.0A patent/CN114281925A/zh active Pending
-
2021
- 2021-09-17 JP JP2021152385A patent/JP2022055334A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997164A (zh) * | 2022-05-31 | 2022-09-02 | 北京深言科技有限责任公司 | 文本生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2022055334A (ja) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480162B (zh) | 基于人工智能的搜索方法、装置、设备及计算机可读存储介质 | |
EP3648099B1 (en) | Voice recognition method, device, apparatus, and storage medium | |
WO2020119075A1 (zh) | 通用文本信息提取方法、装置、计算机设备和存储介质 | |
JP6583686B2 (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
US10831796B2 (en) | Tone optimization for digital content | |
CN111324743A (zh) | 文本关系抽取的方法、装置、计算机设备及存储介质 | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
JP2016218995A (ja) | 機械翻訳方法、機械翻訳装置及びプログラム | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
US10977155B1 (en) | System for providing autonomous discovery of field or navigation constraints | |
US20220147835A1 (en) | Knowledge graph construction system and knowledge graph construction method | |
CN114556328A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
TW201606750A (zh) | 使用外國字文法的語音辨識 | |
CN111369980B (zh) | 语音检测方法、装置、电子设备及存储介质 | |
US20220414463A1 (en) | Automated troubleshooter | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN113901263A (zh) | 一种视频素材的标签生成方法及装置 | |
CN114281925A (zh) | 文本处理方法、装置、设备以及计算机可读存储介质 | |
CN111968646A (zh) | 一种语音识别方法及装置 | |
CN114430832A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN114281926A (zh) | 训练方法、装置、设备以及计算机可读存储介质 | |
CN114417827A (zh) | 文本上下文处理方法、装置、电子设备和存储介质 | |
CN111090720B (zh) | 一种热词的添加方法和装置 | |
EP3255558A1 (en) | Syntax analyzing device, learning device, machine translation device and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |