CN114692642A - 一种文本语料生成方法、装置、设备及介质 - Google Patents

一种文本语料生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN114692642A
CN114692642A CN202011627584.7A CN202011627584A CN114692642A CN 114692642 A CN114692642 A CN 114692642A CN 202011627584 A CN202011627584 A CN 202011627584A CN 114692642 A CN114692642 A CN 114692642A
Authority
CN
China
Prior art keywords
text
generalized
character
corpus
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011627584.7A
Other languages
English (en)
Inventor
康兵兵
蒋卓
刘太路
林绍令
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN202011627584.7A priority Critical patent/CN114692642A/zh
Publication of CN114692642A publication Critical patent/CN114692642A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本语料生成方法、装置、设备及介质,用以解决现有基于预设的泛化规则,生成的泛化文本质量差,不利于后续基于该文本语料进行模型训练的问题。由于本发明实施例在生成文本语料对应的目标泛化文本时,是基于预先训练完成的至少一个文本泛化模型、解码网络以及该文本语料确定的,使获取的泛化文本更加贴近自然语言,且解码网络在对每个第一概率序列进行解码时,不仅根据该第一概率序列,还根据已解码出的第一字符,使得该第一概率序列解码出的第二字符可以考虑前后文的语义、语序等信息,确定泛化文本,后续根据解码得到的泛化文本,确定该文本语料对应的目标泛化文本会更加的准确。

Description

一种文本语料生成方法、装置、设备及介质
技术领域
本发明涉及计算机处理技术领域,尤其涉及一种文本语料生成方法、装置、设备及介质。
背景技术
随着计算机处理技术的发展,越来越多的领域开始使用自然语言处理(NLP)模型,以实现智能地对用户输入的自然语言进行识别,从而可以按照用户的期望,执行相应的操作。其中,模型的精度对能否准确地识别用户的自然语言有着至关重要的作用,而模型的精度又一般会受到用于模型训练的文本语料的数量的多少的影响。对于一些比较个性化的领域,在训练应用于该领域的NLP模型的时候,由于关于该领域的文本语料比较少,因此,如何获取大量的该领域的文本语料,以训练该领域的NLP模型是一个亟待解决的问题。
目前,为了快速生成某一领域大量的文本语料,可以按照预设的泛化规则,对当前保存的该领域的文本语料进行泛化。比如,对任一文本语料中的名词、动词等词性的词语,采用同义词替换的泛化规则进行替换,获取泛化文本;在文本语料中的各个分词之间,采用随机插入任一预设词语的泛化规则,获取泛化文本;将文本语料中的各个分词的顺序,采用随机交换的泛化规则,获取泛化文本;将文本语料中的各个分词,采用随机删除的泛化规则,获取泛化文本。由于该方法只是按照预设的泛化规则对文本语料进行处理,并且未充分使用文本语料的语义信息,获取的泛化文本一般会出现不符合人的自然语言的说话习惯、改变了文本语料的语义、缺失语义等问题,使得泛化文本的质量不佳,不利于后续对该领域的NLP模型进行训练。
发明内容
本发明实施例提供了一种文本语料生成方法、装置、设备及介质,用以解决现有基于预设的泛化规则,生成的泛化文本质量差,不利于后续基于该文本语料进行模型训练的问题。
本发明实施例提供了一种文本语料生成方法,所述方法包括:
通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,所述第一概率序列中包括预先配置的每个字符分别为所述文本语料对应的泛化文本中对应字符的概率值;
依次对于每个所述第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本;
根据解码得到的泛化文本,确定所述文本语料对应的目标泛化文本。
本发明实施例提供了一种文本语料生成装置,所述装置包括:
获取单元,用于通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,所述第一概率序列中包括预先配置的每个字符分别为所述文本语料对应的泛化文本中对应字符的概率值;
解码单元,用于依次对于每个所述第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本;
确定单元,用于根据解码得到的泛化文本,确定所述文本语料对应的目标泛化文本。
本发明实施例提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述文本语料生成方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述文本语料生成方法的步骤。
由于本发明实施例在生成文本语料对应的目标泛化文本时,是基于预先训练完成的至少一个文本泛化模型、解码网络以及该文本语料确定的,使获取的泛化文本更加贴近自然语言,且解码网络在对每个第一概率序列进行解码时,不仅根据该第一概率序列,还根据已解码出的第一字符,使得该第一概率序列解码出的第二字符可以考虑上下文的语义、语序等信息,确定泛化文本,后续根据解码得到的泛化文本,确定该文本语料对应的目标泛化文本会更加的准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本语料生成过程示意图;
图2为本发明实施例提供的具体的文本语料生成流程示意图;
图3为本发明实施例提供的具体的每个文本泛化模型的训练过程示意图;
图4为本发明实施例提供的一种文本语料生成装置的结构示意图;
图5为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了提高生成的泛化文本的质量,本发明实施例提供了一种文本语料生成方法、装置、设备及介质。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:图1为本发明实施例提供的一种文本语料生成过程示意图,该过程包括:
S101:通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,第一概率序列中包括预先配置的每个字符分别为文本语料对应的泛化文本中对应字符的概率值。
本发明实施例提供的文本语料生成方法应用于电子设备,该电子设备可以为智能设备,比如机器人,也可以是服务器。
在本发明实施例中,如果要对某一领域的文本语料进行泛化,需要预先采集该领域的一些标准的文本语料,比如,在该领域里比较常用的文本语料,可以体现该领域的特征的一些文本语料等,将这些标准的文本语料确定为待泛化文本语料。基于获取的文本语料,进行相应的处理,从而获取该文本语料对应的目标泛化文本。
具体实施过程中,为了方便后续对文本语料进行处理,对获取到的任一待泛化的文本语料进行预处理,即确定该文本语料对应的数字序列。其中,可以根据预先配置的字符与数字的对应关系,以及文本语料中包含的每个字符,确定该文本语料对应的数字序列。
需要说明的是,为了区分文本语料中所包含的每个字符,不同字符所对应的数字是不同的。
当基于上述实施例获取到处理后的文本语料之后,基于本发明实施例提供的文本语料生成方法,对处理后的文本语料进行后续的处理。
为了生成文本语料对应的目标泛化文本,在本发明实施例中,预先训练有至少一个文本泛化模型。当获取到处理后的文本语料之后,即获取到文本语料对应的数字序列,将该数字数列输入到预先训练完成的至少一个文本泛化模型。通过预先训练完成的至少一个文本泛化模型,基于输入的处理后的文本语料,即基于输入的数字序列,可以获取到文本语料对应的至少一个的第一概率序列。
其中,文本语料对应的至少一个第一概率序列是依次输出的。第一概率序列中包括预先配置的每个字符分别为该文本语料对应的泛化文本中对应字符的概率值。
在本发明实施例中,任一文本泛化模型可以为transformer模型、lstm-copy模型、卷积模型CNN中的任一种。
S102:依次对于每个第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本。
在本发明实施例中,通过预先训练完成的至少一个第一文本泛化模型,获取到该文本语料对应的至少一个第一概率序列,依次对每个第一概率序列进行相应的处理,以确定文本语料对应的泛化文本中所包含的字符。
其中,可以是每当通过预先训练完成的至少一个第一文本泛化模型,获取到该文本语料对应的一个第一概率序列,便对该第一概率序列进行相应的处理,也可以是通过预先训练完成的至少一个第一文本泛化模型,获取到该文本语料对应的至少一个第一概率序列之后,按照每个第一概率序列的输出顺序,依次对每个第一概率序列进行相应的处理。
具体的,依次对于每个第一概率序列均进行以下处理:
通过解码网络、比如,集束搜索beam search等,以及已解码出的字符(为了方便描述,记为第一字符),对该第一概率序列进行解码,从而获取该第一概率序列解码出的字符(为了方便描述,记为第二字符)。其中,已解码出的第一字符为通过至少一个文本泛化模型,在该第一概率序列之前依次输出的每个第一概率序列分别解码出的字符。
为了确定当前是否已获取到文本语料对应的完整泛化文本,预设有结束条件。当基于上述实施例对任一第一概率序列进行解码后,判断该第一概率序列解码出的第二字符是否满足预设的结束条件,若确定解码出的第二字符满足预设的结束条件,则确定当前已经获取到文本语料对应的完整泛化文本;否则,说明还未获取到文本语料对应的完整泛化文本,则对下一第一概率序列进行上述的处理。
需要说明的是,依次针对上述实施例中获取到的第一概率序列,执行上述的操作,从而得到文本语料对应的泛化文本。
在一种可能的实施方式中,当解码得到的泛化文本满足预设的条件(为了方便说明,记为第一条件)时,则确定获取到了文本语料对应的每个泛化文本。其中,解码得到的泛化文本满足预设的第一条件包括解码到的泛化文本的数量达到了设定数量,则确定解码得到的泛化文本满足预设的第一条件,和/或,已对文本泛化模型最后一次输出的第一概率序列进行解码,则确定解码得到的泛化文本满足预设的第一条件。
S103:根据解码得到的泛化文本,确定文本语料对应的目标泛化文本。
当基于上述实施例确定获取到了文本语料对应的泛化文本之后,基于本发明实施例提供的文本语料生成方法,确定该文本语料对应的目标泛化文本。
在本发明实施例中,可以每获取到一条文本语料对应的泛化文本,便对该泛化文本进行相应的处理,确定该文本语料对应的目标泛化文本;也可以是获取到该文本语料对应的设定数量的泛化文本后,根据获取到的设定数量的泛化文本,进行相应的处理,确定该文本语料对应的目标泛化文本。
其中,具体设置该设定数量时,可以根据场景的不同设置不同的值,如果希望尽可能的多获取文本语料对应的泛化文本,则可以将该设定数量设置的大一些;如果对生成的文本语料对应的泛化文本的质量有严格的要求,则可以将该设定数量设置的小一些。具体实施过程中可以根据实际需求进行灵活设置,在此不作具体限定。
在一种可能的实施方式中,可以直接将获取到的泛化文本确定为该文本语料对应的目标泛化文本。
由于本发明实施例在生成文本语料对应的目标泛化文本时,是基于预先训练完成的至少一个文本泛化模型、解码网络以及该文本语料确定的,使获取的泛化文本更加贴近自然语言,且解码网络在对每个第一概率序列进行解码时,不仅根据该第一概率序列,还根据已解码出的第一字符,使得该第一概率序列解码出的第二字符可以考虑前后文的语义、语序等信息,确定泛化文本,后续根据解码得到的泛化文本,确定该文本语料对应的目标泛化文本会更加的准确。
实施例2:为了获取文本语料对应的目标泛化文本,在上述实施例的基础上,在本发明实施例中,待泛化的文本语料通过如下方式确定:
基于智能问答系统的日志数据,确定待泛化的文本语料,其中,日志数据包括被输入到智能问答系统的输入问句、以及通过智能问答系统确定的与输入问句匹配的标准问句;和/或,根据输入到语义识别模型进行语义识别的文本语句,确定待泛化的文本语料。
在本发明实施例中,为了实现对某一领域的文本语料进行泛化,需要预先收集该领域的文本语料作为待泛化的文本语料,以便后续基于待泛化的文本语料,进行相应的处理,确定该文本语料对应的目标泛化文本,从而获取该领域大量的文本语料。
具体的,可以通过如下方式确定待泛化的文本语料:
方式一、在实际应用场景中,智能问答系统的日志数据中包含有被输入到智能问答系统的输入问句、以及通过智能问答系统确定的与该输入问句匹配的标准问句。通过智能问答系统可以获取到大量的日志数据(为了方便说明,记为第一日志数据),从而可以根据大量的日志数据,确定待泛化的文本语料。
在一种可能的实施方式中,基于获取到的智能问答系统的第一日志数据,确定待泛化的文本语料,包括:将第一日志数据中包括的输入问句和/或标准问句,确定为待泛化的文本语料。
该方式中,第一日志数据中包含有输入问句以及标准问句,可以将该第一日志数据包含的标准问句确定为待泛化的文本语料,也可以将第一日志数据包含的输入问句确定为待泛化的文本语料。当然也可以将第一日志数据中包括的标准问句以及输入问句均确定为待泛化的文本语料。
方式二、在实际应用场景中,可以通过语义识别模型对输入的文本语句进行语义识别,而根据被输入到语义识别模型进行语义识别的文本语句,也可以确定待泛化的文本语料,即将被输入到语义识别模型进行语义识别的文本语句直接确定为待泛化的文本语料。
实施例3:为了准确地获取到文本语料对应的目标泛化文本,在上述各实施例的基础上,在本发明实施例中,若文本泛化模型的数量大于1,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码,包括:
对于每个文本泛化模型每次输出的第一概率序列,确定文本泛化模型同一次输出的第一概率序列的向量和;以及通过解码网络和已解码出的第一字符,对上述向量和进行解码。
在上述实施例的基础上,通过预先训练完成的任一文本泛化模型,均可输出该文本语料对应的至少一个第一概率序列,并且任一文本泛化模型是依次输出每个第一概率序列的。其中,对于每个文本泛化模型每次输出的第一概率序列,每个文本泛化模型在同一次输出的第一概率序列均是用于预测该文本语料对应的泛化文本中同一个对应字符的。因此,在本发明实施例中,为了准确地确定文本语料对应的目标泛化文本,可以综合每个文本泛化模型同一次输出的第一概率序列,对文本语料对应的泛化文本中对应字符进行预测。具体的,对于每个文本泛化模型每次输出的第一概率序列,将每个文本泛化模型同一次输出的第一概率序列相加,获取向量和。
比如,预先训练的两个文本泛化模型分别为文本泛化模型A、以及文本泛化模型B,通过文本泛化模型A,依次获取到文本语料对应的3个第一概率序列分别为a、b、c,通过文本泛化模型B,依次获取到文本语料对应的3个第一概率序列分别为e、f、g。则对于每个文本泛化模型每次输出的第一概率序列,确定文本泛化模型A和文本泛化模型B第一次输出的第一概率序列分别为a和e,根据a和e,确定向量和;确定文本泛化模型A和文本泛化模型B第一次输出的第一概率序列分别为b和f,根据b和f,确定向量和;确定文本泛化模型A和文本泛化模型B第三次输出的第一概率序列分别为c和g,根据c和g,确定向量和。
当基于上述实施例获取到任一向量和之后,根据解码网络、已解码出的第一字符,对该向量和进行解码,以获取该向量和对应的第二字符。当解码出该向量和对应的第二字符后,确定该解码出的第二字符是否满足预设的结束条件,从而确定是否获取到文本语料对应的一个泛化文本。具体的,若确定解码出的第二字符满足预设的结束条件,则确定当前已经获取到文本语料对应的完整泛化文本;否则,说明还未获取到文本语料对应的完整泛化文本,则对每个文本泛化模型下一次输出的第一概率序列进行上述的处理。
在一种可能的实施方式中,确定该第一概率序列解码出的第二字符满足预设的结束条件,包括:
若第二字符为预先配置的结束标识,则确定第二字符满足预设的结束条件;和/或,若已解码得到的字符个数达到设定阈值,则确定第二字符满足预设的结束条件。
在本发明实施例中,为了确定当前是否已经解码出文本语料对应的完整泛化文本,预先配置有结束标识,比如,<EOS>、&&&等不与任一泛化文本中可能包含的字符相同的字符串或者特殊符号等。当解码出第二字符之后,判断该解码出的第二字符是否为预先配置的结束标识。若解码出的第二字符为预先配置的结束标识,说明当前已经解码出文本语料对应的完整泛化文本,则确定解码出的第二字符满足预设的结束条件,确定包含解码出的第二字符以及已解码出的第一字符的文本,将该文本确定为文本语料对应的泛化文本。
在实际应用过程中,当生成的泛化文本所包含的字符过多的时候,该泛化文本的质量一般会受到影响,比如,该泛化文本中的后半部分的语义会偏离文本语料的语义。基于此,在本发明实施例中,预先配置有设定阈值,该设定阈值用于标识生成的文本语料对应的泛化文本所包含的字符的最大数量,并基于该设定阈值,确定预设的结束条件为当前解码出的字符个数达到了设定阈值。具体实施过程中,当解码出第二字符后,根据该第二字符以及已解码出的第一字符,确定已解码得到的字符个数。然后将已解码得到的字符个数与设定阈值进行比较,从而确定当前解码出的第二字符是否满足预设的结束条件。具体的,若确定已解码得到的字符个数达到了设定阈值,说明当前已经解码出该文本语料对应的完整泛化文本,则确定解码出的第二字符满足预设的结束条件,确定包含解码出的第二字符以及已解码出的第一字符的文本,将该文本确定为文本语料对应的泛化文本。
在具体实施过程中,上述两种预设的结束条件可以同时存在,当确定解码出的第二字符满足上述任一预设的结束条件,即解码出的第二字符为预先配置的结束标识,或已解码得到的字符个数达到设定阈值,便确定该解码出的第二字符满足预设的结束条件。
基于上述实施例中的方法,可以获取到文本语料对应的设定数量的泛化文本。但由于自然语言复杂且具有多样性,以及可能出现预先配置的设定数量过大的情况,导致获取的该文本语料对应的设定数量的泛化文本中,可能存在与文本语料的语义相差过大的泛化文本,不利于后续根据解码得到的泛化文本,确定文本语料对应的目标泛化文本。一般情况下,文本语料对应的目标泛化文本与文本语料的语义是相似的,并且与文本语料语义相似的目标泛化文本中,会包含该文本语料所包含的较长的字符串,而与文本语料语义不相近的目标泛化文本中,一般不包含该文本语料所包含的较长的字符串,或包含该文本语料所包含的较短的字符串。基于此,在本发明实施例中,根据解码得到的泛化文本,确定文本语料对应的目标泛化文本,包括:
确定泛化文本与文本语料的最长公共子串;若最长公共子串的长度大于预先配置的长度阈值,则确定泛化文本为目标泛化文本。
具体的,获取文本语料对应的泛化文本与该文本语料的最长公共子串,基于泛化文本的最长公共子串的长度,进行相应的处理,确定文本语料对应的目标泛化文本。其中,文本语料对应的任一泛化文本与该文本语料的最长公共子串表示该泛化文本中与文本语料中均存在的最长字符串所包含字符的个数。
需要说明的是,获取任一泛化文本与文本语料之间的最长公共子串属于现有技术,在此不作赘述。
在本发明实施例中,可以获取到该文本语料对应的任一泛化文本之后,便确定该泛化文本与文本语料的最长公共子串,然后基于该泛化文本的最长公共子串,进行相应的处理,确定文本语料对应的目标泛化文本;也可以获取到该文本语料对应的设定数量的泛化文本之后,确定每个泛化文本分别与文本语料的最长公共子串,然后基于每个泛化文本的最长公共子串,进行相应的处理,确定文本语料对应的目标泛化文本。
为了方便确定文本语料对应的目标泛化文本,预先配置有长度阈值。基于上述实施例确定了泛化文本的最长公共子串之后,判断该泛化文本的最长公共子串的长度是否大于预先配置的长度阈值。具体的,若确定该泛化文本的最长公共子串的长度不大于预先配置的长度阈值,说明该泛化文本很有可能与该文本语料语义不相似,则确定该泛化文本为无效泛化文本,并删除该无效泛化文本;若确定该泛化文本的最长公共子串的长度大于预先配置的长度阈值,说明该泛化文本很有可能与该文本语料语义相似,则确定该泛化文本为该文本语料对应的目标泛化文本。
在实际应用过程中,获取到的泛化文本中可能存在一些不规范字符,比如特殊符号、多个重复的符号等,而一般正常的自然语言中是不存在这些不规范的字符的,并且泛化文本中所包含的不规范字符会影响获取的泛化文本的质量。基于此,在本发明实施例中,根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,方法还包括:采用正则算法,从泛化文本中删除与预先配置的任一不规范字符匹配的字符。
在本发明实施例中,为了提高获取到的文本语料对应的目标泛化文本的指令,预先配置有不规范字符,如特殊符号、多个重复的符号等。然后采用正则算法,从获取到的泛化文本中删除与预先配置的任一不规范字符匹配的字符。
同样的,在本发明实施例中,可以是获取到任一泛化文本之后,便采用正则算法,从该泛化文本中删除与预先配置的任一不规范字符匹配的字符,也可以是获取到设定数量的泛化文本之后,针对每个泛化文本,采用正则算法,从该泛化文本中删除与预先配置的任一不规范字符匹配的字符。当然,也可以是为了减少工作量,通过上述实施例确定了最长公共子串的长度大于预先配置的长度阈值的泛化文本之后,采用正则算法,从该泛化文本中删除与预先配置的任一不规范字符匹配的字符。
需要说明的时,具体的采用正则算法,从泛化文本中删除与预先配置的任一不规范字符匹配的字符的方法,属于现有技术,在此不做赘述。
实施例4:为了使获取的泛化文本更具有通用性,在上述各实施例的基础上,在本发明实施例中,根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,方法还包括:
确定泛化文本中与文本语料包含的关键词匹配的目标分词;以及将与目标分词匹配的关键词对应的槽位类型的名称,替换掉泛化文本中的目标分词。
在实际应用场景中,某些领域的文本语料的文本格式都大致相同,即某些领域的文本语料所包含的分词对应的槽位类型大致相同,比如,导航领域的文本语料中一般均包含有槽位类型为地点的分词,音乐领域的文本语料中一般包含有槽位类型为歌手的分词等。对于这些领域,一般包含有该领域所需的某一槽位类型的文本极有可能为该领域的任一文本语料的泛化文本。基于此,为了保证获取的泛化文本更具有通用性,在本发明实施例中,预先设置了文本语料所包含的关键词以及每个关键词对应的槽位类型的名称。当获取到泛化文本之后,可以根据文本语料所包含的关键词以及每个关键词对应的槽位类型的名称,对泛化文本进行相应的处理。
具体实施过程中,确定泛化文本中包含的每个分词。针对每个分词,确定该分词是否与文本语料包含的任一关键词匹配,若确定该分词与文本语料包含的任一关键词匹配,则确定该分词为目标分词;将与该目标分词匹配的关键词对应的槽位类型的名称,替换掉泛化文本中该目标分词。
在本发明实施例中,可以确定了每个目标分词之后,再分别对每个目标分词进行替换,也可以是确定了任一目标分词之后,便将与该目标分词匹配的关键词对应的槽位类型的名称,替换掉泛化文本中该目标分词。
比如,获取的文本语料“我想听周杰伦的稻香”,可以设置该文本语料中的关键词为“周杰伦”以及“稻香”,并设置该关键词“周杰伦”对应的槽位类型的名称为{<"slot_type":"artist">},关键词“稻香”对应的槽位类型的名称为{<"slot_type":"song">},后续获取到泛化文本后,若该泛化文本包含有“周杰伦”或“稻香”的分词,则将泛化文本中包含的分词“周杰伦”替换为{<"artist">},泛化文本中的分词“稻香”替换为<"song">。
再例如,获取的文本语料为{"text":"我要听周杰伦的双截棍"},该文本语料对应的槽位信息slots为[{"slot_type":"<song>","slot_value":"双截棍"},{"slot_type":"<artist>","slot_value":"周杰伦"}。若获取的该文本语料对应的泛化文本为“我想听双截棍”,确定该泛化文本中的“双截棍”与预设的关键词“双截棍”匹配,则在该泛化文本中,将“双截棍”替换为"song",即替换后的泛化文本为“我想听<song>”。
在本发明实施例中,可以在获取到任一泛化文本之后,便执行上述对泛化文本中的目标分词进行替换的步骤,也可以是获取到设定数量的泛化文本之后,执行上述对泛化文本中的目标分词进行替换的步骤。当然还可以为了减少工作量,在采用正则算法,从泛化文本中删除与预先配置的任一不规范字符匹配的字符之后,执行对泛化文本中的目标分词进行替换的步骤。
实施例5:为了使获取的泛化文本更加贴近正常的自然语言,进一步提高泛化文本的质量,在上述各实施例的基础上,在本发明实施例中,根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,方法还包括:
分别在每个泛化文本的首个字符之前添加开始字符,以及在末尾字符之后添加结束字符;对于预先配置的每个滑动窗口,采用该滑动窗口分别从每个泛化文本的开始字符开始,以预设的滑动步长进行滑动处理,直至到泛化文本的结束字符;确定该滑动窗口中的字符在每个泛化文本中出现的次数;根据每个字符内容以及每个字符内容对应的次数,确定该滑动窗口对应的字典;从每个泛化文本中除开始字符之外的首个字符开始,根据每个滑动窗口分别对应的字典,采用路径搜索算法,获取预设最优路径数量的最优泛化文本确定为目标泛化文本。
在本发明实施例中,预先设置有开始字符,比如,α、γ等,以及结束字符,比如,β、θ等。当基于上述实施例获取到泛化文本之后,分别在每个泛化文本的首个字符之前添加开始字符,以及在末尾字符之后添加结束字符,以方便区分每个泛化文本。
在本发明实施例中,可以在获取到任一泛化文本之后,便在该泛化文本的首个字符之前添加开始字符,以及在末尾字符之后添加结束字符,也可以是获取到设定数量的泛化文本之后,分别在每个泛化文本的首个字符之前添加开始字符,以及在末尾字符之后添加结束字符。当然还可以在对每个泛化文本中包含的每个目标分词进行替换之后,在替换后的泛化文本的首个字符之前添加开始字符,以及在末尾字符之后添加结束字符。
在本发明实施例中,预先配置有不同滑动窗口,每个滑动窗口的长度不相等,比如1、2、3等,以通过不同滑动窗口以及每个泛化文本,生成不同滑动窗口对应的字典(n-gram字典)。具体的,针对预先配置的每个滑动窗口,采用该滑动窗口分别从每个泛化文本的开始字符开始,以预设的滑动步长进行滑动处理,比如,滑动步长为1,直至到泛化文本的结束字符;确定该滑动窗口在每次滑动时,记录由泛化文本上在该滑动窗口中的字符所确定的字符内容,并确定该字符内容在每个泛化文本中出现的次数;根据记录的每个字符内容以及每个字符内容对应的次数,确定该滑动窗口对应的字典。
比如,预先配置的滑动窗口为长度为1的滑动窗口,获取的泛化文本为“α我想去肯德基β”、“α肯德基在哪β”、以及“α我要去肯德基β”。采用该长度为1的滑动窗口分别在每个泛化文本的开始字符开始,以预设的滑动步长1进行滑动处理,直至到每个泛化文本的结束字符;确定该滑动窗口在每次滑动时,记录由泛化文本上在该滑动窗口中的字符所确定的字符内容,分别为“α”、“我”、“想”、“去”、“肯”、“德”、“基”、“β”、“在”、“哪”、“要”,其中,每个字符内容在每个泛化文本中出现的次数分别为“α”为3、“我”为2,“想”为1、“去”为2、“肯”为3、“德”为3、“基”为3、“β”为3、“在”为1、“哪”为1、“要”为1,则根据“α”=3、“我”=2,“想”=1、“去”=2、“肯”=3、“德”=3、“基”=3、“β”=3、“在”=1、“哪”=1、“要”=1,确定该长度为1的滑动窗口的字典。
当基于上述实施例中的方法,获取到每个滑动窗口对应的字典后,将每个泛化文本中除开始字符之外的首个字符作为路径的开始节点,即从每个泛化文本中除开始字符之外的首个字符开始,比如上述的“我”、“肯”,根据每个滑动窗口分别对应的字典,采用路径搜索算法,获取预设最优路径数量的最优泛化文本确定为目标泛化文本。
具体的,根据路径搜索算法,以及每个滑动窗口分别对应的字典中记录的每个字符内容,确定开始节点之后的节点,即首个字符之后的字符(为了方便描述,记为目标字符)。然后针对任一开始节点对应的每个目标字符,根据每个滑动窗口分别对应的字典中记录的每个字符内容对应的次数,确定该开始节点对应的次数、包含该开始节点以及该目标字符的字符内容对应的次数,确定该目标字符为该开始节点之后的节点的条件概率。将条件概率满足预设的条件的任一目标字符确定为该开始节点之后的节点,即首个字符之后的字符,然后将该满足预设的条件(为了方便说明,记为第二条件)的目标字符的节点确定为开始节点,然后执行上述的步骤,直至确定满足预设的第二条件的目标字符为预设的结束字符,根据包含有确定的每个节点的文本,确定最优泛化文本。
其中,满足预设的第二条件可以是条件概率大于预设的概率阈值的任一目标字符满足预设的第二条件,也可以是每个目标字符分别对应的条件概率中,条件概率最大的目标字符满足预设的第二条件。
为了保证最优泛化文本的多样性,可以预先配置最优路径数量。基于上述实施例中的方式,将预设最优路径数量的最优泛化文本确定为目标泛化文本。
在一种可能的实施方式中,通过上述实施例的方式,确定了每个最优泛化文本之后,从每个最优泛化文本中,随机将预设最优路径数量的最优泛化文本确定为目标泛化文本。
在另一种可能的实施方式中,针对每个泛化文本中第一个非开始字符的字符,根据每个滑动窗口分别对应的字典,确定该第一个非开始字符的字符对应的次数。按照次数从大到小的顺序,将每个第一个非开始字符的字符进行排序,只将排序在前的n个字符确定为开始节点。针对每个开始节点,根据上述实施例中的步骤,确定包含该开始节点的最优泛化文本。将获取到n个最优泛化文本均确定为目标泛化文本。其中,n的取值等于预设最优路径数量。
需要说明的是,具体设置该最优路径数量时,可以根据场景的不同设置不同的值,如果希望尽可能的多获取最优泛化文本,则可以将该最优路径数量设置的大一些;如果对获取的最优泛化文本的质量有严格的要求,则可以将该最优路径数量设置的小一些。具体实施过程中可以根据实际需求进行灵活设置,在此不作具体限定。
实施例6:为了对获取到的每个泛化文本中存在的重复文本进行过滤,在上述各实施例的基础上,在本发明实施例中,根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,方法还包括:
对于每个泛化文本,将该泛化文本与其他泛化文本进行匹配,若存在匹配的其他泛化文本,则对该泛化文本以及匹配的其他泛化文本进行去重处理。
当基于上述的实施例获取到泛化文本后,当前获取到的泛化文本中可能存在重复的泛化文本,如果直接将每个泛化文本进行保存,则会浪费大量的存储空间。因此,为了节省用于存储泛化文本的空间,可以对获取到的每个泛化文本中存在的重复文本删除。具体实施过程中,对于每个泛化文本,将该泛化文本与其他泛化文本进行匹配,若存在匹配的其他泛化文本,说明该泛化文本是重复文本,则将该泛化文本删除。若不存在匹配的其他泛化文本,说明该泛化文本不是重复文本,则不对该泛化文本进行删除的处理,并获取下一泛化文本。
其中,将该泛化文本与其他泛化文本进行匹配的过程属于现有技术,其可是通过模型进行匹配,也可以通过算法进行匹配,当然也可以是其他方式,具体实施过程中,可以根据需求进行灵活设置,在此不做具体限定。
在本发明实施例中,可以是直接获取到设定数量的泛化文本之后,对获取到的每个泛化文本中存在的重复文本删除,也可以是为了节省工作量,通过上述实施例,获取到预设最优路径数量的最优泛化文本之后,对获取到的而每个最优泛化文本中存在的重复文本删除。
为了使获取的文本语料对应的泛化文本更加贴近正常的自然语言,根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,方法还包括:对泛化文本中连续包含的重复短语进行去重处理。
在实际应用过程中,正常的自然语言中一般不会出现多个连续重复的短语在一个句子中。因此,在本发明实施例中,可以对任一泛化文本中的内容进行短语去重处理,即对泛化文本中连续包含的重复短语进行去重处理。
其中,重复短语中包含有至少一个字符。
在一种可能的实施方式,按照预设的分词方式,对泛化文本进行分词处理,确定泛化文本中包含的每个分词。针对每个分词,确定该分词所包含的字符数量(为了方便说明,记为第一数量),确定泛化文本中包含该分词之前第一数量的字符的短语是否与该分词一致,并确定泛化文本中包含该分词之后第一数量的字符的短语是否与该分词一致。若确定泛化文本中包含该分词之前第一数量的字符的短语不与该分词一致,且确定泛化文本中包含该分词之后第一数量的字符的短语不与该分词一致,则确定该分词不为重复短语,并获取下一分词;若确定泛化文本中包含该分词之前第一数量的字符的短语与该分词一致,或,确定泛化文本中包含该分词之后第一数量的字符的短语与该分词一致,则确定该分词为重复短语,将该分词从泛化文本中删除,并获取下一分词。
在另一种可能的实施方式中,按照预设的分词方式,对泛化文本进行分词处理,确定泛化文本中包含的每个分词。针对每个分词,确定泛化文本中与该分词相邻的每个分词(为了方便描述,记为相邻分词),判断该分词是否与任一相邻分词一致。若确定该分词与任一相邻分词一致,则确定该分词为重复短语,将该分词从泛化文本中删除,并获取下一分词;若确定该分词与每个相邻分词均不一致,则确定该分词不为重复短语,并获取下一分词。
通过上述的方式确定了泛化文本中存在的连续的重复短语之后,可以在该泛化文本中,将连续的重复短语删减到1个短语,从而使获取的文本语料对应的目标泛化文本更加贴近正常的自然语言。
比如,泛化文本为“今天今天去看演唱会”,通过上述的方式,可以确定该泛化文本中存在的连续的重复短语为“今天”,将该泛化文本中连续的两个重复短语“今天”删减到1个短语“今天”,从而获取到目标泛化文本为“今天去看演唱会”。
在一种可能的实施方式中,为了进一步提高文本语料对应的目标泛化文本的准确性,在本发明实施例中,当确定了泛化文本中存在的连续的重复短语之后,可以通知工作人员对泛化文本中存在的连续的重复短语进行检查,以根据工作人员的检查结果,确定是否需要将泛化文本中存在的连续的重复短语进行处理,从而使获取的文本语料对应的泛化文本更加贴近正常的自然语言。
其中,工作人员也可以直接根据自身的检查结果,直接对泛化文本中存在的连续的重复短语进行处理。
在本发明实施例中,可以通过短信、邮件等通信方式通知工作人员,也可以是控制智能设备的显示器显示存在连续的重复短语的泛化文本,以通知工作人员。具体的通知方式,可以根据实际需求进行灵活设置,在此不做具体限定。
此外,为了进一步准确地确定文本语料对应的目标泛化文本,根据解码得到的泛化文本,确定文本语料对应的目标泛化文本,包括:
若未获取到泛化文本对应的评价分值,或者获取到泛化文本对应的评价分值大于预设分值,则将泛化文本确定为目标泛化文本。
在本发明实施例中,工作人员可以对当前获取到的该文本语料对应的泛化文本进行质检,如确定该泛化文本与文本语料的语义是否相似,泛化文本的语序是否正常,该泛化文本是否为目标领域中的文本等,根据质检结果,对该文本语料对应的泛化文本进行打分。若接收到工作人员对某一文本语料对应的泛化文本输入了评价分值,则将该文本语料、该泛化文本以及评价分值对应保存。
为了进一步准确地确定文本语料对应的目标泛化文本,在本发明实施例中,预设有分值。当基于上述实施例中的方法获取到了泛化文本之后,确定当前是否保存有该泛化文本对应的评价分值,若存在评价分值,说明工作人员对该泛化文本进行了质检,则判断该泛化文本对应的评价分值是否不大于预设分值,若确定该泛化文本对应的评价分值不大于预设分值,说明该泛化文本的质检结果不好,则不将该泛化文本确定为该文本语料对应的目标泛化文本;若确定该泛化文本对应的评价分值大于预设分值,则说明该泛化文本合格,则将该泛化文本确定为该文本语料对应的目标泛化文本。
在另一种可能的情况中,若确定当前未保存该泛化文本对应的评价分值,说明工作人员未对该泛化文本进行质检,则可以继续等待,直至获取到该泛化文本对应的评价分值,然后执行后续判断评价分值是否不大于预设分值的步骤,也可以直接将该泛化文本确定为该文本语料对应的目标泛化文本。
具体实施过程中,获取到某一文本语料对应的泛化文本之后,根据该文本语料以及该泛化文本,查询当前是否保存有对该文本语料的该泛化文本的评价分值,若存在评价分值,且该泛化文本对应的评价分值不大于预设分值,说明工作人员对该泛化文本进行了质检,但该泛化文本的质检结果不好,则不将该泛化文本确定为该文本语料对应的目标泛化文本。若未获取到评价分值,或获取到的该泛化文本对应的评价分值大于预设分值,则将该泛化文本确定为该文本语料对应的目标泛化文本。
实施例7:为了实现通过至少一个文本泛化模型获取文本语料对应的泛化文本,在上述各实施例的基础上,在本发明实施例中,若文本泛化模型的数量大于1,每个文本泛化模型通过如下方式训练:
获取样本集中的任一样本语料,样本语料对应有样本泛化文本中每个字符对应的标准概率序列,任一字符对应的标准概率序列包括预先配置的每个字符中该字符对应的概率值以及除该字符之外的其他字符对应的概率值;通过每个原始文本泛化模型,获取样本泛化文本对应的至少一个第二概率序列,不同的原始文本泛化模型的参数的参数值不同;对于每个第二概率序列,根据第二概率序列以及对应的标准概率序列,计算子损失值;以及根据每个子损失值的和,分别对每个原始文本泛化模型进行训练。
为了实现通过至少一个文本泛化模型获取文本语料对应的泛化文本,需要根据预先获取的样本集中的样本语料,对每个文本泛化模型进行训练。其中,样本集中的样本语料对应有样本泛化文本中每个字符对应的标准概率序列。
需要说明的是,样本泛化文本中任一字符对应的标准概率序列包括预先配置的每个字符中该字符对应的概率值以及除该字符之外的其他字符对应的概率值。
在具体实施中,获取样本集中任一样本语料,并对该样本语料进行预处理,获取该样本语料对应的数字序列。将该数字序列同时输入至每个原始文本泛化模型。通过每个原始文本泛化模型,基于输入的数字序列,获取样本泛化文本对应的至少一个概率序列(为了方便说明,记为第二概率序列)。其中,任一原始文本泛化模型均是依次输出每个第二概率序列的。不同的原始文本泛化模型的部分参数的参数值配置为不同,或者所有参数的参数值配置为不同。
对于每个原始文本泛化模型每次输出的第二概率序列,确定每个原始文本泛化模型同一次输出的第二概率序列的向量和(为了方便说明,记为样本向量和)。根据该样本向量和,以及对应的标准概率序列,计算子损失值。
当获取到样本泛化文本中包含的每个字符对应的子损失值之后,根据每个子损失值的和,对每个原始文本泛化模型进行训练,以分别调整每个原始文本泛化模型中的各参数的参数值。
用于每个原始文本泛化模型训练的样本集中包含大量的样本语料,对每个样本语料都进行上述操作,当满足预设的收敛条件时,每个文本泛化模型训练完成。其中,满足预设的收敛条件可以为当前训练获取的每个子损失值的和小于预设损失阈值,或对每个原始文本泛化模型进行训练的迭代次数达到设置的最大迭代次数等。具体实施中可以灵活进行设置,在此不做具体限定。
作为一种可能的实施方式,在进行每个原始文本泛化模型训练时,可以把样本集中的样本语料分训练样本和测试样本,先基于训练样本对每个原始文本泛化模型进行训练,再基于测试样本对上述已训练的每个文本泛化模型的可靠程度进行验证。
需要说明的是,本发明实施例中进行每个原始文本泛化模型训练的电子设备可以与上述实施例中进行文本语料生成的电子设备相同,也可以是不同的。具体实施过程中,可以根据实际需求进行灵活设置在此不作具体限定。
在另一种可能的实施方式中,当文本泛化模型为1个时,该文本泛化模型通过如下方式训练:
获取样本集中的任一样本语料,样本语料对应有样本泛化文本中每个字符对应的标准概率序列,任一字符对应的标准概率序列包括预先配置的每个字符中该字符对应的概率值以及除该字符之外的其他字符对应的概率值;通过原始文本泛化模型,获取样本泛化文本对应的至少一个第二概率序列;对于每个第二概率序列,根据第二概率序列以及对应的标准概率序列,计算子损失值;以及根据每个子损失值的和,分别对每个原始文本泛化模型进行训练。
具体的,对一个文本泛化模型的训练过程与上述实施例中描述的内容类似,重复之处不做赘述。
为了方便对文本泛化模型进行训练,需要预先收集样本语料以及样本语料对应的样本泛化文本。在本发明实施例中,样本语料及样本语料对应的样本泛化文本通过如下方式确定:
基于智能问答系统的日志数据,确定样本语料及样本语料对应的样本泛化文本,日志数据包括被输入到智能问答系统的输入问句、以及通过智能问答系统确定的与输入问句匹配的标准问句;和/或
根据输入到语义识别模型进行语义识别的文本语句,以及文本语句对应的语义识别结果,确定样本语料及样本语料对应的样本泛化文本,语义识别结果包括文本语句的领域信息、槽位信息以及意图信息。
具体的,可以通过如下方式确定样本语料和样本语料对应的样本泛化文本:
方式一、在本发明实施例中,可以获取智能问答系统在实际使用过程中产生的日志数据,该日志数据中包括的被输入到智能问答系统的输入问句、以及通过智能问答系统确定的与该输入问句匹配的标准问句,以通过该日志数据中包括的输入问句以及与该输入问句匹配的标准问句,获取用于文本泛化模型训练的样本集中包括的样本语料以及样本语料对应的样本泛化文本。
在一种可能的实施方式中,基于智能问答系统的日志数据,确定样本语料及样本语料对应的样本泛化文本,包括:
确定包含相同标准问句的日志数据;以及根据所确定的日志数据中包括的输入问句和标准问句,确定样本语料及样本语料对应的样本泛化文本。
在实际应用过程中,日志数据中包括的输入问句以及与该输入问句匹配的标准问句一般为语义相似的句子,同样的,包含有相同标准问句的日志数据中所包括的输入问句和标准问句一般为语义相似的句子,而语义相似的句子之间可以互为泛化文本。基于此,在本发明实施例中,可以将包含相同标准问句的日志数据中包括的输入问句以及标准问句,确定样本语料以及样本语料对应的样本泛化文本。具体的,获取到智能问答系统的日志数据之后,确定包含相同标准问句的日志数据(为了方便说明,记为目标数据),根据所确定的目标数据中包括的输入问句和标准问句,确定样本语料及样本语料对应的样本泛化文本。
在根据所确定的目标数据中包括的输入问句和标准问句,确定样本语料及样本语料对应的样本泛化文本时,将目标数据中包括所有问句中(包括输入问句和标准问句)的任一目标问句确定为样本语料,即可以将任一输入问句确定为样本语料,也可以将标准问句确定为样本语料,将目标数据中包括的除目标问句之外的其他问句,确定为该目标问句对应泛化文本,即在保证样本语料与该样本语料对应的样本泛化文本不同的情况下,可以将任一输入问句确定为样本语料对应的样本文本语料,也可以将任一标准问句确定为样本语料对应的样本文本语料。
在一种可能的实施方式中,为了保证确定的样本语料以及样本语料对应的样本泛化文本的准确性,在本发明实施例中,获取日志数据为通过智能问答系统的打分模型,确定该日志数据中的输入问句以及该日志数据中的标准问句语义相似的日志数据,或通过人工质检的方式,确定该日志数据中的输入问句以及该日志数据中的标准问句语义相似的日志数据,通过上述的方式,可以保证确定的样本语料以及样本语料对应的样本泛化文本语义相似。
方式二、在本发明实施例中,可以获取语义识别模型在实际使用过程中,输入到该语义识别模型进行语义识别的文本语句、以及通过语义识别模型,确定的该文本语句对应的语义识别结果,以通过该输入到语义识别模型进行语义识别的文本语句、以及该文本语句对应的语义识别结果,获取用于文本泛化模型训练的样本集中包括的样本语料以及样本语料对应的样本泛化文本。
其中,通过语义识别模型可以获取到该文本语句的领域信息、槽位信息以及意图信息。
在一种可能的实施方式中,根据输入到语义识别模型进行语义识别的文本语句,以及文本语句对应的语义识别结果,确定样本语料及样本语料对应的样本泛化文本,包括:
确定具有相同或相似语义识别结果的文本语句;以及根据所确定的文本语句,确定样本语料及样本语料对应的样本泛化文本。
在实际应用过程中,样本语料与样本语料对应的样本泛化文本是语义相似的两条文本。而通过语义识别模型可以直接获取到输入的每个文本语句对应的语义识别结果,通过对每个文本语句分别对应的语义识别结果进行比较,确定出语义相同或相似的文本语句。基于此,在本发明实施例中,可以根据语义相同或相似的文本语句,确定样本语料以及样本语料对应的样本泛化文本。具体的,获取到输入到语义识别模型进行语义识别的每个文本语句、以及每个文本语句分别对应的语义识别结果之后,确定具有相同或相似语义识别结果的文本语句(为了方便描述,记为目标文本语句)。根据所确定的目标文本语句,确定样本语料及样本语料对应的样本泛化文本。
在一种可能的实施方式中,确定具有相同语义识别结果的文本语句包括:
获取任一文本语句;将该文本语句对应的语义识别结果分别与其他文本语句对应的语义识别结果进行匹配。即将该文本语句的领域信息与其他文本语句对应的领域信息、该文本语句的槽位信息与其他文本语句对应的槽位信息、以及该文本语句的意图信息与其他文本语句对应的意图信息分别进行匹配。其中,这里的匹配是指文本语句的语义识别结果与其他文本语句对应的语义识别结果一致,即该文本语句的领域信息与其他文本语句对应的领域信息一致、该文本语句的槽位信息与其他文本语句对应的槽位信息一致、以及该文本语句的意图信息与其他文本语句对应的意图信息一致。将该文本语句、与该文本语句对应的语义识别结果匹配的其他文本语句确定为目标文本语句。
在另一种可能的实施方式中,确定具有相似语义识别结果的文本语句包括:
获取任一文本语句;确定预先配置的该文本语句对应的语义识别结果所对应的相似结果,确定其他文本语句对应的语义识别结果是否与预先配置的任一相似结果匹配。即将该其他文本语句的领域信息与预先配置的相似结果中的领域信息、该其他文本语句的槽位信息与预先配置的相似结果中的槽位信息、以及该其他文本语句的意图信息与预先配置的相似结果中的意图信息分别进行匹配。其中,这里的匹配是指其他文本语句对应的语义识别结果与预先配置的相似结果一致,即该其他文本语句的领域信息与预先配置的相似结果中的领域信息一致、该其他文本语句的槽位信息与预先配置的相似结果中的槽位信息一致、以及该其他文本语句的意图信息与预先配置的相似结果中的意图信息一致。将该文本语句、与相似结果匹配的其他文本语句确定为目标文本语句。
当确定了目标文本语句之后,可以将任意两个目标文本语句确定为样本语料及样本语料对应的样本泛化文本。
实施例8:图2为本发明实施例提供的具体的文本语料生成流程示意图,该方法实施流程包括模型的训练、文本语料生成这两个部分,下面以进行文本语料生成的电子设备为服务器进行说明:
第一部分:模型的训练。
S201:第一服务器基于样本集中的样本语料以及样本语料对应的样本泛化文本,对每个原始文本泛化模型进行训练,获取训练完成的每个文本泛化模型。
图3为本发明实施例提供的具体的每个文本泛化模型的训练过程示意图,该过程包括:
S301:获取智能问答系统的每个日志数据,确定包含相同标准问句的目标数据,继续执行S302。
S302:根据所确定的目标数据中包括的输入问句和标准问句,确定样本语料及样本语料对应的样本泛化文本,继续执行S305。
S303:确定具有相同或相似语义识别结果的目标文本语句,继续执行S304。
S304:根据所确定的目标文本语句,确定样本语料及样本语料对应的样本泛化文本,继续执行S305。
其中,S301~S302与S303~S304之间的执行顺序并不分先后,可以先执行S301~S302再执行S303~S304,也可以先执行S303~S304再执行S301~S302,还可以同时执行S301~S302以及S303~S304。
S305:基于的每个样本语料以及每个样本语料分别对应的样本泛化文本,确定用于文本泛化模型训练的样本集,继续执行S306。
其中,样本语料对应有样本泛化文本中每个字符对应的标准概率序列。
S306:获取样本集中的任一样本语料,以及该样本语料对应的样本泛化文本中每个字符对应的标准概率序列,继续执行S307。
S307:通过每个原始文本泛化模型,获取样本泛化文本对应的至少一个第二概率序列,不同的原始文本泛化模型的参数的参数值不同,继续执行S308。
S308:对于每个第二概率序列,根据第二概率序列以及对应的标准概率序列,计算子损失值,继续执行S309。
S309:根据每个子损失值的和,分别对每个原始文本泛化模型进行训练,以分别调整每个原始文本泛化模型中的参数的参数值。
针对样本集中的每个样本语料,均执行上述的S306~S309的步骤,直至满足预设的收敛条件,确定获取到训练完成的文本泛化模型。
在进行模型训练的过程中,一般采用离线的方式,预先通过第一服务器对样本集中的样本语料进行训练,以获得训练完成的每个文本泛化模型。
第二部分是文本语料生成,基于上述第一服务器训练完成的每个文本泛化模型,将上述训练完成的每个文本泛化模型保存到第二服务器中,通过第二服务器确定文本语料对应的泛化文本,具体实现包括如下步骤:
S202:第二服务器对获取的文本语料进行预处理。
S203:第二服务器基于预先训练完成的每个文本泛化模型、解码网络、以及预处理后的文本语料,获取文本语料对应的泛化文本。
具体的,通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列;依次对于每个文本泛化模型每次输出的第一概率序列,确定文本泛化模型同一次输出的第一概率序列的向量和;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本。其中,确定解码出的第二字符满足预设的结束条件,包括:若第二字符为预先配置的结束标识,则确定第二字符满足预设的结束条件;和/或若已解码得到的字符个数达到设定阈值,则确定第二字符满足预设的结束条件。
S204:第二服务器确定泛化文本与文本语料的最长公共子串。
S205:第二服务器若确定最长公共子串的长度大于预先配置的长度阈值。
S206:第二服务器采用正则算法,从泛化文本中删除与预先配置的任一不规范字符匹配的字符。
S207:第二服务器判断获取的文本语料是否对应有槽位类型的名称,若是,则执行S208,否则,执行S209。
S208:第二服务器确定泛化文本中与文本语料包含的关键词匹配的目标分词,将与目标分词匹配的关键词对应的槽位类型的名称,替换掉泛化文本中的目标分词,然后执行S209。
S209:第二服务器分别在每个泛化文本的首个字符之前添加开始字符,以及在末尾字符之后添加结束字符。
S210:第二服务器对于预先配置的每个滑动窗口,采用该滑动窗口分别从每个泛化文本的开始字符开始,以预设的滑动步长进行滑动处理,直至到泛化文本的结束字符;确定该滑动窗口中的字符在每个泛化文本中出现的次数;根据每个字符内容以及每个字符内容对应的次数,确定该滑动窗口对应的字典。
S211:第二服务器从每个泛化文本中除开始字符之外的首个字符开始,根据每个滑动窗口分别对应的字典,采用路径搜索算法,获取预设最优路径数量的最优泛化文本。
S212:第二服务器对于每个最优泛化文本,将该最优泛化文本与其他最优泛化文本进行匹配,若存在匹配的其他最优泛化文本,则对该最优泛化文本以及匹配的其他最优泛化文本进行去重处理。
S213:第二服务器对每个最优泛化文本中连续包含的重复短语进行去重。
S214:第二服务器针对每个最优泛化文本,若未获取到最优泛化文本对应的评价分值,或者获取到最优泛化文本对应的评价分值大于预设分值。
S215:将该最优泛化文本确定为文本语料对应的目标泛化文本。
实施例9:本发明实施例提供了一种文本语料生成装置,图4为本发明实施例提供的一种文本语料生成装置的结构示意图,该装置包括:
获取单元41,用于通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,第一概率序列中包括预先配置的每个字符分别为文本语料对应的泛化文本中对应字符的概率值;
解码单元42,用于依次对于每个第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本;
确定单元43,用于根据解码得到的泛化文本,确定文本语料对应的目标泛化文本。
在一种可能的实施方式中,确定单元43,还用于通过如下方式确定待泛化的文本语料:基于智能问答系统的日志数据,确定待泛化的文本语料,其中,日志数据包括被输入到智能问答系统的输入问句、以及通过智能问答系统确定的与输入问句匹配的标准问句;和/或,根据输入到语义识别模型进行语义识别的文本语句,确定待泛化的文本语料。
在一种可能的实施方式中,确定单元43具体用于:将第一日志数据中包括的输入问句和/或标准问句,确定为待泛化的文本语料。
在一种可能的实施方式中,获取单元41具体用于:
若文本泛化模型的数量大于1,对于每个文本泛化模型每次输出的第一概率序列,确定文本泛化模型同一次输出的第一概率序列的向量和;通过解码网络、以及已解码出的第一字符,对向量和进行解码。
在一种可能的实施方式中,解码单元42具体用于:若第二字符为预先配置的结束标识,则确定第二字符满足预设的结束条件;和/或,若已解码得到的字符个数达到设定阈值,则确定第二字符满足预设的结束条件。
在一种可能的实施方式中,确定单元43具体用于:
确定泛化文本与文本语料的最长公共子串;若最长公共子串的长度大于预先配置的长度阈值,则确定泛化文本为目标泛化文本。
在一种可能的实施方式中,装置还包括:第一处理单元;
第一处理单元,用于根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,采用正则算法,从泛化文本中删除与预先配置的任一不规范字符匹配的字符。
在一种可能的实施方式中,第一处理单元,还用于:根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,确定泛化文本中与文本语料包含的关键词匹配的目标分词;将与目标分词匹配的关键词对应的槽位类型的名称,替换掉泛化文本中的目标分词。
在一种可能的实施方式中,第一处理单元,还用于:根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,分别在每个泛化文本的首个字符之前添加开始字符,以及在末尾字符之后添加结束字符;对于预先配置的每个滑动窗口,采用该滑动窗口分别从每个泛化文本的开始字符开始,以预设的滑动步长进行滑动处理,直至到泛化文本的结束字符;确定该滑动窗口中的字符在每个泛化文本中出现的次数;根据每个字符内容以及每个字符内容对应的次数,确定该滑动窗口对应的字典;从每个泛化文本中除开始字符之外的首个字符开始,根据每个滑动窗口分别对应的字典,采用路径搜索算法,获取预设最优路径数量的最优泛化文本确定为目标泛化文本。
在一种可能的实施方式中,装置还包括:第二处理单元;
第二处理单元,用于根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,对于每个泛化文本,将该泛化文本与其他泛化文本进行匹配,若存在匹配的其他泛化文本,则对该泛化文本以及匹配的其他泛化文本进行去重处理。
在一种可能的实施方式中,第二处理单元,还用于根据解码得到的泛化文本,确定文本语料对应的目标泛化文本之前,对泛化文本中连续包含的重复短语进行去重处理。
在一种可能的实施方式中,第二处理单元,还用于若未获取到泛化文本对应的评价分值,或者获取到泛化文本对应的评价分值大于预设分值,则将泛化文本确定为目标泛化文本。
在一种可能的实施方式中,若文本泛化模型的数量大于1,每个文本泛化模型通过如下方式训练:
获取样本集中的任一样本语料,样本语料对应有样本泛化文本中每个字符对应的标准概率序列,任一字符对应的标准概率序列包括预先配置的每个字符中该字符对应的概率值以及除该字符之外的其他字符对应的概率值;通过每个原始文本泛化模型,获取样本泛化文本对应的至少一个第二概率序列,不同的原始文本泛化模型的参数的参数值不同;对于每个第二概率序列,根据第二概率序列以及对应的标准概率序列,计算子损失值;根据每个子损失值的和,分别对每个原始文本泛化模型进行训练。
实施例10:图5为本发明实施例提供的一种电子设备结构示意图,该电子设备,包括:处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信;
存储器53中存储有计算机程序,当程序被处理器51执行时,使得处理器51执行如下步骤:
通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,第一概率序列中包括预先配置的每个字符分别为文本语料对应的泛化文本中对应字符的概率值;依次对于每个第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本;根据解码得到的泛化文本,确定文本语料对应的目标泛化文本。
由于上述电子设备解决问题的原理与上述实施例中的文本语料生成方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
基于上述任一实施例,上述电子设备提到的通信总线可以是外设部件互连标准(PCI)总线或扩展工业标准结构(EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口52用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RAM),也可以包括非易失性存储器(NVM),例如至少一个磁盘存储器。
可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NP)等;还可以是数字指令处理器(DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例11:在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,第一概率序列中包括预先配置的每个字符分别为文本语料对应的泛化文本中对应字符的概率值;依次对于每个第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本;根据解码得到的泛化文本,确定文本语料对应的目标泛化文本。
由于上述计算机可读存储介质解决问题的原理与上述实施例中的文本语料生成方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文本语料生成方法,其特征在于,所述方法包括:
通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,所述第一概率序列中包括预先配置的每个字符分别为所述文本语料对应的泛化文本中对应字符的概率值;
依次对于每个所述第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本;
根据解码得到的泛化文本,确定所述文本语料对应的目标泛化文本。
2.根据权利要求1所述的方法,其特征在于,待泛化的文本语料通过如下方式确定:
基于智能问答系统的日志数据,确定待泛化的文本语料,其中,所述日志数据包括被输入到所述智能问答系统的输入问句、以及通过所述智能问答系统确定的与所述输入问句匹配的标准问句;和/或
根据输入到语义识别模型进行语义识别的文本语句,确定待泛化的文本语料。
3.根据权利要求2所述的方法,其特征在于,所述基于获取到的智能问答系统的第一日志数据,确定所述待泛化的文本语料,包括:
将所述第一日志数据中包括的输入问句和/或标准问句,确定为所述待泛化的文本语料。
4.根据权利要求1所述的方法,其特征在于,若所述文本泛化模型的数量大于1,所述通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码,包括:
对于每个所述文本泛化模型每次输出的第一概率序列,确定所述文本泛化模型同一次输出的第一概率序列的向量和;
通过所述解码网络、以及已解码出的第一字符,对所述向量和进行解码。
5.根据权利要求1所述的方法,其特征在于,所述确定该第一概率序列解码出的第二字符满足预设的结束条件,包括:
若所述第二字符为预先配置的结束标识,则确定所述第二字符满足预设的结束条件;和/或
若已解码得到的字符个数达到设定阈值,则确定所述第二字符满足预设的结束条件。
6.根据权利要求1所述的方法,其特征在于,所述根据解码得到的泛化文本,确定所述文本语料对应的目标泛化文本,包括:
确定所述泛化文本与所述文本语料的最长公共子串;
若所述最长公共子串的长度大于预先配置的长度阈值,则确定泛化文本为所述目标泛化文本。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据解码得到的泛化文本,确定所述文本语料对应的目标泛化文本之前,所述方法还包括:
分别在每个所述泛化文本的首个字符之前添加开始字符,以及在末尾字符之后添加结束字符;
对于预先配置的每个滑动窗口,采用该滑动窗口分别从每个所述泛化文本的开始字符开始,以预设的滑动步长进行滑动处理,直至到所述泛化文本的结束字符;确定该滑动窗口中的字符在每个所述泛化文本中出现的次数;根据每个所述字符内容以及每个所述字符内容对应的次数,确定该滑动窗口对应的字典;
从每个泛化文本中除开始字符之外的首个字符开始,根据每个滑动窗口分别对应的字典,采用路径搜索算法,获取预设最优路径数量的最优泛化文本确定为所述目标泛化文本。
8.一种文本语料生成装置,其特征在于,所述装置包括:
获取单元,用于通过至少一个文本泛化模型,获取待泛化的文本语料对应的至少一个第一概率序列,所述第一概率序列中包括预先配置的每个字符分别为所述文本语料对应的泛化文本中对应字符的概率值;
解码单元,用于依次对于每个所述第一概率序列,通过解码网络、以及已解码出的第一字符,对该第一概率序列进行解码;若确定该第一概率序列解码出的第二字符满足预设的结束条件,则将解码得到的字符序列确定为泛化文本;
确定单元,用于根据解码得到的泛化文本,确定所述文本语料对应的目标泛化文本。
9.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述文本语料生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述文本语料生成方法的步骤。
CN202011627584.7A 2020-12-31 2020-12-31 一种文本语料生成方法、装置、设备及介质 Pending CN114692642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011627584.7A CN114692642A (zh) 2020-12-31 2020-12-31 一种文本语料生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011627584.7A CN114692642A (zh) 2020-12-31 2020-12-31 一种文本语料生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114692642A true CN114692642A (zh) 2022-07-01

Family

ID=82135007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011627584.7A Pending CN114692642A (zh) 2020-12-31 2020-12-31 一种文本语料生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114692642A (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ATERET ANABY-TAVOR,BOAZ CARMELI: "Do Not Have Enough Data? Deep Learning to the Rescue!", ARXIV, 27 November 2019 (2019-11-27), pages 1 - 8 *
GUODONG XIE,ANDY WAY: "Constraining the Transformer NMT Model with Heuristic Grid Beam Search", PROCEEDINGS OF THE 14TH CONFERENCE OF THE ASSOCIATION FOR MACHINE TRANSLATION IN THE AMERICAS, no. 01, 9 October 2020 (2020-10-09), pages 36 *
PEI LIU; XUEMIN WANG; CHAO XIANG: "A Survey of Text Data Augmentation", 2020 INTERNATIONAL CONFERENCE ON COMPUTER COMMUNICATION AND NETWORK SECURITY (CCNS), 2 November 2020 (2020-11-02), pages 191 - 195 *
VARUN KUMAR,ASHUTOSH CHOUDHARY,EUNAH CHO: "Data Augmentation using Pre-trained Transformer Models", ARXIV, 4 March 2020 (2020-03-04), pages 18 - 26 *
VARUN KUMAR,ASHUTOSH CHOUDHARY,EUNAH CHO: "Data Augmentation using Pre-trained Transformer Models", PROCEEDINGS OF THE SECOND WORKSHOP ON LIFE-LONG LEARNING FOR SPOKEN LANGUAGE SYSTEMS, 7 December 2020 (2020-12-07), pages 18 - 26 *

Similar Documents

Publication Publication Date Title
CN108091328B (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US11487939B2 (en) Systems and methods for unsupervised autoregressive text compression
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
Mairesse et al. Stochastic language generation in dialogue using factored language models
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN108052499B (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
US11934781B2 (en) Systems and methods for controllable text summarization
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN111104803B (zh) 语义理解处理方法、装置、设备及可读存储介质
JPWO2007097208A1 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN113033182B (zh) 文本创作的辅助方法、装置及服务器
CN109359308B (zh) 机器翻译方法、装置及可读存储介质
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
Alvarez et al. Improving the automatic segmentation of subtitles through conditional random field
CN114757203A (zh) 基于对比学习的中文句子精简方法和系统
CN112905637B (zh) 基于对话改写模型的多轮文本到sql方法及系统
CN112446217B (zh) 情感分析方法、装置及电子设备
Primandhika et al. Experiment on a Transformer Model Indonesian-to-Sundanese Neural Machine Translation with Sundanese Speech Level Evaluation
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination