CN111563375A - 一种文本生成方法和装置 - Google Patents

一种文本生成方法和装置 Download PDF

Info

Publication number
CN111563375A
CN111563375A CN202010381139.0A CN202010381139A CN111563375A CN 111563375 A CN111563375 A CN 111563375A CN 202010381139 A CN202010381139 A CN 202010381139A CN 111563375 A CN111563375 A CN 111563375A
Authority
CN
China
Prior art keywords
text
feature
vector
word
text corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010381139.0A
Other languages
English (en)
Other versions
CN111563375B (zh
Inventor
吴帅
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010381139.0A priority Critical patent/CN111563375B/zh
Publication of CN111563375A publication Critical patent/CN111563375A/zh
Application granted granted Critical
Publication of CN111563375B publication Critical patent/CN111563375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本生成方法和装置,涉及自然语言技术领域。本发明提供的文本生成方法和装置,通过在第一文本语料中确定第一分词,并在第一分词与预设特征匹配的情况下,将第一分词替换为预设特征对应的特征标记获得第二文本语料,再获取第一文本语料中的第一分词对应的第一词向量,第二文本语料中第一分词和特征标记对应的第一特征向量,此时,可以将第一词向量以及第一特征向量输入文本生成模型中,获取输出的目标语义结构的目标词向量,再根据目标词向量获得目标文本语料。本发明实施例获得的目标文本语料中包括了需求的、完整的目标语义结构,且第一文本语料不限制获取方式,避免了扩展的目标文本语料间相似度高,扩展效果差的问题。

Description

一种文本生成方法和装置
技术领域
本发明涉及自然语言技术领域,特别是涉及一种文本生成方法和装置。
背景技术
为了满足日益增长的命名实体识别、语音识别、语音合成、机器翻译等需求,需要文本识别模型进行文本识别。
目前,通常通过采集获得不同场景、不同领域、不同语系等的文本语料,来训练对应的文本识别模型。但是,为了保证文本识别模型得到充分训练、提升识别结果的准确率,通常需要符合模型训练要求的,大量的文本语料。而受限于采集条件,有时无法保证文本语料的数量和质量,使得文本语料稀疏,导致训练文本识别模型不能得到充分的训练。
为了扩展文本语料,现有技术通常采用加噪的方式,在原有文本语料的基础上,通过同义词替换、随机词插入、随机词删除、随机词交换等方式生成新的文本语料,但是同义词替换可能导致新文本语料与原文本语料相似度高,扩展效果差,而在文本语料中随机词插入、删除、交换等可能破坏文本语料的语义结构,文本语料的语义结构被破坏可能影响文本识别模型的训练的效率以及识别结果的准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本生成方法和装置。
依据本发明的第一方面,提供了一种文本生成方法,该方法包括:
获取第一文本语料中的第一分词;
在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;
获取所述第一文本语料中所述第一分词对应的第一词向量;
获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到;
根据所述目标词向量获得目标文本语料。
依据本发明的第二方面,提供了一种文本生成装置,该装置包括:
分词模块,用于获取第一文本语料中的第一分词;
标记模块,用于在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;
第一向量模块,用于获取所述第一文本语料中所述第一分词对应的第一词向量;
第二向量模块,用于获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
模型输入模块,用于将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到;
文本获取模块,用于根据所述目标词向量获得目标文本语料。
本发明实施例中,在需要扩展目标语义结构的文本语料时,只需在任意的第一文本语料中确定第一分词,并在第一分词与预设特征匹配的情况下,将第一分词替换为预设特征对应的特征标记获得第二文本语料,再获取第一文本语料中的第一分词对应的第一词向量,第二文本语料中第一分词和特征标记对应的第一特征向量,此时,可以将第一词向量以及第一特征向量输入文本生成模型中,并获取输出的目标语义结构的目标词向量,再根据目标词向量获得目标文本语料。由于获得的目标文本语料与目标语义结构的目标词向量对应,而目标语义结构为需求的文本语料的语义结构,因此,目标文本语料中包括了需求的、完整的语义结构,符合文本识别模型的训练需求;另外,第一文本语料不限制获取方式、范围等,避免了同义词替换中扩展的目标文本语料间相似度高,文本扩展效果差的问题,从而保证了根据目标文本语料训练得到的文本识别模型的训练效率和识别准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种文本生成方法的步骤流程图;
图2是本发明实施例提供的另一种文本生成方法的步骤流程图;
图3是本发明实施例提供的又一种文本生成方法的步骤流程图;
图4是本发明实施例中一种文本生成模型的训练和预测过程具体示例示意图;
图5是本发明实施例中提供的另一种文本生成模型的训练和预测过程具体示例示意图;
图6是本发明实施例提供的一种文本生成装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种文本生成方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取第一文本语料中的第一分词。
本发明实施例中,对文本语料的扩充可以是将获取到的,语义结构不同的文本语料转化为目标语义结构的目标文本语料,从而扩大目标语义结构的文本语料的数量,其中,可以是不同场景、不同领域、不同语系等大量不同语义结构的第一文本语料,如社交、教育、经济、科技、网络用语等,并将其转化为目标语义结构。在获得大量目标语义结构的文本语料的同时,避免目标语义结构的文本语料间相似度高的问题,从而同时保证目标语义结构的文本语料数量和质量。在此基础上,本发明实施例对第一文本语料的来源、数量等不做限制,本领域技术人员可以根据具体需求获取对应来源、数量的第一文本语料。
本发明实施例中,可以对先对第一文本语料进行预处理,可选地,预处理可以包括去除第一文本语料中的无用符号,如空格、标点符号、表情等;预处理也可以包括对第一文本语料进行查重,将相似度达到重复阈值的文本语料进行去重;预处理也可以包括对文本语料的格式进行统一等。
本发明实施例中,可以获取第一文本语料中的第一分词,其中,第一分词可以包括第一文本语料中所有的分词。可选地,可以对第一文本语料中的单个汉字、单词、数字进行分词;也可以通过字符串匹配的分词方法,将第一文本语料与预置的词汇表进行匹配,从而对第一文本语料进行分词,如通过正向最大匹配法、逆向最大匹配法或双向匹配法进行分词等;也可以通过机器学习算法,在词语统计的基础上对模型进行文本标注的训练,其中,可以采用HMM(Hidden Markov Model,隐马尔可夫模型)、CRF(Conditional Random Field,条件随机场)算法、SVM(Support Vector Machines,支持向量机)或深度学习算法等进行分词,本发明实施例对分词的方式不做具体限定。另外,在对第一文本语料分词后,还可以去除分词中的停用词,即语言中普遍包含的、不具有实际意义的功能词,如那、吗、吧、呀等,避免第一文本语料中出现的数据冗杂,从而影响文本识别模型训练的效率。
步骤102、在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料。
本发明实施例中,预设特征可以是分词对应的不同类别,可选地,预设特征可以是各分词的词性,如名词、动词、副词等;也可以是各分词的感情色彩,如褒义词、贬义词、中性词等;也可以是各分词的来源如成语、歇后语、外来语等;也可以是在句子中的成分,如主语、谓语、宾语、定语、状语、补语等;也可以是对已有的文本语料进行聚类得到的分类结果,如对第一文本语料进行聚类得到类别1、类别2、类别3等;或者也可以是上述各分词的分类方案的任意组合。可选地,与第一分词匹配的预设特征可以是所有的预设特征,也可以是目标语义结构中包括的预设特征,由于不同第一分词可能对应相同预设特征,因此,在第二文本语料中不同第一分词可能被相同特征标记替换。
本发明实施例中,在第一分词属于预设特征对应的类别的情况下,可以认为第一分词与预设特征匹配,此时,可以将第一文本语料中该第一分词替换为该预设特征对应的特征标记,如动词对应特征标记<v>、宾语对应特征标记<o>、名词对应特征标记<n>等,从而能够标记第一文本语料中不同预设特征的第一分词的位置,获得第二文本语料。由于不同第一分词可能对应相同预设特征,因此,在第二文本语料中不同第一分词可能被相同特征标记替换。另外,基于预设特征的选择不同,从第一文本语料可能获得多种不同的第二文本语料,具体可以根据目标语义结构以及文本生成模型的需求确定。
步骤103、获取所述第一文本语料中所述第一分词对应的第一词向量。
在实际应用中,词向量指根据自然语言中词转化的、计算机可识别的数组数据结构,由于每个词对应的词向量唯一,因此可以区分不同的词。本发明实施例中,可以分别获取与每个第一分词唯一对应的第一词向量,在第一文本语料中,相同的第一分词对应相同的第一词向量,不同的第一分词对应不同的第一词向量。
步骤104、获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量。
在实际应用中,特征向量指根据预设特征转化的、计算机可识别的数组数据结构,由于每个预设特征对应的特征向量唯一,因此可以区分不同的预设特征。本发明实施例中,由于预设特征和特征标记一一对应,因此可以分别确定第二文本语料中每个特征标记唯一对应的第一特征向量,从而获得预设特征对应的第一特征向量,在第二文本语料中,相同特征标记相同第一特征向量,不同特征标记对应不同特征向量。
步骤105、将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到。
本发明实施例中,文本生成模型是预设训练得到的,可以根据第一特征向量和目标语义结构,将第一词向量转化为目标语义结构的目标词向量的模型。其中,目标语义结构可以是符合文本识别模型训练需求的句式结构,可以包括特征向量、特征向量的嵌入位置等,从而使得文本生成模型可以根据第一特征向量对其对应的各第一词向量进行嵌入、复制、删除、调换等;或目标语义结构也可以进一步包括其他词向量和其他词向量的嵌入位置,从而在第一词向量中可以将其他词向量插入对应位置,如在名词后插入分词“儿”对应的其他词向量、在名词前插入分词“小”对应的其他词向量等,从而输出对应目标语义结构的目标词向量。
步骤106、根据所述目标词向量获得目标文本语料。
本发明实施例中,由于词向量与分词唯一对应,因此,可以将文本生成模型输出的目标词向量转化成对应的分词,从而获得目标词向量对应的目标文本语料。由于目标词向量符合目标语义结构,因此,获得的目标文本语料也符合目标语义结构,从而对目标语义结构的文本语料进行了扩充。
综上所述,本发明实施例中,在需要扩展目标语义结构的文本语料时,只需在任意的第一文本语料中确定第一分词,并在第一分词与预设特征匹配的情况下,将第一分词替换为预设特征对应的特征标记获得第二文本语料,再获取第一文本语料中的第一分词对应的第一词向量,第二文本语料中第一分词和特征标记对应的第一特征向量,此时,可以将第一词向量以及第一特征向量输入文本生成模型中,并获取输出的目标语义结构的目标词向量,再根据目标词向量获得目标文本语料。由于获得的目标文本语料与目标语义结构的目标词向量对应,而目标语义结构为需求的文本语料的语义结构,因此,目标文本语料中包括了需求的、完整的语义结构,符合文本识别模型的训练需求;另外,第一文本语料不限制获取方式、范围等,避免了同义词替换中扩展的目标文本语料间相似度高,文本扩展效果差的问题,从而保证了根据目标文本语料训练得到的文本识别模型的训练效率和识别准确性。
图2是本发明实施例提供的另一种文本生成方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、获取第一文本语料中的第一分词。
本发明实施例中,步骤201可对应参照前述步骤101的相关描述,为避免重复,在此不再赘述。
步骤202、确定所述第一文本语料对应的至少一个预设特征,所述预设特征根据特征标注、无监督聚类、半监督聚类中的至少一种方法确定得到。
本发明实施例中,可以根据第一文本语料确定其包括的预设特征,可选地,可以采用特征标注的方式,即预先确定至少一个特征,然后根据该至少一个特征对第一文本语料中的第一分词进行标注,标注成功的特征可以确定为预设特征,其中,可以通过预先训练的文本标注模型或人工对第一分词进行标注;或者,也可以通过无监督聚类的方式,通过无监督聚类算法对第一文本语料中所有的第一分词进行聚类,或对已采集的所有文本语料中的分词进行聚类,从而获得至少一个目标类别,该至少一个目标类别可以确定为预设特征;或者,也可以通过半监督聚类的方式,通过半监督聚类算法,即预先确定至少一个特征,预先训练针对该至少一个特征的文本分类模型,从而通过该文本分类模型对第一分词进行分类,在第一文本语料包含该特征对应的第一分词的情况下,确定该特征为预设特征。
步骤203、在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料。
本发明实施例中,步骤203可对应参照前述步骤102的相关描述,为避免重复,在此不再赘述。
步骤204、对所述第一文本语料中的每个第一分词构建对应的数组,获得第一词向量。
本发明实施例中,对第一文本语料中每个第一分词构建对应的数组,可选地,可以根据第一文本语料中每个第一分词第一次出现的顺序进行编码,如第一文本语料经过分词得到分词a、分词b、分词b、分词c,此时,可以根据各第一分词第一次出现的顺序编码,分词a编码为1、分词b编码为2、分词c编码为3等;也可以通过Word Embedding(词嵌入向量)模型,通过将各第一分词映射另一个数值向量空间获得唯一对应的一维向量,或BERT(Bidirectional Encoder Representations from Transformers,基于转换表示的双向编码)模型,通过该预训练语言表示的方法,从第一分词中提取唯一对应的嵌入向量,以获得第一分词对应的第一词向量,本发明实施例对获取第一分词对应的第一词向量的方法不做限定。
步骤205、将所述第二文本语料中的每个第一分词置为初始值,并获取所述第二文本语料中的每个特征标记对应的特征向量,获得第一特征向量。
本发明实施例中,每个特征标记对应的特征向量,可以根据获取特征标记对应预设特征的方式确定,可选地,通过特征标注获得的预设特征可以转换为N维特征向量。其中,N为大于或等于预设特征总个数的整数,该特征向量每一维均满足布尔类型,即真(true)为1、假(false)为0,如当预设特征包括名词、动词、形容词、副词、代词时,可以以名词为第一维、动词为第二维、形容词为第三维、副词为第四维、代词为第五维,对应转化为五维特征向量。如,当第一分词为名词时,其特征标记对应的特征向量为(1,0,0,0,0);当第一分词为动词时,其特征标记对应的特征向量为(0,1,0,0,0);当第一分词既可以是名词也可以是动词时,其特征标记对应的特征向量为(1,1,0,0,0),以此类推。另外,当N大于预设特征总个数时可以对特征向量末位补零,如上述第一分词为名词时,其特征标记对应的六维特征向量可以是(0,1,0,0,0,0),以此类推。
可选地,通过无监督聚类获得的预设特征,可以通过无监督聚类算法确定每个特征标记对应的特征向量,如通过K-Means(K均值)算法对第一文本语料中的第一分词进行无监督聚类,或对已采集到的所有文本语料中的分词进行无监督聚类得到的预设特征,每个预设特征指向聚类中心点的向量,可以被确定为该预设特征对应特征标记的特征向量,其中,K-Means算法指先确定K个点作为初始质心,重复将每个数据指派到距离最近的质心形成K个簇,并重新计算每个簇的质心的步骤,至簇不再发生变化或达到最大迭代次数的无监督聚类算法。在此基础上,聚类得到的预设特征可对应聚类得到的不同簇,在指定中心点后,每一个簇的质心指向中心点的向量均不同,从而可以将其确定为预定特征对应特征标记的特征向量。根据选用的无监督聚类算法的不同,可以通过不同的方式确定特征标记对应的特征向量,本发明实施例中,对此不作具体限制。
可选地,通过半监督算法获得的预设特征,可以通过预先训练文本分类模型的算法确定每个特征标记对应的特征向量,如通过预先训练的神经网络模型对第一文本语料中的第一分词进行分类,由于神经网络模型在训练时锚定特征向量进行训练,因此最后一维输出的即为神经网络模型的输出结果,具有连续性,可以将神经网络模型的最后一维输出作为特征标记对应的特征向量,根据选用的半监督聚类算法的不同,可以通过不同的方式确定特征标记对应的特征向量,本发明实施例中,对此不作具体限制。
本发明实施例中,基于不同预设特征的选择,第二文本语料中可能包括特征标记,也可能包括特征标记和第一分词,可选地,可以将第二文本语料中每个第一分词置为初始值进行占位,从而记录特征标记在第二文语料中的位置,可选地,初始值用于区分第二文本语料中特征标记与第一分词,此时,初始值可以选用与第一特征向量不同的任意数值,如0、1等,本发明实施例对此不作具体限制。
步骤206、将所述第一词向量和所述第一特征向量输入所述文本生成模型中,确定两种以上目标语义结构的词向量组合,以及每一种词向量组合的概率。
步骤207、将所述词向量组合根据所述概率排序。
步骤208、根据所述排序确定所述文本生成模型输出的所述目标词向量。
本发明实施例中,文本生成模型根据第一特征向量得到的可以是不同第一词向量分布的概率,即不同词向量组合的概率,其中,不同词向量组合可以对应不同的目标语义结构。当文本生成模型可以确定两种以上目标语义结构的词向量组合时,可以根据该词向量组合对应的概率对词向量组合进行排序。可选地,可以直接根据概率由大到小对词向量组合进行排序,也可以通过Beam Search(束搜索)算法根据不同概率对数值对不同词向量组合进行排序,本发明实施例对此不作具体限制。
本发明实施例中,当需求一种目标语义结构的文本语料时,可以在词向量组合的排序中选取概率最高的词向量组合作为目标词向量;当需求两个以上目标语义结构的文本语料时,可以在词向量组合的排序中,选取前M个词向量组合为目标词向量组合,其中,N为需求目标语义结构的个数,或者,可以预先设定Beam(束)阈值,选取概率对数值大于Beam阈值的词向量组合作为目标词向量。
步骤209、根据所述目标词向量获得目标文本语料。
本发明实施例中,步骤209可对应参照前述步骤106的相关描述,为避免重复,在此不再赘述。
综上所述,本发明实施例中,在需要扩展目标语义结构的文本语料时,只需在任意的第一文本语料中确定第一分词,并在第一分词与预设特征匹配的情况下,将第一分词替换为预设特征对应的特征标记获得第二文本语料,再获取第一文本语料中的第一分词对应的第一词向量,第二文本语料中第一分词和特征标记对应的第一特征向量,此时,可以将第一词向量以及第一特征向量输入文本生成模型中,并获取输出的目标语义结构的目标词向量,再根据目标词向量获得目标文本语料。由于获得的目标文本语料与目标语义结构的目标词向量对应,而目标语义结构为需求的文本语料的语义结构,因此,目标文本语料中包括了需求的、完整的语义结构,符合文本识别模型的训练需求;另外,第一文本语料不限制获取方式、范围等,避免了同义词替换中扩展的目标文本语料间相似度高,文本扩展效果差的问题,从而保证了根据目标文本语料训练得到的文本识别模型的训练效率和识别准确性。
图3是本发明实施例提供的又一种文本生成方法的步骤流程示意图,如图3所示,该方法可以包括:
步骤301、获取第三文本语料中的第二分词,所述第三文本语料包括至少一种目标语义结构的文本语料。
本发明实施例中,第三文本语料可以是包括至少一种目标语义结构的文本语料,可选地,当目标语义结构为两个以上时,可以是同一场景、同一领域、同一语系等下的两个以上目标语义结构,也可以是不同场景、不同领域、不同语系等下的两个以上目标语义结构,本发明实施例对此不作具体限制。
本发明实施例中,步骤301获取第三文本语料中的第二分词的方式,可对应参照步骤101中获取第一文本预料中第一分词的相关描述,为避免重复,在此不再赘述。
步骤302、在所述第二分词与所述预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的所述特征标记,获得第四文本语料。
本发明实施例中,步骤302获取第四文本语料的方式可对应参照前述步骤102中获取第二文本语料的相关描述,为避免重复,在此不再赘述。
步骤303、获取所述第三文本语料中所述第二分词对应的第二词向量。
本发明实施例中,步骤303获取第二词向量的方式可对应参照前述步骤103中获取第一词向量的相关描述,为避免重复,在此不再赘述。
步骤304、获取所述第四文本语料中所述第一分词和所述特征标记对应的第二特征向量。
本发明实施例中,步骤304获取第二特征向量的方式可对应参照前述步骤104中获取第一特征向量的相关描述,为避免重复,在此不再赘述。
步骤305、根据所述第二词向量和所述第二特征向量进行模型训练,得到所述文本生成模型。
本发明实施例中,可以构建以第二词向量和第二特征向量为输入,第二词向量为输出的文本生成模型,该第二特征向量用于确定第二词向量中与预设特征匹配的第二词向量位置,其中,文本生成模型可以是神经网络模型,如RNN(Recurrent Neural Network,循环神经网络)模型、CNN(Convolutional Neural Networks,卷积神经网络)模型等;文本生成模型可以根据第二特征向量对第二词向量进行组合,输出至少一种目标语义结构的词向量组合,以及该词向量组合的概率。可选地,可以采用Masked(遮掩)机制对文本生成模型进行训练,即随机遮挡任意一个第二词向量,再通过文本生成模型对该第二词向量进行预测的训练方法,同时采用PPL(Perplexity,混淆度)的目标函数进行训练,其中,PPL的目标函数为自然语言中用于训练语言模型的混淆度函数,用于评估语言模型在新输入上的表现,在本发明实施例中,即为评估文本生成模型测试阶段输入词向量与对应的特征向量后,输出的词向量组合与目标语义结构的一致程度,在该一致程度达到预设一致程度时,可以认为该文本生成模型收敛,获得需求的文本生成模型。可选地,文本生成模型测试阶段输入的词向量,可以是目标语义结构的第二词向量,也可以是其他语义结构的词向量,本发明实施例对此不作具体限制。
如,将第二词向量记为u,第二特征向量记为v,构建一种N*M的一维神经网络模型。其中:
N=len(u)+len(v),M=len(u)
上述len函数为向量的长度。
步骤306、获取第一文本语料中的第一分词。
步骤307、在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料。
步骤308、获取所述第一文本语料中所述第一分词对应的第一词向量。
步骤309、获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量。
步骤310、将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到。
步骤311、根据所述目标词向量获得目标文本语料。
本发明实施例中,步骤306至步骤311可对应参照前述步骤101至步骤106中的相关描述,为避免重复,在此不再赘述。另外,根据目标文本语料可以对文本生成模型进行更新,以保证文本生成模型后续文本语料生成的准确性。
图4是本发明实施例中一种文本生成模型的训练和预测过程具体示例示意图,如图4所示,该方法可以包括:
以口头语场景目标语义结构的文本语料“我要去看看他”为例,获取文本语料中的分词“我要去看看他”。
以预设特征包括动词和宾语为例,其中,动词对应特征标记为<v>以及宾语对应特征标记为<o>,在分词与预设特征匹配的情况下,将分词替换为对应的特征标记,获得文本语料“我要去<v><v><o>”。
获取“我要去看看他”中分词对应的词向量“w1 w2 w3 w4 w4 w5”。
以<v>对应的特征向量v1,以及<o>对应的特征向量v2为例,获取文本语料“我要去<v><v><o>”中分词和特征标记对应的特征向量“0 0 0 v1 v1 v2”。
根据词向量“w1 w2 w3 w4 w4 w5”和特征向量“0 0 0 v1 v1 v2”进行模型训练,获得文本生成模型。
获取包括动宾短语“睡觉”的文本语料,参照上述流程,获得词向量“w6 w7”,以及特征向量“v1 v2”。
将词向量“w6 w7”以及特征向量“v1 v2”输入该文本生成模型中,获得输出的目标词向量“w1 w2 w3 w6 w6 w7”。
根据目标词向量“w1 w2 w3 w6 w6 w7”获得目标文本语料“我要去睡睡觉”。
可选地,图5是本发明实施例中提供的另一种文本生成模型的训练和预测过程具体示例示意图,如图5所示,参照图4所示的内容,在训练过程中,如果选用的是口头语场景另一种目标语义结构的文本语料“你看看书就好”,可以获取文本语料中的分词“你看看书就好”。
在分词与预设特征匹配的情况下,将分词替换为对应的特征标记,获得文本语料“你<v><v><o>就好”。
获取“你看看书就好”中分词对应的词向量“w8 w4 w4 w9 w10 w11”。
获取文本语料“你<v><v><o>就好”中分词和特征标记对应的特征向量“0 0 0 v1v1 v2”。
根据词向量“w8 w4 w4 w9 w10 w11”,以及特征向量“0 v1 v1 v2 0 0 0”进行模型训练,此时,将词向量“w6 w7”以及特征向量“v1 v2”输入该文本生成模型中,获得输出的目标词向量“w8 w6 w6 w7 w10 w11”。
根据目标词向量“w8 w6 w6 w7 w10 w11”获得目标文本语料“你睡睡觉就好”。
可选地,也可以同时通过两种目标语义结构的词向量和特征向量进行模型训练,获得文本生成模型,此时,文本生成模型可以分别确定两种目标语义结构的词向量组合,以及该词向量组合的概率,对概率进行排序从而确定目标词向量,通过语料中预设特征对应的分词进行对应特征标记的替换从而定位,提升了模型训练迭代的速度,改善了模型训练的效率,本发明实施例对此不作具体限制。
综上所述,本发明实施例中,在需要扩展目标语义结构的文本语料时,只需在任意的第一文本语料中确定第一分词,并在第一分词与预设特征匹配的情况下,将第一分词替换为预设特征对应的特征标记获得第二文本语料,再获取第一文本语料中的第一分词对应的第一词向量,第二文本语料中第一分词和特征标记对应的第一特征向量,此时,可以将第一词向量以及第一特征向量输入文本生成模型中,并获取输出的目标语义结构的目标词向量,再根据目标词向量获得目标文本语料。由于获得的目标文本语料与目标语义结构的目标词向量对应,而目标语义结构为需求的文本语料的语义结构,因此,目标文本语料中包括了需求的、完整的语义结构,符合文本识别模型的训练需求;另外,第一文本语料不限制获取方式、范围等,避免了同义词替换中扩展的目标文本语料间相似度高,文本扩展效果差的问题,从而保证了根据目标文本语料训练得到的文本识别模型的训练效率和识别准确性。
图6是本发明实施例提供的一种文本生成装置的框图,如图6所示,该装置600可以包括:
分词模块601,用于获取第一文本语料中的第一分词;
标记模块602,用于在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;
第一向量模块603,用于获取所述第一文本语料中所述第一分词对应的第一词向量;
第二向量模块604,用于获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
模型输入模块605,用于将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到;
文本获取模块606,用于根据所述目标词向量获得目标文本语料。
可选地,所述分词模块601,还用于获取第三文本语料中的第二分词,所述第三文本语料包括至少一种目标语义结构的文本语料;
可选地,所述标记模块602,还用于在所述第二分词与所述预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的所述特征标记,获得第四文本语料;
可选地,所述第一向量模块603,还用于获取所述第三文本语料中所述第二分词对应的第二词向量;
可选地,所述第二向量模块604,还用于获取所述第四文本语料中所述第一分词和所述特征标记对应的第二特征向量;
可选地,所述装置还包括:
模型训练模块,用于根据所述第二词向量和所述第二特征向量进行模型训练,得到所述文本生成模型。
可选地,所述模型输入模块605,包括:
组合概率确定子模块,用于将所述第一词向量和所述第一特征向量输入所述文本生成模型中,确定两种以上目标语义结构的词向量组合,以及每一种词向量组合的概率;
组合概率排序子模块,用于将所述词向量组合根据所述概率排序;
目标词向量确定子模块,用于根据所述排序确定所述文本生成模型输出的所述目标词向量。
可选地,所述装置还包括
特征确定模块,用于确定所述第一文本语料对应的至少一个预设特征,所述预设特征根据特征标注、无监督聚类、半监督聚类中的至少一种方法确定得到。
可选地,所述第一向量模块603,具体用于对所述第一文本语料中的每个第一分词构建对应的数组,获得第一词向量。
可选地,所述第二向量模块604,具体用于将所述第二文本语料中的每个第一分词置为初始值,并获取所述第二文本语料中的每个特征标记对应的特征向量,获得第一特征向量。
综上所述,本发明实施例中,在需要扩展目标语义结构的文本语料时,只需在任意的第一文本语料中确定第一分词,并在第一分词与预设特征匹配的情况下,将第一分词替换为预设特征对应的特征标记获得第二文本语料,再获取第一文本语料中的第一分词对应的第一词向量,第二文本语料中第一分词和特征标记对应的第一特征向量,此时,可以将第一词向量以及第一特征向量输入文本生成模型中,并获取输出的目标语义结构的目标词向量,再根据目标词向量获得目标文本语料。由于获得的目标文本语料与目标语义结构的目标词向量对应,而目标语义结构为需求的文本语料的语义结构,因此,目标文本语料中包括了需求的、完整的语义结构,符合文本识别模型的训练需求;另外,第一文本语料不限制获取方式、范围等,避免了同义词替换中扩展的目标文本语料间相似度高,文本扩展效果差的问题,从而保证了根据目标文本语料训练得到的文本识别模型的训练效率和识别准确性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种文本生成方法,其特征在于,所述方法包括:
获取第一文本语料中的第一分词;
在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;
获取所述第一文本语料中所述第一分词对应的第一词向量;
获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到;
根据所述目标词向量获得目标文本语料。
2.根据权利要求1所述的方法,其特征在于,所述文本生成模型通过如下步骤训练得到,包括:
获取第三文本语料中的第二分词,所述第三文本语料包括至少一种目标语义结构的文本语料;
在所述第二分词与所述预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的所述特征标记,获得第四文本语料;
获取所述第三文本语料中所述第二分词对应的第二词向量;
获取所述第四文本语料中所述第一分词和所述特征标记对应的第二特征向量;
根据所述第二词向量和所述第二特征向量进行模型训练,得到所述文本生成模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,包括:
将所述第一词向量和所述第一特征向量输入所述文本生成模型中,确定两种以上目标语义结构的词向量组合,以及每一种词向量组合的概率;
将所述词向量组合根据所述概率排序;
根据所述排序确定所述文本生成模型输出的所述目标词向量。
4.根据权利要求1所述的方法,其特征在于,所述在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料之前,还包括
确定所述第一文本语料对应的至少一个预设特征,所述预设特征根据特征标注、无监督聚类、半监督聚类中的至少一种方法确定得到。
5.根据权利要求1所述的方法,其特征在于,所述获取所述第一文本语料中所述第一分词对应的第一词向量,包括:
对所述第一文本语料中的每个第一分词构建对应的数组,获得第一词向量。
6.根据权利要求1所述的方法,其特征在于,所述获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量,包括:
将所述第二文本语料中的每个第一分词置为初始值,并获取所述第二文本语料中的每个特征标记对应的特征向量,获得第一特征向量。
7.一种文本生成装置,其特征在于,所述装置包括:
分词模块,用于获取第一文本语料中的第一分词;
标记模块,用于在所述第一分词与预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的特征标记,获得第二文本语料;
第一向量模块,用于获取所述第一文本语料中所述第一分词对应的第一词向量;
第二向量模块,用于获取所述第二文本语料中所述第一分词和所述特征标记对应的第一特征向量;
模型输入模块,用于将所述第一词向量和所述第一特征向量输入文本生成模型中,获得输出的目标词向量,所述目标词向量是由所述文本生成模型根据目标语义结构以及所述第一次特征向量对所述第一词向量进行组合得到;
文本获取模块,用于根据所述目标词向量获得目标文本语料。
8.根据权利要求7所述的装置,其特征在于,
所述分词模块,还用于获取第三文本语料中的第二分词,所述第三文本语料包括至少一种目标语义结构的文本语料;
所述标记模块,还用于在所述第二分词与所述预设特征匹配的情况下,将所述第一分词替换为所述预设特征对应的所述特征标记,获得第四文本语料;
所述第一向量模块,还用于获取所述第三文本语料中所述第二分词对应的第二词向量;
所述第二向量模块,还用于获取所述第四文本语料中所述第一分词和所述特征标记对应的第二特征向量;
所述装置还包括:
模型训练模块,用于根据所述第二词向量和所述第二特征向量进行模型训练,得到所述文本生成模型。
9.根据权利要求7所述的装置,其特征在于,所述模型输入模块,包括:
组合概率确定子模块,用于将所述第一词向量和所述第一特征向量输入所述文本生成模型中,确定两种以上目标语义结构的词向量组合,以及每一种词向量组合的概率;
组合概率排序子模块,用于将所述词向量组合根据所述概率排序;
目标词向量确定子模块,用于根据所述排序确定所述文本生成模型输出的所述目标词向量。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括
特征确定模块,用于确定所述第一文本语料对应的至少一个预设特征,所述预设特征根据特征标注、无监督聚类、半监督聚类中的至少一种方法确定得到。
CN202010381139.0A 2020-05-07 2020-05-07 一种文本生成方法和装置 Active CN111563375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010381139.0A CN111563375B (zh) 2020-05-07 2020-05-07 一种文本生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010381139.0A CN111563375B (zh) 2020-05-07 2020-05-07 一种文本生成方法和装置

Publications (2)

Publication Number Publication Date
CN111563375A true CN111563375A (zh) 2020-08-21
CN111563375B CN111563375B (zh) 2021-04-09

Family

ID=72073258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010381139.0A Active CN111563375B (zh) 2020-05-07 2020-05-07 一种文本生成方法和装置

Country Status (1)

Country Link
CN (1) CN111563375B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984789A (zh) * 2020-08-26 2020-11-24 普信恒业科技发展(北京)有限公司 一种语料分类方法、装置及服务器
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN113111639A (zh) * 2021-04-16 2021-07-13 南京奥拓电子科技有限公司 一种通顺模型训练方法及辅助语音识别方法
CN113627154A (zh) * 2021-08-05 2021-11-09 成都中世顺朗科技有限公司 用于文档自动识别入库的方法
CN114417794A (zh) * 2022-03-29 2022-04-29 北京大学 量表问题生成模型的训练方法、装置和计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013036181A1 (en) * 2011-09-08 2013-03-14 Telefonaktiebolaget L M Ericsson (Publ) Assigning tags to media files
CN107239481A (zh) * 2017-04-12 2017-10-10 北京大学 一种面向多源网络百科的知识库构建方法
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110442859A (zh) * 2019-06-28 2019-11-12 中国人民解放军国防科技大学 标注语料生成方法、装置、设备及存储介质
CN110472049A (zh) * 2019-07-19 2019-11-19 上海联影智能医疗科技有限公司 疾病筛查文本分类方法、计算机设备和可读存储介质
CN110532547A (zh) * 2019-07-31 2019-12-03 厦门快商通科技股份有限公司 语料库构建方法、装置、电子设备及介质
CN110852109A (zh) * 2019-11-11 2020-02-28 腾讯科技(深圳)有限公司 语料生成方法、语料生成装置、和存储介质
US20200089769A1 (en) * 2018-01-04 2020-03-19 Facebook, Inc. Consumer Insights Analysis Using Word Embeddings

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013036181A1 (en) * 2011-09-08 2013-03-14 Telefonaktiebolaget L M Ericsson (Publ) Assigning tags to media files
CN107239481A (zh) * 2017-04-12 2017-10-10 北京大学 一种面向多源网络百科的知识库构建方法
US20200089769A1 (en) * 2018-01-04 2020-03-19 Facebook, Inc. Consumer Insights Analysis Using Word Embeddings
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN110442859A (zh) * 2019-06-28 2019-11-12 中国人民解放军国防科技大学 标注语料生成方法、装置、设备及存储介质
CN110378409A (zh) * 2019-07-15 2019-10-25 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110472049A (zh) * 2019-07-19 2019-11-19 上海联影智能医疗科技有限公司 疾病筛查文本分类方法、计算机设备和可读存储介质
CN110532547A (zh) * 2019-07-31 2019-12-03 厦门快商通科技股份有限公司 语料库构建方法、装置、电子设备及介质
CN110852109A (zh) * 2019-11-11 2020-02-28 腾讯科技(深圳)有限公司 语料生成方法、语料生成装置、和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANYONG TUO 等: "Aspect Extraction and Aspect Terms Expansion in Chinese Reviews Using Cluster", 《2017 4TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING》 *
司玉景 等: "面向口语统计语言模型建模的自动语料生成算法", 《自动化学报》 *
梁宏 等: "基于N元文法的领域语法语料扩展算法", 《声学技术》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984789A (zh) * 2020-08-26 2020-11-24 普信恒业科技发展(北京)有限公司 一种语料分类方法、装置及服务器
CN111984789B (zh) * 2020-08-26 2024-01-30 普信恒业科技发展(北京)有限公司 一种语料分类方法、装置及服务器
CN112395385A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN112395385B (zh) * 2020-11-17 2023-07-25 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质
CN113111639A (zh) * 2021-04-16 2021-07-13 南京奥拓电子科技有限公司 一种通顺模型训练方法及辅助语音识别方法
CN113627154A (zh) * 2021-08-05 2021-11-09 成都中世顺朗科技有限公司 用于文档自动识别入库的方法
CN113627154B (zh) * 2021-08-05 2022-04-12 成都中世顺朗科技有限公司 用于文档自动识别入库的方法
CN114417794A (zh) * 2022-03-29 2022-04-29 北京大学 量表问题生成模型的训练方法、装置和计算机设备
CN114417794B (zh) * 2022-03-29 2022-09-09 北京大学 量表问题生成模型的训练方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111563375B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN111563375B (zh) 一种文本生成方法和装置
CN107967257B (zh) 一种级联式作文生成方法
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
Luo et al. Text steganography with high embedding rate: Using recurrent neural networks to generate chinese classic poetry
CN108124477B (zh) 基于伪数据改进分词器以处理自然语言
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN110413768B (zh) 一种文章题目自动生成方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN112711948A (zh) 一种中文句子的命名实体识别方法及装置
CN109977220B (zh) 一种基于关键句和关键字的反向生成摘要的方法
CN114169312A (zh) 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN113723106B (zh) 基于标签扩展的零样本文本分类方法
KR20190065665A (ko) 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN112966117A (zh) 实体链接方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN115510863A (zh) 一种面向问句匹配任务的数据增强方法
CN114428850A (zh) 一种文本检索匹配方法和系统
Tapsai et al. Thai Natural Language Processing: Word Segmentation, Semantic Analysis, and Application
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant