CN115470781B - 语料生成方法、装置和电子设备 - Google Patents

语料生成方法、装置和电子设备 Download PDF

Info

Publication number
CN115470781B
CN115470781B CN202211353326.3A CN202211353326A CN115470781B CN 115470781 B CN115470781 B CN 115470781B CN 202211353326 A CN202211353326 A CN 202211353326A CN 115470781 B CN115470781 B CN 115470781B
Authority
CN
China
Prior art keywords
corpus
vocabulary
sentence
loss
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211353326.3A
Other languages
English (en)
Other versions
CN115470781A (zh
Inventor
顾鹏程
李磊
贾路
徐元春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongmian Xiaoice Technology Co Ltd
Original Assignee
Beijing Hongmian Xiaoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongmian Xiaoice Technology Co Ltd filed Critical Beijing Hongmian Xiaoice Technology Co Ltd
Priority to CN202211353326.3A priority Critical patent/CN115470781B/zh
Publication of CN115470781A publication Critical patent/CN115470781A/zh
Application granted granted Critical
Publication of CN115470781B publication Critical patent/CN115470781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语料生成方法、装置和电子设备,获取语料例句,将语料例句输入预先训练好的词汇替换模型,通过词汇替换模型根据语料例句确定关键词汇,减少了对于整个句子进行理解和预测的计算开销,提升了生成语料的效率。逐字预测关键词汇替换为预设词表中的替换词汇的概率,将关键词汇替换为概率大于预设值的替换词汇,得到第一目标语料,通过逐字预测使得生成的语料与语料例句的含义更为贴近,更加符合情景,实现快速、高效地生成语料。

Description

语料生成方法、装置和电子设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语料生成方法、装置和电子设备。
背景技术
当前自然语言理解系统存在一些局限性,技术人员需要构建大量的训练语料并对其进行人工标注。现有的语料通常有以下来源:确定一个意图对应的语料例句,技术人员根据语料例句进行人工编写实现扩充;技术人员从已有的日志信息中心人工筛选与语料例句相似的句子实现扩充。无论采用上述哪种方式,生成语料都需要耗费大量的人力、时间成本。
因此,提出一种语料生成方法以实现快速、高效地生成语料是当前亟待解决的技术问题。
发明内容
本发明提供一种语料生成方法、装置和电子设备,用以解决现有技术中生成语料需要耗费大量的人力、时间成本的缺陷,实现快速、高效地生成语料。
本发明提供一种语料生成方法,包括:
获取语料例句;
将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料。
根据本发明提供的一种语料生成方法,所述根据所述语料例句确定所述关键词汇,包括:
遍历所述语料例句中的每个词汇,在所述词汇存在于预设的白名单的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇存在于预设的同义词词典的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇在所述语料例句中出现频率为最高且不为停用词词汇的情况下,将所述词汇确定为所述关键词汇。
根据本发明提供的一种语料生成方法,所述白名单中包括属于同一类别的多个词汇;
所述遍历所述语料例句中的每个词汇,在所述词汇存在于预设的白名单的情况下,将所述词汇确定为所述关键词汇之后,还包括:
将所述关键词汇替换为所述白名单中属于同一类别的其他词汇,得到第一目标语料。
根据本发明提供的一种语料生成方法,所述遍历所述语料例句中的每个词汇,在所述词汇存在于预设的同义词词典的情况下,将所述词汇确定为所述关键词汇之后,还包括:
将所述关键词汇替换为所述同义词词典中同义的词汇,得到第一目标语料。
根据本发明提供的一种语料生成方法,所述方法还包括:
将所述语料例句输入训练好的句式改写模型,输出第二目标语料;
其中,所述句式改写模型根据至少一个相似句语料对训练得到,所述相似句语料对包括两个相似句语料。
根据本发明提供的一种语料生成方法,所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务;
所述句式改写模型是通过如下步骤训练得到:
获取相似句语料对,所述相似句语料对包括两个相似句语料;
根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数;
在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料对计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数;
在所述第三损失满足预设条件的情况下完成训练,得到所述训练好的句式改写模型。
根据本发明提供的一种语料生成方法,所述根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数,包括:
根据所述相似句语料确定关键词汇及所在关键词汇位置;
通过所述单向语言任务根据所述相似句语料中关键词汇位置之前或之后的词汇对关键词汇位置进行词汇预测,得到第一预测词汇,根据所述第一预测词汇和所述关键词汇确定第一损失;
通过所述双向语言任务根据所述相似句语料中关键词汇位置之前以及之后的词汇对所述关键词汇位置进行词汇预测,得到第二预测词汇,根据所述第二预测词汇和所述关键词汇确定第二损失;
根据所述第一损失和所述第二损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对。
根据本发明提供的一种语料生成方法,所述在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数,包括:
在所述第一损失和所述第二损失均满足预设条件的情况下,通过所述序列变换任务根据所述相似句语料对中的第一相似句语料生成改写句语料,根据所述改写句语料和所述相似句语料对中的第二相似句语料确定第三损失;
根据所述第三损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对。
根据本发明提供的一种语料生成方法,所述相似句语料对为多个,所述方法还包括:
将所述语料例句和目标语料输入训练好的相似度模型,输出相似度得分;
将所述目标语料按照对应的相似度得分进行排列;
其中,所述目标语料包括第一目标语料和所述第二目标语料,所述训练好的相似度模型根据多个相似句语料对训练得到。
根据本发明提供的一种语料生成方法,所述训练好的相似度模型是通过如下步骤训练得到:
设置相似句语料对和非相似句语料对的真实标签,所述非相似句语料对包括在两个不同的相似句语料对中各取的一个相似句语料;
将训练语料对输入相似度模型的识别任务,输出预测标签,所述训练语料对属于所述相似句语料对或非相似句语料对;
根据所述训练语料对的预测标签和对应的真实标签计算第四损失,根据所述第四损失调整所述相似度模型的参数,并返回重新执行所述将训练语料对输入相似度模型的识别任务,输出预测标签;
在所述第四损失满足预设条件的情况下完成训练,得到训练好的相似度模型。
本发明还提供一种语料生成装置,包括:
获取单元,用于获取语料例句;
第一生成单元,用于将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语料生成方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语料生成方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语料生成方法的步骤。
本发明提供的语料生成方法、装置和电子设备,将语料例句输入预先训练好的词汇替换模型,通过词汇替换模型根据语料例句确定关键词汇,减少了对于整个句子进行理解和预测的计算开销,提升了生成语料的效率。逐字预测关键词汇替换为预设词表中的替换词汇的概率,将关键词汇替换为概率大于预设值的替换词汇,得到第一目标语料,通过逐字预测使得生成的语料与语料例句的含义更为贴近,更加符合情景,实现快速、高效地生成语料。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语料生成方法的流程示意图;
图2是本发明提供的语料生成装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种语料生成方法,如图1所示,包括:
S11、获取语料例句。
S12、将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料。
具体地,获取语料例句,语料例句可以为各个领域和情景的语料,包括但不限于银行、地产、医疗、出行、饮食、穿搭等各种领域和情景。预设词表可以根据实际需要进行设定。
一个示例中,语料例句为“订张去北京的车票”。将该语料例句输入预先训练好的词汇替换模型。词汇替换模型根据语料例句确定关键词汇,此时将“北京”确定为关键词汇。词汇替换模型对于“北京”这个关键词汇逐字预测。
首先预测“北”在预设词表中的替换词汇的概率大于预设值的替换词汇可以有多个,多个替换词汇的第一个字分别为“上”、“南”、“苏”,替换后为“订张去上[mask]的车票”、“订张去南[mask]的车票”、“订张去苏[mask]的车票”。其中,[mask]表示原本“京”字所在的位置,此时还未对其进行替换。
然后预测“京”在预设词表中的替换词汇的概率大于预设值的替换词汇的第二个字,在第一个字为“上”的情况下预测满足条件的替换词汇第二个字为“海”,在第一个字为“南”的情况下预测满足条件的替换词汇第二字为“京”或“昌”,在第一个字为“苏”的情况下预测满足条件的替换词汇第二个字为“州”。
进行替换后,得到4个第一目标语料,分别为“订张去上海的车票”、“订张去南京的车票”、“订张去南昌的车票”、“订张去苏州的车票”。
本发明实施例中,将语料例句输入预先训练好的词汇替换模型,通过词汇替换模型根据语料例句确定关键词汇,减少了对于整个句子进行理解和预测的计算开销,提升了生成语料的效率。逐字预测关键词汇替换为预设词表中的替换词汇的概率,将关键词汇替换为概率大于预设值的替换词汇,得到第一目标语料,通过逐字预测使得生成的语料与语料例句的含义更为贴近,更加符合情景,实现快速、高效地生成语料。
根据本发明提供的语料生成方法,所述根据所述语料例句确定所述关键词汇,包括:
遍历所述语料例句中的每个词汇,在所述词汇存在于预设的白名单的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇存在于预设的同义词词典的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇在所述语料例句中出现频率为最高且不为停用词词汇的情况下,将所述词汇确定为所述关键词汇。
具体地,可以对语料例句进行分词,遍历其中的每个词汇。可以在当前词汇存在于预设的白名单的情况下,将当前词汇确定为关键词汇。一个示例中,预先设定了一个的白名单,其中包括“银行卡”、“借记卡”、“信用卡”。语料例句为“帮我办一张银行卡”,进行分词后“帮/我/办/一张/银行卡”中的“银行卡”存在于白名单中,此时将语料例句中的“银行卡”确定为关键词汇。
还可以在当前词汇存在于预设的同义词词典的情况下,将当前词汇确定为关键词汇。一个示例中,预先设定了一个同义词词典,其中包括同一含义的多个词汇,例如对于“订”这一含义,包括多个词汇“订”、“订购”、“预订”、“预约”、“购买”。语料例句为“订张去北京的车票”,进行分词后“订/张/去/北京/的/车票”中的“订”存在于同义词词典中,此时将语料例句中的“订”确定为关键词汇。
还可以将语料例句中出现频率最高的非停用词词汇确定为关键词汇,例如语料例句为“我去东边的新开的饭馆吃了吃那里的特色菜” 进行分词后“我/去/东边/的/新/开/的/饭馆/吃/了/吃/那里/的/特色菜”中,其中频率由高到低的词汇为“的”和“吃”,然而“的”为停用词词汇,“吃”为非停用词词汇,此时将语料例句中的“吃”确定为关键词汇。
本发明实施例中,遍历语料例句中的每个词汇,在词汇存在于预设的白名单的情况下,或者,在词汇存在于预设的同义词词典的情况下,或者,在词汇在语料例句中出现频率为最高且不为停用词词汇的情况下,将词汇确定为关键词汇,实现了多种渠道确定关键词汇,能够快速、准确地确定符合条件的更具有重要意义的关键词汇。
根据本发明提供的语料生成方法,所述白名单中包括属于同一类别的多个词汇;
所述遍历所述语料例句中的每个词汇,在所述词汇存在于预设的白名单的情况下,将所述词汇确定为所述关键词汇之后,还包括:
将所述关键词汇替换为所述白名单中属于同一类别的其他词汇,得到第一目标语料。
具体地,接上例,预先设定了一个的白名单,白名单包括类别为“卡片”的“银行卡”、“借记卡”、“信用卡”等词汇。语料例句为“帮我办一张银行卡”中的“银行卡”为关键词汇,可以将语料例句中的“银行卡”替换为“借记卡”和“信用卡”,得到多个第一目标语料。
本发明实施例中,白名单中包括属于同一类别的多个词汇,在词汇存在于预设的白名单的情况下,将词汇确定为关键词汇之后,将关键词汇替换为白名单中属于同一类别的其他词汇,得到第一目标语料,实现了在同一类别的词汇替换,得到的第一目标语料可以表示更丰富的场景。
根据本发明提供的语料生成方法,所述遍历所述语料例句中的每个词汇,在所述词汇存在于预设的同义词词典的情况下,将所述词汇确定为所述关键词汇之后,还包括:
将所述关键词汇替换为所述同义词词典中同义的词汇,得到第一目标语料。
具体地,接上例,预先设定了一个同义词词典,其中包括“订”这一含义的多个词汇“订”、“订购”、“预订”、“预约”、“购买”。语料例句为“订张去北京的车票”中的“订”为关键词汇,可以将语料例句中的“订”替换为“订购”、“预订”、“预约”、“购买”,得到多个第一目标语料。
本发明实施例中,在词汇存在于预设的同义词词典的情况下,将词汇确定为关键词汇之后,将关键词汇替换为同义词词典中同义的词汇,得到第一目标语料,实现不同用词习惯下具有的相同语义的语料。
根据本发明提供的语料生成方法,步骤S12之后还包括:
S13、将所述语料例句输入训练好的句式改写模型,输出第二目标语料。
其中,所述句式改写模型根据至少一个相似句语料对训练得到,所述相似句语料对包括两个相似句语料。
一个示例中,将语料例句“订张去北京的车票”输入训练好的句式改写模型,得到“我想订一张到北京的火车票”、“帮我预定去北京的票”等第二目标语料。
本发明实施例中,将语料例句输入训练好的句式改写模型,句式改写模型根据相似句语料对包括的两个相似句语料进行训练,使得通过句式改写模型可以准确地对语料例句进行句式改写,得到的第二目标语料具有多样的句式且与语料例句含义相似。
根据本发明提供的语料生成方法,根据本发明提供的语料生成方法,所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务;
所述句式改写模型是通过如下步骤训练得到:
S21、获取相似句语料对,所述相似句语料对包括两个相似句语料。
S22、根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数。
S23、在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料对计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数。
S24、在所述第三损失满足预设条件的情况下完成训练,得到所述训练好的句式改写模型。
具体地,句式改写模型包括三个任务,对应于两个方面的能力。
可选的,句式改写模型可以为UNILM模型,其为多层Transformer网络结构,是在Bert的基础上产出的预训练语言模型,基于mask词的语境来完成对mask词的预测。UNILM结合了自回归和自编码两种语言模型的特点,可以完成单向语言任务、双向语言任务、序列变换任务三种预训练预测任务,在自然语言理解和自然语言生成任务上都有很好的表现。
单向语言任务和双向语言任务用于表示句式改写模型对于输入的语料的理解能力。单向语言任务为依据语料中待预测内容前面或后面出现的内容来预测待预测内容,双向语言任务为依据语料中待预测内容前面和后面出现的内容来预测待预测内容。
序列变换任务用于表示句式改写模型对于输入的语料的句式改写能力。序列变换任务为依据输入的语料,预测输出具有相同含义且不同句式的语料。
以s1,s2,s3,s4,s5这个序列举例说明上述三种任务,如需要预测s1,s2,s3,[MASK],s5中的掩码,单向语言任务由s1,s2,s3的信息来预测[MASK],s5的信息不可见,或者单向语言任务由s的信息来预测[MASK],s1,s2,s3的信息不可见;双向语言任务由s1,s2,s3,s5来预测[MASK];如果s6,s7,s8表示与s1,s2,s3,s4,s5语义相似的语料,则序列变换任务则是由s1,s2,s3,s4,s5来预测s6,s7,s8。
本发明实施例中,根据相似句语料分别确定单向语言任务的第一损失和双向语言任务的第二损失,根据第一损失和第二损失调整句式改写模型的参数,实现句式改写模型对输入语料的理解能力的训练。在第一损失和第二损失均满足预设条件的情况下,根据相似句语料对计算序列变换任务的第三损失,根据第三损失调整句式改写模型的参数,实现在句式改写模型的理解能力达到指定水平的情况下训练句式改写模型的句式改写能力,使得句式改写模型充分理解输入预料后对其进行改写,实现生成的第二目标语料更加贴合语料例句的含义且具有不同句式。
根据本发明提供的语料生成方法,步骤S22包括:
S221、根据所述相似句语料确定关键词汇及所在关键词汇位置。
S222、通过所述单向语言任务根据所述相似句语料中关键词汇位置之前或之后的词汇对关键词汇位置进行词汇预测,得到第一预测词汇,根据所述第一预测词汇和所述关键词汇确定第一损失。
S223、通过所述双向语言任务根据所述相似句语料中关键词汇位置之前以及之后的词汇对所述关键词汇位置进行词汇预测,得到第二预测词汇,根据所述第二预测词汇和所述关键词汇确定第二损失。
S224、根据所述第一损失和所述第二损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对。
具体地,根据所述相似句语料确定关键词汇及所在关键词汇位置,其中,确定关键词汇的方式可以包括前文所述的:
遍历所述语料例句中的每个词汇,在所述词汇存在于预设的白名单的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇存在于预设的同义词词典的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇在所述语料例句中出现频率为最高且不为停用词词汇的情况下,将所述词汇确定为所述关键词汇。
一个示例中,相似句语料为“订一张去北京的机票”,其中关键词汇为“北京”。通过单向语言任务根据相似句语料中“北京”之前或之后的词汇对“北京”这个关键词汇所在相似句语料中的位置进行词汇预测,得到第一预测词汇,根据第一预测词汇和“北京”这个关键词汇确定第一损失。通过双向语言任务根据相似句语料中“北京”之前和之后的词汇对“北京”这个关键词汇所在相似句语料中的位置进行词汇预测,得到第二预测词汇,根据第二预测词汇和“北京”这个关键词汇确定第二损失。根据第一损失和第二损失调整句式改写模型的参数,并返回获取相似句语料对,重复上述步骤。
本发明实施例中,确定相似句语料的关键词汇以及关键词汇位置,方便后续词汇预测减少计算开销。通过单向语言任务和双向语言任务根据关键词汇位置、相似句语料进行词汇预测,得到对应的第一预测词汇和第二预测词汇,根据关键词汇、第一预测词汇和第二预测词汇分别计算第一损失和第二损失,通过第一损失和第二损失表示句式改写模型对于输入语料的理解能力,根据第一损失和第二损失调整句式改写模型的参数,实现对句式改写模型理解能力的训练。
根据本发明提供的语料生成方法,步骤S23包括:
S231、在所述第一损失和所述第二损失均满足预设条件的情况下,通过所述序列变换任务根据所述相似句语料对中的第一相似句语料生成改写句语料,根据所述改写句语料和所述相似句语料对中的第二相似句语料确定第三损失。
S232、根据所述第三损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对。
具体地,在第一损失和第二损失均满足预设条件的情况下,句式改写模型对输入语料理解能力训练完成,进行句式改写能力的训练。
将相似句语料对中的一个相似句语料(即第一相似句语料)生成改写句语料。根据改写句语料和相似句语料对中另一个相似句语料(即第二相似句语料)确定第三损失,第三损失表示改写句语料和相似句语料对中另一个相似句语料的相似程度,也表示句式改写模型的句式改写能力。根据第三损失调整句式改写模型的参数,并返回获取相似句语料对,重复上述步骤。
本发明实施例中,在第一损失和第二损失均满足预设条件的情况下进行句式改写模型的句式改写能力的训练,根据第一相似句语料生成改写句语料,确定第二相似句语料和改写句语料的相似程度作为第三损失,用于表示句式改写模型的句式改写能力。根据第三损失调整句式改写模型的参数,实现对句式改写模型的句式改写能力的训练,使得句式改写模型能够根据输入语料生成含义相近的句式不同的第二目标语料。
根据本发明提供的语料生成方法,所述相似句语料对为多个,所述方法还包括:
S14、将所述语料例句和目标语料输入训练好的相似度模型,输出相似度得分。
S15、将所述目标语料按照对应的相似度得分进行排列。
其中,所述目标语料包括第一目标语料和所述第二目标语料,所述训练好的相似度模型根据多个相似句语料对训练得到。
具体地,通过多个相似句语料对训练相似度模型,使得相似度模型具有良好的识别能力以识别输入的语料对表达含义是否相似。将语料例句和目标语料输入相似度模型,可以得到目标语料相对于语料例句的相似度得分,通过相似度得分表示目标语料与语料例句表达含义的相似程度。
本发明实施例中,将语料例句和目标语料输入训练好的相似度模型,可以得到目标语料相对于语料例句的相似度得分,通过相似度得分表示目标语料与语料例句表达含义的相似程度。按照相似度得分将目标语料进行排序,方便查看与语料例句相似程度较高的目标语料。
根据本发明提供的语料生成方法,所述训练好的相似度模型是通过如下步骤训练得到:
S31、设置相似句语料对和非相似句语料对的真实标签,所述非相似句语料对包括在两个不同的相似句语料对中各取的一个相似句语料。
S32、将训练语料对输入相似度模型的识别任务,输出预测标签,所述训练语料对属于所述相似句语料对或非相似句语料对。
S33、根据所述训练语料对的预测标签和对应的真实标签计算第四损失,根据所述第四损失调整所述相似度模型的参数,并返回重新执行步骤S32。
S34、在所述第四损失满足预设条件的情况下完成训练,得到训练好的相似度模型。
具体地,在不同的两个相似句语料对中各自选取其中一个相似句语料,组成非相似句语料对。设置相似句语料对的真实标签为“1”即表示相似,非相似句语料对的真实标签为“0”即表示不相似。
一个示例中,在相似句语料对“番茄炒鸡蛋的家常做法,番茄炒鸡蛋怎么做”中选取一句相似句语料“番茄炒鸡蛋的家常做法”,在另外一个相似句语料对“怎么开通会员,会员需要如何开通”中选取一句相似句语料“怎么开通会员”,组成非相似句语料对“番茄炒鸡蛋的家常做法,怎么开通会员”。设置番茄炒鸡蛋的家常做法,番茄炒鸡蛋怎么做”的真实标签为“1”,设置“怎么开通会员,会员需要如何开通”的真实标签为“1”,设置“番茄炒鸡蛋的家常做法,怎么开通会员”的真实标签为“0”。
将训练语料对输入相似度模型的识别任务,输出预测标签,预测标签为一个概率,概率越接近1表示训练语料对中的语料越相似,越接近0表示越不相似。根据预测标签和真实标签计算第四损失,并根据第四损失调整相似度模型的参数,并重新执行上述步骤。在第四损失满足预设条件的情况下完成训练,得到训练好的相似度模型。
本发明实施例中,根据多个相似句语料对生成非相似句语料对,并设置其对应的真实标签,将相似句语料对或非相似句语料对的训练语料对输入相似度模型的识别任务,输出预测标签,通过预测标签表示相似度模型对输入的训练语料对相似程度的判断。根据真实标签和预测标签确定第四损失,并根据第四损失调整相似度模型的参数,并重复上述步骤,在第四损失满足预设条件的情况下完成训练,得到训练好的相似度模型,实现对相似度模型的迭代训练,使得相似度模型具有良好的识别判断能力以判断输入的语料对中的语料表达的含义是否相似并给出预测标签作为评分。
下面对本发明提供的语料生成装置进行描述,下文描述的语料生成装置与上文描述的语料生成方法可相互对应参照。
本发明还提供一种语料生成装置,如图2所示,包括:
获取单元21,用于获取语料例句;
第一生成单元22,用于将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料。
本发明实施例中,将语料例句输入预先训练好的词汇替换模型,通过词汇替换模型根据语料例句确定关键词汇,减少了对于整个句子进行理解和预测的计算开销,提升了生成语料的效率。逐字预测关键词汇替换为预设词表中的替换词汇的概率,将关键词汇替换为概率大于预设值的替换词汇,得到第一目标语料,通过逐字预测使得生成的语料与语料例句的含义更为贴近,更加符合情景,实现快速、高效地生成语料。
根据本发明提供的语料生成装置,第一生成单元22具体用于:
遍历所述语料例句中的每个词汇,在所述词汇存在于预设的白名单的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇存在于预设的同义词词典的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇在所述语料例句中出现频率为最高且不为停用词词汇的情况下,将所述词汇确定为所述关键词汇。
根据本发明提供的语料生成装置,所述白名单中包括属于同一类别的多个词汇;第一生成单元22还用于将所述关键词汇替换为所述白名单中属于同一类别的其他词汇,得到第一目标语料。
根据本发明提供的语料生成装置,第一生成单元22还用于将所述关键词汇替换为所述同义词词典中同义的词汇,得到第一目标语料。
根据本发明提供的语料生成装置,还包括第二生成单元23,用于将所述语料例句输入训练好的句式改写模型,输出第二目标语料;
其中,所述句式改写模型根据至少一个相似句语料对训练得到,所述相似句语料对包括两个相似句语料。
根据本发明提供的语料生成装置,所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务;
所述句式改写模型是通过如下步骤训练得到:
获取相似句语料对,所述相似句语料对包括两个相似句语料;
根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数;
在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料对计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数;
在所述第三损失满足预设条件的情况下完成训练,得到所述训练好的句式改写模型。
根据本发明提供的语料生成装置,所述根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数,包括:
根据所述相似句语料确定关键词汇及所在关键词汇位置;
通过所述单向语言任务根据所述相似句语料中关键词汇位置之前或之后的词汇对关键词汇位置进行词汇预测,得到第一预测词汇,根据所述第一预测词汇和所述关键词汇确定第一损失;
通过所述双向语言任务根据所述相似句语料中关键词汇位置之前以及之后的词汇对所述关键词汇位置进行词汇预测,得到第二预测词汇,根据所述第二预测词汇和所述关键词汇确定第二损失;
根据所述第一损失和所述第二损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对。
根据本发明提供的语料生成装置,所述在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数,包括:
在所述第一损失和所述第二损失均满足预设条件的情况下,通过所述序列变换任务根据所述相似句语料对中的第一相似句语料生成改写句语料,根据所述改写句语料和所述相似句语料对中的第二相似句语料确定第三损失;
根据所述第三损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对。
根据本发明提供的语料生成装置,所述相似句语料对为多个;所述装置还包括相似度评分单元24,用于将所述语料例句和目标语料输入训练好的相似度模型,输出相似度得分;将所述目标语料按照对应的相似度得分进行排列;其中,所述目标语料包括第一目标语料和所述第二目标语料,所述训练好的相似度模型根据多个相似句语料对训练得到。
根据本发明提供的语料生成装置,所述训练好的相似度模型是通过如下步骤训练得到:
设置相似句语料对和非相似句语料对的真实标签,所述非相似句语料对包括在两个不同的相似句语料对中各取的一个相似句语料;
将训练语料对输入相似度模型的识别任务,输出预测标签,所述训练语料对属于所述相似句语料对或非相似句语料对;
根据所述训练语料对的预测标签和对应的真实标签计算第四损失,根据所述第四损失调整所述相似度模型的参数,并返回重新执行所述将训练语料对输入相似度模型的识别任务,输出预测标签;
在所述第四损失满足预设条件的情况下完成训练,得到训练好的相似度模型。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行语料生成方法,该方法包括:获取语料例句;将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语料生成方法,该方法包括:获取语料例句;将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语料生成方法,该方法包括:获取语料例句;将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种语料生成方法,其特征在于,包括:
获取语料例句;
将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料;
所述方法还包括:
将所述语料例句输入训练好的句式改写模型,输出第二目标语料;其中,所述句式改写模型根据至少一个相似句语料对训练得到,所述相似句语料对包括两个相似句语料;
所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务;所述句式改写模型是通过如下步骤训练得到:
获取相似句语料对,所述相似句语料对包括两个相似句语料;根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数;在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料对计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数;在所述第三损失满足预设条件的情况下完成训练,得到所述训练好的句式改写模型;
所述根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数,包括:
根据所述相似句语料确定关键词汇及所在关键词汇位置;通过所述单向语言任务根据所述相似句语料中关键词汇位置之前或之后的词汇对关键词汇位置进行词汇预测,得到第一预测词汇,根据所述第一预测词汇和所述关键词汇确定第一损失;通过所述双向语言任务根据所述相似句语料中关键词汇位置之前以及之后的词汇对所述关键词汇位置进行词汇预测,得到第二预测词汇,根据所述第二预测词汇和所述关键词汇确定第二损失;根据所述第一损失和所述第二损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对;
所述在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数,包括:
在所述第一损失和所述第二损失均满足预设条件的情况下,通过所述序列变换任务根据所述相似句语料对中的第一相似句语料生成改写句语料,根据所述改写句语料和所述相似句语料对中的第二相似句语料确定第三损失;根据所述第三损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对。
2.根据权利要求1所述的语料生成方法,其特征在于,所述根据所述语料例句确定所述关键词汇,包括:
遍历所述语料例句中的每个词汇,在所述词汇存在于预设的白名单的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇存在于预设的同义词词典的情况下,将所述词汇确定为所述关键词汇;
或者,遍历所述语料例句中的每个词汇,在所述词汇在所述语料例句中出现频率为最高且不为停用词词汇的情况下,将所述词汇确定为所述关键词汇。
3.根据权利要求2所述的语料生成方法,其特征在于,所述白名单中包括属于同一类别的多个词汇;
所述遍历所述语料例句中的每个词汇,在所述词汇存在于预设的白名单的情况下,将所述词汇确定为所述关键词汇之后,还包括:
将所述关键词汇替换为所述白名单中属于同一类别的其他词汇,得到第一目标语料。
4.根据权利要求2所述的语料生成方法,其特征在于,所述遍历所述语料例句中的每个词汇,在所述词汇存在于预设的同义词词典的情况下,将所述词汇确定为所述关键词汇之后,还包括:
将所述关键词汇替换为所述同义词词典中同义的词汇,得到第一目标语料。
5.根据权利要求1所述的语料生成方法,其特征在于,所述相似句语料对为多个,所述方法还包括:
将所述语料例句和目标语料输入训练好的相似度模型,输出相似度得分;
将所述目标语料按照对应的相似度得分进行排列;
其中,所述目标语料包括第一目标语料和所述第二目标语料,所述训练好的相似度模型根据多个相似句语料对训练得到。
6.根据权利要求5所述的语料生成方法,其特征在于,所述训练好的相似度模型是通过如下步骤训练得到:
设置相似句语料对和非相似句语料对的真实标签,所述非相似句语料对包括在两个不同的相似句语料对中各取的一个相似句语料;
将训练语料对输入相似度模型的识别任务,输出预测标签,所述训练语料对属于所述相似句语料对或非相似句语料对;
根据所述训练语料对的预测标签和对应的真实标签计算第四损失,根据所述第四损失调整所述相似度模型的参数,并返回重新执行所述将训练语料对输入相似度模型的识别任务,输出预测标签;
在所述第四损失满足预设条件的情况下完成训练,得到训练好的相似度模型。
7.一种语料生成装置,其特征在于,包括:
获取单元,用于获取语料例句;
第一生成单元,用于将所述语料例句输入预先训练好的词汇替换模型,根据所述语料例句确定关键词汇,逐字预测所述关键词汇替换为预设词表中的替换词汇的概率,将所述关键词汇替换为所述概率大于预设值的替换词汇,得到第一目标语料;
所述装置还包括第二生成单元,用于将所述语料例句输入训练好的句式改写模型,输出第二目标语料;其中,所述句式改写模型根据至少一个相似句语料对训练得到,所述相似句语料对包括两个相似句语料;
所述句式改写模型包括单向语言任务、双向语言任务和序列变换任务;所述句式改写模型是通过如下步骤训练得到:
获取相似句语料对,所述相似句语料对包括两个相似句语料;根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数;在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料对计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数;在所述第三损失满足预设条件的情况下完成训练,得到所述训练好的句式改写模型;
所述根据所述相似句语料分别计算所述单向语言任务的第一损失和所述双向语言任务的第二损失,根据所述第一损失和所述第二损失调整所述句式改写模型的参数,包括:
根据所述相似句语料确定关键词汇及所在关键词汇位置;通过所述单向语言任务根据所述相似句语料中关键词汇位置之前或之后的词汇对关键词汇位置进行词汇预测,得到第一预测词汇,根据所述第一预测词汇和所述关键词汇确定第一损失;通过所述双向语言任务根据所述相似句语料中关键词汇位置之前以及之后的词汇对所述关键词汇位置进行词汇预测,得到第二预测词汇,根据所述第二预测词汇和所述关键词汇确定第二损失;根据所述第一损失和所述第二损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对;
所述在所述第一损失和所述第二损失均满足预设条件的情况下,根据所述相似句语料计算所述序列变换任务的第三损失,根据所述第三损失调整所述句式改写模型的参数,包括:
在所述第一损失和所述第二损失均满足预设条件的情况下,通过所述序列变换任务根据所述相似句语料对中的第一相似句语料生成改写句语料,根据所述改写句语料和所述相似句语料对中的第二相似句语料确定第三损失;根据所述第三损失调整所述句式改写模型的参数,并返回重新执行所述获取相似句语料对。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述语料生成方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语料生成方法的步骤。
CN202211353326.3A 2022-11-01 2022-11-01 语料生成方法、装置和电子设备 Active CN115470781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211353326.3A CN115470781B (zh) 2022-11-01 2022-11-01 语料生成方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211353326.3A CN115470781B (zh) 2022-11-01 2022-11-01 语料生成方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN115470781A CN115470781A (zh) 2022-12-13
CN115470781B true CN115470781B (zh) 2023-03-14

Family

ID=84336742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211353326.3A Active CN115470781B (zh) 2022-11-01 2022-11-01 语料生成方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN115470781B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1324314A1 (de) * 2001-12-12 2003-07-02 Siemens Aktiengesellschaft Spracherkennungssystem und Verfahren zum Betrieb eines solchen
CN111061847A (zh) * 2019-11-22 2020-04-24 中国南方电网有限责任公司 对话生成及语料扩充方法、装置、计算机设备和存储介质
CN111274764A (zh) * 2020-01-23 2020-06-12 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111488735A (zh) * 2020-04-09 2020-08-04 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN112668281A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 基于模板的语料自动化扩充方法、装置、设备及介质
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置
CN113569033A (zh) * 2021-08-04 2021-10-29 工银科技有限公司 政务问题生成方法及装置
CN114970733A (zh) * 2022-06-07 2022-08-30 Oppo广东移动通信有限公司 语料生成方法及装置、系统、存储介质和电子设备
CN115033753A (zh) * 2022-06-17 2022-09-09 北京金山数字娱乐科技有限公司 训练语料集构建方法、文本处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399499B (zh) * 2019-07-18 2022-02-18 珠海格力电器股份有限公司 一种语料生成方法、装置、电子设备及可读存储介质
CN112001190A (zh) * 2020-07-20 2020-11-27 北京百度网讯科技有限公司 自然语言处理模型的训练方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1324314A1 (de) * 2001-12-12 2003-07-02 Siemens Aktiengesellschaft Spracherkennungssystem und Verfahren zum Betrieb eines solchen
CN111061847A (zh) * 2019-11-22 2020-04-24 中国南方电网有限责任公司 对话生成及语料扩充方法、装置、计算机设备和存储介质
CN111274764A (zh) * 2020-01-23 2020-06-12 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111488735A (zh) * 2020-04-09 2020-08-04 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN112949674A (zh) * 2020-08-22 2021-06-11 上海昌投网络科技有限公司 一种多模型融合的语料生成方法及装置
CN112668281A (zh) * 2020-12-25 2021-04-16 平安科技(深圳)有限公司 基于模板的语料自动化扩充方法、装置、设备及介质
CN113569033A (zh) * 2021-08-04 2021-10-29 工银科技有限公司 政务问题生成方法及装置
CN114970733A (zh) * 2022-06-07 2022-08-30 Oppo广东移动通信有限公司 语料生成方法及装置、系统、存储介质和电子设备
CN115033753A (zh) * 2022-06-17 2022-09-09 北京金山数字娱乐科技有限公司 训练语料集构建方法、文本处理方法及装置

Also Published As

Publication number Publication date
CN115470781A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN110222152B (zh) 一种基于机器阅读理解的问题答案获取方法及系统
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
CN111368514B (zh) 模型训练及古诗生成方法、古诗生成装置、设备和介质
CN106897559A (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN112560479A (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN111460833A (zh) 文本生成方法、装置和设备
CN111859964A (zh) 一种语句中命名实体的识别方法及装置
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114722208B (zh) 一种健康医疗文本自动分类和安全等级自动分级方法
CN110825843A (zh) 适于金融领域的训练方法、问答方法、装置及存储介质
CN115858886B (zh) 数据处理方法、装置、设备及可读存储介质
CN113239666A (zh) 一种文本相似度计算方法及系统
CN111027292A (zh) 一种限定采样文本序列生成方法及其系统
US20220138425A1 (en) Acronym definition network
CN109657052A (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
CN113569018A (zh) 问答对挖掘方法及装置
CN115470781B (zh) 语料生成方法、装置和电子设备
CN116362331A (zh) 一种基于人机协同构建知识图谱的知识点填充方法
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
CN112527127B (zh) 输入法长句预测模型的训练方法、装置、电子设备及介质
CN115422324A (zh) 一种文本处理方法及设备
CN113961686A (zh) 问答模型的训练方法及装置、问答方法及装置
CN113887244A (zh) 文本处理方法及装置
CN111046181A (zh) 一种用于自动分类法归纳的行动者—评论家算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant