CN110399499B - 一种语料生成方法、装置、电子设备及可读存储介质 - Google Patents

一种语料生成方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110399499B
CN110399499B CN201910651346.0A CN201910651346A CN110399499B CN 110399499 B CN110399499 B CN 110399499B CN 201910651346 A CN201910651346 A CN 201910651346A CN 110399499 B CN110399499 B CN 110399499B
Authority
CN
China
Prior art keywords
vocabulary
corpus
classification set
sentence
vocabularies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910651346.0A
Other languages
English (en)
Other versions
CN110399499A (zh
Inventor
黄姿荣
贾巨涛
吴伟
秦子宁
赵鹏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai, Zhuhai Lianyun Technology Co Ltd filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201910651346.0A priority Critical patent/CN110399499B/zh
Publication of CN110399499A publication Critical patent/CN110399499A/zh
Application granted granted Critical
Publication of CN110399499B publication Critical patent/CN110399499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语料生成方法、装置、电子设备及可读存储介质,该方法包括:根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的;根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料。本发明中由于生成的第一语料由属于第一词汇分类集合中的第一词汇组合,并且由第一词汇根据所属第一词汇分类集合在句式结构中的第一位置组合,因此无需再对语料进行人工标注,节省了人工标注的成本,降低了出错率,从而提高了控制模型训练的准确性。

Description

一种语料生成方法、装置、电子设备及可读存储介质
技术领域
本发明涉及智能家居技术领域,尤其涉及一种语料生成方法、装置、电子设备及可读存储介质。
背景技术
随着智能家居技术的快速发展,基于语音控制家居的方法也变得越来越普遍,一般地,前期运用大量数据进行语义模型训练,以实现后期用户基于训练完成的语义模型对家居设备进行控制,从而极大地提高了语义系统识别的准确率。
在语义模型训练的过程中,需要使用到大量带有标注的语料,目前获取带有标注的语料主要是通过采集大量的网络数据文本,然后由标注人员人工对网络数据文本进行相应标注。
但是人工标注网络数据文本的成本比较高,易出错,因此无法保证控制模型训练的准确率,通过训练好的语义模型也就无法达到较佳的控制效果。
发明内容
本发明提供了一种语料生成方法、装置、电子设备及可读存储介质,用以解决现有技术中人工标注成本高易出错,导致控制模型训练准确率低的问题。
本发明提供了一种语料生成方法,该方法包括:
根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的;
根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料。
进一步地,所述句式结构包括主语谓语宾语结构、谓语宾语结构、谓语宾语宾补结构和动宾结构。
进一步地,第一词汇分类集合包括动作类词汇、家居设备类词汇、家居环境类词汇。
进一步地,所述生成符合所述句式结构的第一语料,还包括:
针对所述第一语料中的第一词汇,获取该第一词汇的同义词;采用所述同义词对所述第一语料中该第一词汇进行替换,生成第一语料。
进一步地,如果所述控制词汇库中还包括第二词汇分类集合,所述生成符合所述句式结构的第一语料后,所述方法还包括:
根据保存的所述第二词汇分类集合中的词汇在所述句式结构中的第二位置信息,将所述第二词汇分类集合中的第三词汇插入到所述第一语料中的对应位置,对第一语料进行更新。
进一步地,所述生成符合所述句式结构的第一语料后,所述方法还包括:
对所述第一语料进行数据处理,删除重复数据;和/或
针对所述第一语料,将其他语料与该第一语料进行文本相似度分析,如果存在与该第一语料的文本相似度超过设定相似度阈值的第二语料,将所述第二语料删除。
本发明提供了一种语料生成装置,该装置包括:
获取模块,用于根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的;
生成模块,用于根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料。
进一步地,所述句式结构包括主语谓语宾语结构、谓语宾语结构、谓语宾语宾补结构和动宾结构。
进一步地,第一词汇分类集合包括动作类词汇、家居设备类词汇、家居环境类词汇。
进一步地,所述生成模块,还用于针对所述第一语料中的第一词汇,获取该第一词汇的同义词;采用所述同义词对所述第一语料中该第一词汇进行替换,生成第一语料。
进一步地,所述装置还包括:
更新模块,用于如果所述控制词汇库中还包括第二词汇分类集合,生成符合所述句式结构的第一语料后,根据保存的所述第二词汇分类集合中的词汇在所述句式结构中的第二位置信息,将所述第二词汇分类集合中的第三词汇插入到所述第一语料中的对应位置,对第一语料进行更新。
进一步地,所述装置还包括:
处理模块,用于对所述第一语料进行数据处理,删除重复数据;和/或针对所述第一语料,将其他语料与该第一语料进行文本相似度分析,如果存在与该第一语料的文本相似度超过设定相似度阈值的第二语料,将所述第二语料删除。
本发明提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述任一项所述方法的步骤。
本发明提供了一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述任一项所述方法的步骤。
本发明提供了一种语料生成方法、装置、电子设备及可读存储介质,该方法包括:根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的;根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料。本发明中由于生成的第一语料由属于第一词汇分类集合中的第一词汇组合,并且由第一词汇根据所属第一词汇分类集合在句式结构中的第一位置组合,因此无需再对语料进行人工标注,节省了人工标注的成本,降低了出错率,从而提高了控制模型训练的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种语料生成过程的示意图;
图2为本发明实施例4提供的一种语料生成的流程示意图;
图3为本发明实施例5提供的一种电子设备的结构示意图;
图4为本发明实施例7提供的一种语料生成装置示意图。
具体实施方式
为了降低标注过程的出错率,提高控制模型训练的准确性,本发明实施例提供了一种语料生成方法、装置、电子设备及可读存储介质。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的一种语料生成过程的示意图,该过程包括以下步骤:
S101:根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的。
本发明实施例提供的语料生成方法应用于电子设备,该电子设备可以为桌面计算机、服务器等电子设备。较佳地,由于模型训练所需语料的数据量较大,因此该电子设备可以为具备较高计算能力的设备。
电子设备中预先设置有句式结构,其中所述句式结构包括主语谓语宾语结构、谓语宾语结构、谓语宾语宾补结构和动宾结构中的至少一种。
并且电子设备中还设置有句式结构对应的每个第一词汇分类集合的标识信息,词汇分类集合的标识信息用于唯一标识词汇分类集合,其中句式结构对应的每个第一词汇分类集合可以为句式结构中待匹配的每个词汇所属的分类集合,例如句式结构为主语谓语宾语结构,待匹配的每个词汇分别为A、B和C,A为主语B为谓语C为宾语,A、B和C分别所属的词汇分类集合即为该主语谓语宾语结构对应的每个第一词汇分类集合。
其中,第一词汇分类集合保存在控制词汇库中,第一词汇分类集合包括动作类词汇、家居设备类词汇和家居环境类词汇中的至少一种,控制词汇库中还可以包括第二词汇分类集合。例如,动作类词汇包括“打开”,“开启”,“设置”,“增大”,“降低”以及“关闭”等用于调节家居设备的动作,家居设备类词汇可以理解为场景类关键词汇,如包括空调场景关键词汇:“空调”,“柜机空调”,“家用空调”等、空气净化器场景关键词汇:“清新机”,“空气净化器”等,家居环境类词汇可以理解为词槽类关键词汇,如包括方位词汇:“卧室”,“书房”,“客厅”和“厨房”等,调节参数词汇:“制冷模式”,“制冷模式”,“定时”等。
电子设备可以获取到控制词汇库,例如,该控制词汇库可以保存在电子设备中,也可以保存在其他设备中。
电子设备根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中确定标识信息对应的第一词汇分类集合,然后可以在词汇库的该标识信息的第一词汇分类集合中获取第一词汇,例如,可以将该标识信息对应的第一词汇分类集合中的每个词汇确定为第一词汇。
S102:根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料。
电子设备中还预先保存有第一词汇分类集合中的词汇在不同句式结构中的位置信息,因此电子设备可以确定第一词汇分类集合中的词汇在该句式结构中的第一位置信息。
电子设备可以根据第一词汇分类集合中词汇的第一位置信息,将获取到的对应第一词汇分类集合中的第一词汇进行组合,从而生成符合该句式结构的第一语料。电子设备生成的该第一语料可以用于进行控制模型的训练。
生成的第一语料可以以嵌套列表的形式进行保存,因此嵌套列表中的元素可以直接作为标注后的元素对控制模型进行训练。
本发明实施例中不仅可以节省人工标注的成本降低出错率,还可以通过词汇的各种组合生成大量的语料,从而进一步提高控制模型训练的准确性。
本发明实施例中由于生成的第一语料由属于第一词汇分类集合中的第一词汇组合,并且由第一词汇根据所属第一词汇分类集合在句式结构中的第一位置组合,因此无需再对语料进行人工标注,节省了人工标注的成本,降低了出错率,从而提高了控制模型训练的准确性。
实施例2:
为了进一步扩大进行控制模型训练的语料的数据量,在上述实施例的基础上,本发明实施例中,所述生成符合所述句式结构的第一语料,还包括:
针对所述第一语料中的第一词汇,获取该第一词汇的同义词;采用所述同义词对所述第一语料中该第一词汇进行替换,生成第一语料。
由于在控制模型实际控制过程中,由于用户的使用习惯和实际需求不同,可能采用不同控制指令来进行相同的控制,这就需要控制模型能够尽可能准确地识别这些控制指令,因此在控制模型训练过程中通过大数据量的语料参与训练,以实现更高准确率的识别。在本发明实施例中,电子设备通过对第一语料中第一词汇进行同义词替换,可以生成更多数据量的第一语料。
电子设备针对第一语料中的第一词汇,由于生成的第一语料比较多,第一语料中的第一词汇也比较多,因此具体的电子设备针对第一语料中的每个第一词汇,可以获取该第一词汇的同义词。例如,电子设备可以是在电子设备中获取该第一词汇的同义词,具体的,可以是在控制词汇库中获取该第一词汇的同义词;电子设备还可以通过第三方服务提供的接口来查询该第一词汇的同义词等,在本发明实施例中对该获取词汇的同义词的方式不一一列举。
电子设备获取到第一语料中该第一词汇后,可以采用该同义词对第一语料中该第一词汇进行替换,生成第一语料。
具体地,电子设备可以使用高效笛卡尔迭代器的方式进行同义词的替换,生成第一语料。生成的第一语料可以依旧采用嵌套列表的形式进行保存。
由于本发明实施例中,电子设备采用第一语料中第一词汇的同义词对第一词汇进行替换,生成第一语料,能够进一步生成大量的语料,从而进一步提高了控制模型训练的准确性。
实施例3:
在上述各实施例的基础上,本发明实施例中,如果所述控制词汇库中还包括第二词汇分类集合,所述生成符合所述句式结构的第一语料后,所述方法还包括:
根据保存的所述第二词汇分类集合中的词汇在所述句式结构中的第二位置信息,将所述第二词汇分类集合中的第三词汇插入到所述第一语料中的对应位置,对第一语料进行更新。
由于在控制模型实际控制过程中,由于用户的使用习惯和实际需求不同,可能获取到用户的不同的控制指令,以用户语音控制空调为例,有的用户习惯说“请把空调打开制冷模式”,有的用户习惯说“帮我把空调打开制冷模式”等,这就需要控制模型能够尽可能准确地识别这些多样化的控制指令,因此还需要进一步根据用户不同的控制指令来生成更多的语料,从而对控制模型进行训练。
电子设备中的控制词汇库中还可以包括第二词汇分类集合,该第二词汇分类集合可以理解为第一词汇分类集合之外的其他类词汇集合,电子设备中还可以保存有该第二词汇分类集合中的词汇在不同的句式结构中的位置信息,从而确定该第二词汇分类集合中的词汇在该句式结构中的第二位置信息。例如可以包括:在主语之前的位置、主语与谓语之间的位置、谓语与宾语之间的位置、宾语之后的位置等一种或多种。
电子设备确定该第二词汇分类集合中的第三词汇在该句式结构中的第二位置信息后,将该其他类词汇中的第三词汇插入到该第一语料中的对应位置,对第一语料进行更新。例如:[[空调],[打开],[制冷模式]]中插入[请把],根据[请把]的第二位置信息,使其变成[[请把],[空调],[打开],[制冷模式]]列表。
由于本发明实施例中根据第二词汇分类集合的第三词汇对第一语料进行更新,从而进一步提高了控制模型训练的准确性。
实施例4:
在上述各实施例的基础上,本发明实施例中,所述生成符合所述句式结构的第一语料后,所述方法还包括:
对所述第一语料进行数据处理,删除重复数据;和/或
针对所述第一语料,将其他语料与该第一语料进行文本相似度分析,如果存在与该第一语料的文本相似度超过设定相似度阈值的第二语料,将所述第二语料删除。
本发明实施例中所指第一语料可以为原始生成的第一语料,可以为更新后的第一语料。
由于第一词汇在组合的过程可能产生大量的重复数据,或者列表中会存在空位的情况,[[],[打开],[]],尤其是在其它类词汇插空以及笛卡尔高效迭代器的特性更会出现这种情况,因此电子设备可以通过对第一语料进行数据处理,来删除重复语料。例如,对数据处理删除重复语料可以通过对语料进行降噪清洗处理实现其中对语料进行降噪清洗处理可以采用现有技术实现,在本发明实施例中不做赘述。
有时,由于改变一个词有可能改变整个句子的意思,或者增减一个词对要表达的句子的意思没有区别,因此当数据集过多的情况下,为了能够采用更高指令的语料来为控制模型训练提供数据,因此电子设备可以对生成的语料进行文本相似度分析,将相似度过高的语料选择性的删除。
具体的,电子设备针对生成的每个第一语料,将生成的其他语料与该第一语料进行文本相似度分析,并根据文本相似度与设定相似度阈值的比较,来确定是否将其他语料删除,如果其他语料与该第一语料的文本相似度超过设定相似度阈值,则该将该超过设定相似度阈值对应的语料用第二语料来表述,电子设备将该第二语料删除,如果其他语料与该第一语料的文本相似度未超过相似度阈值,该保留该其他语料。
电子设备中可以预先保存有设定相似度阈值,在本发明实施例中对该设定相似度阈值不做限定,例如可以为85%、90%等。
电子设备将两个语料进行文本相似度分析的过程可以采用现有技术实现,在本发明实施例中不做赘述。
下面结合一个具体的实施例对上述各实施例进行说明,如图2所示,为语料生成的流程示意图,具体包括以下步骤:
在词汇集中读取设定句式结构对应的每个第一词汇分类集合,并获取每个第一词汇分类集合中的第一词汇,其中词汇集可以理解为控制词汇库,词汇集包括动作类词汇、词槽类词汇、场景类词汇和其他类词汇。
电子设备按照设定句式结构,将每个第一词汇进行排列组合,生成第一语料。其中设定句式结构包括:主语+谓语+宾语的结构、谓语+宾语(+宾补)的结构和动宾结构。
电子设备进行迭代同义词替换,即采用第一语料中第一词汇的同义词对第一词汇进行同义词进行替换,继续生成第一语料,进一步进行词汇的组合。
电子设备将获取到的其他类词汇进行插空,将其他类词汇插入到第一语料中,对第一语料进行更新,实现句式成分扩展。
电子设备对第一语料中重复数据进行预处理,具体对第一语料进行数据降噪清洗处理,来除去重复数据。
电子设备对经过预处理后的第一语料进行文本相似度处理,将文本相似度过高的第一语料进行选择性删除,以提高语料质量,从而生成高质量的语料数据。
实施例5:
在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图3所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行如下步骤:
根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的;
根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料。
基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与语料生成方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中,处理器执行存储器上所存放的程序时,实现语料的生成,由于生成的第一语料由属于第一词汇分类集合中的第一词汇组合,并且由第一词汇根据所属第一词汇分类集合在句式结构中的第一位置组合,因此无需再对语料进行人工标注,节省了人工标注的成本,降低了出错率,从而提高了控制模型训练的准确性。
实施例6:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的;
根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料。
基于同一发明构思,本发明实施例中还提供了一种计算机存储可读存储介质,由于上述计算机存储可读存储介质存储的计算机程序在电子设备执行解决问题时的原理与语料生成方法相似,因此上述实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
在本发明实施例中提供的计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现语料的生成,由于生成的第一语料由属于第一词汇分类集合中的第一词汇组合,并且由第一词汇根据所属第一词汇分类集合在句式结构中的第一位置组合,因此无需再对语料进行人工标注,节省了人工标注的成本,降低了出错率,从而提高了控制模型训练的准确性。
实施例7:
在上述各实施例的基础上,图4为本发明实施例提供的一种语料生成装置示意图,该装置包括:
获取模块401,用于根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的;
生成模块402,用于根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料。
进一步地,所述句式结构包括主语谓语宾语结构、谓语宾语结构、谓语宾语宾补结构和动宾结构。
进一步地,词汇分类集合包括动作类词汇、家居设备类词汇、家居环境类词汇。
进一步地,所述生成模块402,还用于针对所述第一语料中的第一词汇,获取该第一词汇的同义词;采用所述同义词对所述第一语料中该第一词汇进行替换,生成第一语料。
进一步地,所述装置还包括:
更新模块403,用于如果所述控制词汇库中还包括第二词汇分类集合,生成符合所述句式结构的第一语料后,根据保存的所述第二词汇分类集合中的词汇在所述句式结构中的第二位置信息,将所述第二词汇分类集合中的第三词汇插入到所述第一语料中的对应位置,对第一语料进行更新。
进一步地,所述装置还包括:
处理模块404,用于对所述第一语料进行数据处理,删除重复数据;和/或针对所述第一语料,将其他语料与该第一语料进行文本相似度分析,如果存在与该第一语料的文本相似度超过设定相似度阈值的第二语料,将所述第二语料删除。
本发明实施例中由于生成的第一语料由属于第一词汇分类集合中的第一词汇组合,并且由第一词汇根据所属第一词汇分类集合在句式结构中的第一位置组合,因此无需再对语料进行人工标注,节省了人工标注的成本,降低了出错率,从而提高了控制模型训练的准确性。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语料生成方法,其特征在于,该方法包括:
根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的,第一词汇分类集合包括动作类词汇、家居设备类词汇、家居环境类词汇;
根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料;
如果所述控制词汇库中还包括第二词汇分类集合,所述生成符合所述句式结构的第一语料后,所述方法还包括:
根据保存的所述第二词汇分类集合中的词汇在所述句式结构中的第二位置信息,将所述第二词汇分类集合中的第三词汇插入到所述第一语料中的对应位置,对第一语料进行更新。
2.如权利要求1所述的方法,其特征在于,所述句式结构包括主语谓语宾语结构、谓语宾语结构、谓语宾语宾补结构和动宾结构。
3.如权利要求1所述的方法,其特征在于,所述生成符合所述句式结构的第一语料,还包括:
针对所述第一语料中的第一词汇,获取该第一词汇的同义词;采用所述同义词对所述第一语料中该第一词汇进行替换,生成第一语料。
4.如权利要求1或3所述的方法,其特征在于,所述生成符合所述句式结构的第一语料后,所述方法还包括:
对所述第一语料进行数据处理,删除重复数据;和/或
针对所述第一语料,将其他语料与该第一语料进行文本相似度分析,如果存在与该第一语料的文本相似度超过设定相似度阈值的第二语料,将所述第二语料删除。
5.一种语料生成装置,其特征在于,该装置包括:
获取模块,用于根据句式结构对应的每个第一词汇分类集合的标识信息,在控制词汇库中获取每个第一词汇分类集合中的第一词汇,其中,所述句式结构为预先设置的,第一词汇分类集合包括动作类词汇、家居设备类词汇、家居环境类词汇;
生成模块,用于根据第一词汇分类集合中的词汇在所述句式结构中的第一位置信息,将获取的所述第一词汇进行组合,生成符合所述句式结构的第一语料;
所述装置还包括:
更新模块,用于如果所述控制词汇库中还包括第二词汇分类集合,生成符合所述句式结构的第一语料后,根据保存的所述第二词汇分类集合中的词汇在所述句式结构中的第二位置信息,将所述第二词汇分类集合中的第三词汇插入到所述第一语料中的对应位置,对第一语料进行更新。
6.如权利要求5所述的装置,其特征在于,所述句式结构包括主语谓语宾语结构、谓语宾语结构、谓语宾语宾补结构和动宾结构。
7.如权利要求5所述的装置,其特征在于,所述生成模块,还用于针对所述第一语料中的第一词汇,获取该第一词汇的同义词;采用所述同义词对所述第一语料中该第一词汇进行替换,生成第一语料。
8.如权利要求5或7所述的装置,其特征在于,所述装置还包括:
处理模块,用于对所述第一语料进行数据处理,删除重复数据;和/或针对所述第一语料,将其他语料与该第一语料进行文本相似度分析,如果存在与该第一语料的文本相似度超过设定相似度阈值的第二语料,将所述第二语料删除。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~4任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行权利要求1~4任一项所述方法的步骤。
CN201910651346.0A 2019-07-18 2019-07-18 一种语料生成方法、装置、电子设备及可读存储介质 Active CN110399499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910651346.0A CN110399499B (zh) 2019-07-18 2019-07-18 一种语料生成方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910651346.0A CN110399499B (zh) 2019-07-18 2019-07-18 一种语料生成方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110399499A CN110399499A (zh) 2019-11-01
CN110399499B true CN110399499B (zh) 2022-02-18

Family

ID=68324681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910651346.0A Active CN110399499B (zh) 2019-07-18 2019-07-18 一种语料生成方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110399499B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027308A (zh) * 2019-11-06 2020-04-17 厦门快商通科技股份有限公司 文本生成方法、系统、移动终端及存储介质
CN110852109A (zh) * 2019-11-11 2020-02-28 腾讯科技(深圳)有限公司 语料生成方法、语料生成装置、和存储介质
CN111459960A (zh) * 2020-03-31 2020-07-28 九牧厨卫股份有限公司 一种离线智能设备语料修改方法
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN112732875A (zh) * 2021-01-20 2021-04-30 珠海格力电器股份有限公司 一种语料数据标签的确定方法和装置
CN115470781B (zh) * 2022-11-01 2023-03-14 北京红棉小冰科技有限公司 语料生成方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470700A (zh) * 2007-12-28 2009-07-01 日电(中国)有限公司 文本模板生成器、文本生成设备、文本检验设备及其方法
CN107004000A (zh) * 2016-06-29 2017-08-01 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN108021547A (zh) * 2016-11-04 2018-05-11 株式会社理光 一种自然语言的生成方法、自然语言生成装置及电子设备
CN109388717A (zh) * 2018-07-20 2019-02-26 北京智能点科技有限公司 一种批量生成语料的方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013425A1 (en) * 2011-07-05 2013-01-10 Marchex, Inc. Method and system for automatically generating advertising creatives
CN104462145B (zh) * 2013-09-24 2018-04-10 华为技术有限公司 一种语句生成方法及装置
US11106872B2 (en) * 2018-01-09 2021-08-31 Jyu-Fang Yu System and method for improving sentence diagram construction and analysis by enabling a user positioning sentence construction components and words on a diagramming interface

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470700A (zh) * 2007-12-28 2009-07-01 日电(中国)有限公司 文本模板生成器、文本生成设备、文本检验设备及其方法
CN107004000A (zh) * 2016-06-29 2017-08-01 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN108021547A (zh) * 2016-11-04 2018-05-11 株式会社理光 一种自然语言的生成方法、自然语言生成装置及电子设备
CN109388717A (zh) * 2018-07-20 2019-02-26 北京智能点科技有限公司 一种批量生成语料的方法和系统

Also Published As

Publication number Publication date
CN110399499A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
CN110399499B (zh) 一种语料生成方法、装置、电子设备及可读存储介质
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
CN103971677B (zh) 一种声学语言模型训练方法和装置
CN108630197B (zh) 用于语音识别的训练方法和设备
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
EP3213226A1 (en) Focused sentiment classification
CN106610931B (zh) 话题名称的提取方法及装置
CN103678271B (zh) 一种文本校正方法及用户设备
CN109947924B (zh) 对话系统训练数据构建方法、装置、电子设备及存储介质
CN112149419B (zh) 字段的规范化自动命名方法、装置及系统
CN105630763A (zh) 用于提及检测中的消歧的方法和系统
CN104281716A (zh) 平行语料的对齐方法及装置
CN110738562A (zh) 一种风险提醒信息的生成方法、装置及设备
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN113110843B (zh) 合约生成模型训练方法、合约生成方法及电子设备
CN112966577B (zh) 一种模型训练以及信息提供的方法及装置
JP2015001695A (ja) 音声認識装置、音声認識方法及びプログラム
CN117540757A (zh) 用于自动翻译的方法、电子设备及计算机可读存储介质
CN110276070B (zh) 一种语料处理方法、装置及存储介质
CN113741864B (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统
US12013864B2 (en) Method for automatically generating news events of a certain topic and electronic device applying the same
CN113343674A (zh) 生成文本纠错模型训练语料的方法、装置、设备及介质
CN108733789B (zh) 数据库操作指令的执行计划演进方法、装置以及设备
CN112286572A (zh) 一种业务流程的配置方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant