CN115994532A - 语料分类方法、非易失性可读存储介质及电子设备 - Google Patents
语料分类方法、非易失性可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN115994532A CN115994532A CN202310282074.8A CN202310282074A CN115994532A CN 115994532 A CN115994532 A CN 115994532A CN 202310282074 A CN202310282074 A CN 202310282074A CN 115994532 A CN115994532 A CN 115994532A
- Authority
- CN
- China
- Prior art keywords
- vowel
- target
- vowels
- family
- combined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 150000001875 compounds Chemical class 0.000 claims description 44
- 230000033764 rhythmic process Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000011161 development Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 241000283070 Equus zebra Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种语料分类方法、非易失性可读存储介质及电子设备。方法包括:响应目标语料的输入,确定目标语料的目标韵母,获取韵律表,韵律表包括多个韵族,每个韵族包括发音满足同一发音相似条件的至少一个韵母,根据韵律表确定包含目标韵母的韵族为目标韵族,将目标语料分类至目标韵族下。本实施例能够接收目标语料的输入,根据目标语料的目标韵母及目标声调,结合发音分类表,自动将目标语料分类至目标分类集合,无需人工分类,有利于提高语料分类效率,从而为诗歌及国风体文学创作的自动化内容的生成效率和生成质量提供了语料基础。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种语料分类方法、非易失性可读存储介质及电子设备。
背景技术
中华文明璀璨夺目,源远流长,同时也沉淀了丰富的文字。随着人工智能的技术发展,现有人工智能技术能够利用丰富的文字作为诗歌语料,训练生成诗歌语言模型,利用诗歌语言模型生成古诗,通常人工智能技术生成的古诗都需要满足押韵要求,为了满足押韵要求,人们需要事先人工将韵律相似的文字进行分类,比如将龙、隆、弄等语料划分成一类。人们能够利用分类好的语料,训练生成诗歌语言模型,但是,人们需要花费较多时间对语料进行分类,分类效率较低,且一旦发音规则发生变化,将导致用户需要人工重新分类语料。
发明内容
本发明实施例的一个目的旨在提供一种语料分类方法、非易失性可读存储介质及电子设备,旨在解决现有技术需要人工分类语料导致分类效率较低的技术问题。
在第一方面,本发明实施例提供一种语料分类方法,包括:
响应目标语料的输入,确定所述目标语料的目标韵母;
获取韵律表,所述韵律表包括多个韵族,每个所述韵族包括发音满足同一发音相似条件的至少一个韵母;
根据所述韵律表,确定包含所述目标韵母的韵族为目标韵族;
将所述目标语料分类至所述目标韵族下。
可选地,所述获取韵律表包括:
获取元音集合及鼻音集合,所述元音集合包括至少两个元音,所述鼻音组合包括至少一个鼻音;
根据单个所述元音生成单韵族;
根据两个所述元音生成双韵族;
根据至少一个所述元音及至少一个所述鼻音生成鼻音韵族;
根据所述单韵族、所述双韵族及所述鼻音韵族生成韵律表。
可选地,所述根据单个所述元音生成单韵族包括:设置与每个所述元音对应的单韵族。
可选地,所述根据两个所述元音生成双韵族包括:
根据两个所述元音生成第一目标组合韵母;
判断所述第一目标组合韵母与单韵族是否满足同一发音相似条件;
若满足,则将所述第一目标组合韵母分配至所述单韵族;
若不满足,则设置与所述第一目标组合韵母对应的双韵族。
可选地,所述根据两个所述元音生成第一目标组合韵母包括:
根据两个所述元音生成第一候选组合韵母;
根据所述第一候选组合韵母及预设的标准韵母池,筛选出满足标准韵母条件的第一候选组合韵母作为第一目标组合韵母。
可选地,所述方法还包括:
获取介音集合,所述介音集合包括至少一个介音;
根据所述介音集合及目标韵族生成第二候选组合韵母,所述目标韵族包括单韵族和/或双韵族;
根据所述第二候选组合韵母生成介音韵族。
可选地,所述根据所述介音集合及目标韵族生成第二候选组合韵母包括:将介音设置在所述目标韵族下的韵母前面,得到第二候选组合韵母。
可选地,所述根据所述第二候选组合韵母生成介音韵族包括:
根据所述第二候选组合韵母及预设的标准韵母池,筛选出满足标准韵母条件的第二候选组合韵母作为第二目标组合韵母;
判断第二目标组合韵母与目标韵族是否满足同一发音相似条件;
若满足,则将所述第二目标组合韵母分配至所述目标韵族;
若不满足,则设置与所述第二目标组合韵母对应的介音韵族。
可选地,所述根据至少一个所述元音及至少一个所述鼻音生成鼻音韵族包括:
将所述元音与所述鼻音依序组合,得到第三候选组合韵母;
获取介音集合,所述介音集合包括至少一个介音;
将所述介音设置在所述第三候选组合韵母的前面,得到第四候选组合韵母,所述第三候选组合韵母及所述第四候选组合韵母都放置在候选韵母集合下;
根据所述候选韵母集合及预设的标准韵母池,筛选出满足标准韵母条件的候选组合韵母作为第三目标组合韵母;
将满足同一发音相似条件的第三目标组合韵母分类至同一鼻音韵族,将不满足同一发音相似条件的第三目标组合韵母分类至另一鼻音韵族。
可选地,所述方法还包括:
获取变音集合,所述变音集合包括至少一个变音;
遍历所述韵律表的每个韵族,得到首音为所述变音的参考韵母,所述参考韵母为所述韵族中的韵母;
删除所述参考韵母的首音,得到删除后的参考韵母;
判断所述参考韵母对应的韵族是否存在与所述删除后的参考韵母相同的韵母;
若存在,则在参考韵母对应的韵族去除所述删除后的参考韵母;
若不存在,则在参考韵母对应的韵族保留所述删除后的参考韵母。
可选地,所述方法还包括:
遍历标准韵母池的每个标准韵母;
判断所述标准韵母是否出现在所述韵律表;
若不出现,则设置与每个所述标准韵母对应的韵族。
在第二方面,本发明实施例提供一种非易失性可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行上述的语料分类方法。
在第三方面,本发明实施例提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的语料分类方法。
在本发明实施例提供的语料分类方法中,响应目标语料的输入,确定目标语料的目标韵母,获取韵律表,韵律表包括多个韵族,每个韵族包括发音满足同一发音相似条件的至少一个韵母,根据韵律表,确定包含目标韵母的韵族为目标韵族,将目标语料分类至目标韵族下。本实施例能够接收目标语料的输入,将目标语料分类至目标韵族下,无需人工分类,有利于提高语料分类效率,从而为诗歌及国风体文学创作的自动化内容的生成效率和生成质量提供了语料基础。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明实施例提供的一种语料分类方法的流程示意图;
图2为本发明实施例提供的一种电子设备的电路结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
本发明实施例提供一种语料分类方法。请参阅图1,语料分类方法包括以下步骤:
S11:响应目标语料的输入,确定目标语料的目标韵母。
本步骤中,目标语料为输入电子设备的语料,目标韵母为目标语料的韵母,比如目标语料为“躲duǒ”,其中,“d”为目标声母,“uo”为目标韵母。
响应目标语料的输入包括:响应语料文件的输入,解析语料文件,得到目标语料。其中,语料文件由用户提前收集各个语料而得到。
确定目标语料的目标韵母包括:按照预设拼音格式,解析目标语料的拼音,得到所述拼音的首个字母及除去首个字母的剩余拼音,将剩余拼音作为目标韵母。
S12:获取韵律表,韵律表包括多个韵族,每个韵族包括发音满足同一发音相似条件的至少一个韵母。
本步骤中,韵律表为多个韵族的集合,其中,韵族为发音满足同一发音相似条件的韵母的集合。请参阅表1:
表1
如表1所示,韵律表包括19个韵族,在每个韵族下的韵母的发音满足同一发音相似条件。
S13:根据韵律表,确定包含目标韵母的韵族为目标韵族。
本步骤中,举例而言,第2韵族包含目标韵母“uo”,因此,第2韵族为目标韵族。
S14:将目标语料分类至目标韵族下。
本步骤中,举例而言,目标语料“躲duǒ”的目标韵族为第2韵族,因此,本实施例将目标语料“躲duǒ”分类至第2韵族下。本实施例能够接收目标语料的输入,根据目标语料的目标韵母及目标声调,结合发音分类表,自动将目标语料分类至目标分类集合,无需人工分类,有利于提高语料分类效率。
另外,每个韵族都包括发音满足同一发音相似条件的至少一个韵母,相比现有韵母都是独立的形式,本实施例能够将发音满足同一发音相似条件的两个韵母分类至同一韵族,以便后续能够将更多语料分类至同一韵族下,从而为人工智能生成诗歌提供符合押韵要求的多个语料选择,使得需要押韵的韵脚不容易重复。举例而言,在第一种情况下,人工智能生成的诗歌如下:
四大皆空软剑冲,尽如人意旷诗东
行侠仗义斜炉降,模棱两可夏李弄
该诗歌的类型为绝句类型,该诗歌的首句是入韵的,因此,需要押韵的诗句为第1句子、第2句子及第4句子,其中,第1句子、第2句子及第4句子的韵律为平声的“ong”,韵母为“ong”。
在第二种情况下,由于分类至韵律为平声的“ong”的语料较少,人工智能生成的诗歌出现押韵句子的韵脚容易重复,比如生成的诗歌如下:
四大皆空软剑冲,尽如人意旷诗冲
行侠仗义斜炉降,模棱两可夏李弄
按照诗歌的要求,押韵句子的韵脚通常不能重复。但是,现有技术由于是人工分类,且缺乏韵族的概念,分类语料的标准是语料的韵母是否相同,若相同,则将该语料分类至该韵母下,如此会使得分类至每个韵母下的语料相对是较少的,并不满足信息时代的人工智能随机性生成诗歌的要求。在本实施例中,由于每个韵族都包括发音满足同一发音相似条件的至少一个韵母,分类至每个韵族下的语料相对现有技术是较多的,如此可为人工智能生成诗歌提供满足押韵要求的更多语料选择比如生成的诗歌如下:
四大皆空软剑冲,尽如人意旷诗崇
行侠仗义斜炉降,模棱两可夏李汹
表1(中的第18韵律,韵脚分别为第1句子的“冲”、第2句子的“崇”及第4句子的“崇”,其中,第1句子、第2句子及第4句子的韵脚是不重复的,且满足押韵要求。
在一些实施例中,每个韵族对应至少一个声调,每个声调都配置有对应的分类集合,将目标语料分类至目标韵族下包括:确定目标语料的目标声调,目标声调与目标韵族对应,将目标语料分类至目标声调下。
目标声调为目标语料的声调,比如目标语料为“躲duǒ”,其中,目标声调为三声,其中,三声属于仄声的一种。确定目标语料的目标声调包括:获取目标语料对应的声调标识,根据声调标识确定目标声调。请参阅表2:
表2
如表2所示,每个韵族都包括至少一个韵母,放置在同一个韵族下的韵母的发音都满足同一发音相似条件,每个韵族都对应平声和仄声。
目标语料“躲duǒ”的目标声调为仄声,因此,本实施例将目标语料“躲duǒ”分类至第2韵族的仄声下。
在一些实施例中,构建韵律表包括以下步骤:
S121:获取元音集合及鼻音集合,元音集合包括至少两个元音,鼻音组合包括至少一个鼻音。
S122:根据单个元音生成单韵族。
S123:根据两个元音生成双韵族。
S124:根据至少一个元音及至少一个鼻音生成鼻音韵族。
S125:根据单韵族、双韵族及鼻音韵族生成韵律表。
在S121中,元音集合包括a, o, e, I, u, ü中的任两个或三个或四个或五个或六个。鼻音集合包括n和ng中的一个或两个。
在S122中,根据单个元音生成单韵族包括:设置与每个元音对应的单韵族。请参阅表3:
如表3所示,表3包括6个单韵族,分别为第1韵族至第6韵族。其中,元音“a”对应第1韵族,元音“o”对应第2韵族,以此类推。
在S123中,根据两个元音生成双韵族包括以下步骤:根据两个元音生成第一目标组合韵母,判断第一目标组合韵母与单韵族是否满足同一发音相似条件,若满足,则将第一目标组合韵母分配至单韵族,若不满足,则设置与第一目标组合韵母对应的双韵族。
根据两个元音生成第一目标组合韵母包括:根据两个元音生成第一候选组合韵母,根据第一候选组合韵母及预设的标准韵母池,筛选出满足标准韵母条件的第一候选组合韵母作为第一目标组合韵母。
根据两个元音生成第一候选组合韵母包括:将两个元音依序组成第一候选组合韵母。举例而言,元音a和元音o组成ao,ao为第一候选组合韵母,或者,元音e和元音o组成eo,eo为第一候选组合韵母,以此类推。
根据第一候选组合韵母及预设的标准韵母池筛选出满足标准韵母条件的第一候选组合韵母作为第一目标组合韵母包括:判断第一候选组合韵母是否出现在预设的标准韵母池中,若出现,则第一候选组合韵母满足标准韵母条件,将第一候选组合韵母作为第一目标组合韵母,若不出现,则丢弃第一候选组合韵母。
在一些实施例中,标准韵母池为满足中国大陆现代普通话要求的多个标准韵母的集合,在一些实施例中,标准韵母池包括36个标准韵母,36个标准韵母分别为:a, e, -i,ai, ei, ao, ou, er, an, en, ang, eng, ong, ia, ie, i, iao, iu, ian, in, iang,ing, iong, ua, uo, u, uai, ui, uan, un, uang, ueng, üe, ü, üan, ün。
可以理解的是,在一些实施例中,标准韵母池也可在中国大陆现代普通话要求的多个标准韵母的基础上继续延伸加入更多的标准韵母,比如标准韵母池不仅涵盖了上述36个标准韵母,而且也可涵盖中国台湾定义的标准韵母“iai”。
还可以理解的是,随着社会的发展,网络语言文学愈呈丰富多彩的方向进行发展,后续标准韵母池还可不断地引进新韵母作为标准韵母。但是,本实施例提供的语料分类方法能够顺应社会的发展,都可结合变化的标准韵母池,将满足押韵要求的语料进行聚类。
当第一候选组合韵母出现在预设的标准韵母池时,本实施例将第一候选组合韵母作为第一目标组合韵母。举例而言,第一候选组合韵母“ao”出现在预设的标准韵母池中,因此,本实施例将第一候选组合韵母“ao”作为第一目标组合韵母。第一候选组合韵母“eo”不出现在预设的标准韵母池中,因此,本实施例丢弃第一候选组合韵母“eo”。
判断第一目标组合韵母与单韵族是否满足同一发音相似条件包括:判断第一目标组合韵母的发音频率是否落在单韵族的发音频率范围内,若落在,则第一目标组合韵母与单韵族满足同一发音相似条件,若不落在,则第一目标组合韵母与单韵族不满足同一发音相似条件。
由于判断第一目标组合韵母与单韵族满足同一发音相似条件,因此,本实施例将第一目标组合韵母分配至相应的单韵族。
举例而言,第一目标组合韵母“ia”、“ua”与第1韵族(单韵族)的韵母“a”的发音相似,因此,将第一目标组合韵母“ia”、“ua”分类至第1韵族。
举例而言,第一目标组合韵母“uo”与第2韵族(单韵族)的韵母“o”的发音相似,因此将第一目标组合韵母“uo”分类至第2韵族。
由于判断第一目标组合韵母与单韵族不满足同一发音相似条件,因此,本实施例设置与第一目标组合韵母对应的双韵族。
举例而言,第一目标组合韵母“ao”、“ai”、“ou”、“ei”、“ie”、“üe”与6个单韵族的韵母的发音相似,因此,为第一目标组合韵母“ao”、“ai”、“ou”、“ei”、“ie”、“üe”都设置相应的双韵族。
在一些实施例中,语料分类方法还包括:合并满足同一发音相似条件的两个双韵族,保留不满足同一发音相似条件的双韵族。
举例而言,第一目标组合韵母“ao”对应的双韵族与第一目标组合韵母“ai”、“ou”、“ei”、“ie”、“üe”对应的双韵族中的任一个双韵族都不满足同一发音相似条件,因此,本实施例保留第一目标组合韵母“ao”对应的双韵族,如表1,本实施例为第一目标组合韵母“ao”设置第8韵族。
同理可得,本实施例保留第一目标组合韵母“ai”、“ou”、“ei”、“ie”、“üe”对应的双韵族,如表1,本实施例为第一目标组合韵母“ai”设置第9韵族,为第一目标组合韵母“ou”设置第10韵族,为第一目标组合韵母“ei”设置第11韵族,为第一目标组合韵母“ie”设置第12韵族,第8韵族值至第12韵族都为双韵族。
其中,第一目标组合韵母“ie”对应的双韵族和第一目标组合韵母“üe”对应的双韵族满足同一发音相似条件,因此,本实施例将第一目标组合韵母“ie”对应的双韵族和第一目标组合韵母“üe”对应的双韵族进行合并,最终得到第12韵族。
在一些实施例,语料分类方法还包括:获取介音集合,介音集合包括至少一个介音,根据介音集合及目标韵族生成第二候选组合韵母,目标韵族包括单韵族和/或双韵族,根据第二候选组合韵母生成介音韵族。
介音集合包括介音“i”、介音“u”及介音“ü”,根据介音集合及目标韵族生成第二候选组合韵母包括:将介音设置在目标韵族下的韵母前面,得到第二候选组合韵母。
举例而言,当本实施例将介音“i”设置在第1韵族的韵母前面时,得到第二候选组合韵母“ia”、“iia”及“iua”。当本实施例将介音“u”设置在第1韵族的韵母前面时,得到第二候选组合韵母“ua”、“uia”及“uua”。当本实施例将介音“ü”设置在第1韵族的韵母前面时,得到第二候选组合韵母“üa”、“üia”及“üua”。
同理可得,当本实施例将介音“i”设置在第8韵族的韵母前面时,得到第二候选组合韵母“iao”。当本实施例将介音“u”设置在第8韵族的韵母前面时,得到第二候选组合韵母“uao”。当本实施例将介音“ü”设置在第8韵族的韵母前面时,得到第二候选组合韵母“üao”。
根据第二候选组合韵母生成介音韵族包括:根据第二候选组合韵母及预设的标准韵母池,筛选出满足标准韵母条件的第二候选组合韵母作为第二目标组合韵母,判断第二目标组合韵母与目标韵族是否满足同一发音相似条件,若满足,则将第二目标组合韵母分配至目标韵族,若不满足,则设置与第二目标组合韵母对应的介音韵族。
根据第二候选组合韵母及预设的标准韵母池,筛选出满足标准韵母条件的第二候选组合韵母作为第二目标组合韵母包括:判断第二候选组合韵母是否出现在预设的标准韵母池中,若出现,则第二候选组合韵母满足标准韵母条件,将第二候选组合韵母作为第二目标组合韵母,若不出现,则丢弃第二候选组合韵母。
举例而言,第二候选组合韵母“ia”出现在预设的标准韵母池中,因此,本实施例将第二候选组合韵母“ia”作为第二目标组合韵母。第二候选组合韵母“iia”不出现在预设的标准韵母池中,因此,本实施例丢弃第二候选组合韵母“iia”。
判断第二目标组合韵母与目标韵族是否满足同一发音相似条件包括:判断第二目标组合韵母的发音频率是否落在目标韵族的发音频率范围内,若落在,则第二目标组合韵母与目标韵族满足同一发音相似条件,若不落在,则第二目标组合韵母与目标韵族不满足同一发音相似条件。
由于判断第二目标组合韵母与目标韵族满足同一发音相似条件,因此,本实施例将第而目标组合韵母分配至目标韵族。
举例而言,第二目标组合韵母“iao”与第8韵族的韵母“ao”的发音相似,因此,将第二目标组合韵母“iao”分类至第8韵族。
举例而言,第二目标组合韵母“uai”与第9韵族的韵母“ai”的发音相似,因此,将第二目标组合韵母“uai”分类至第9韵族。
举例而言,关于第二目标组合韵母“iou”,根据简体汉语的要求,元音加入介音后使得元音出现在中间,则不写中间的元音。比如第二目标组合韵母“iou”,元音“o”在第二目标组合韵母“iou”的中间,因此不写“o”,则第二目标组合韵母“iou”经过简化处理后,简化后的第二目标组合韵母为“iu”。虽然第10韵族的韵母“ou”前面加了介音“i”,但是介音“i”对“ou”的发音影响较小,因此,第二目标组合韵母“iou”的发音与第10韵族的韵母“ou”的发音相似,本实施例将第二目标组合韵母“iu”分类至第10韵族。
举例而言,第二目标组合韵母“uei”的简化过程可参照上文所述,在此不赘述,第二目标组合韵母“uei”经过简化处理后,简化后的第二目标组合韵母为“ui”。由于第二目标组合韵母“uei”的发音与第11韵族的韵母“ei”的发音相似,因此,将第二目标组合韵母“ui”分类至第11韵族。
在S124中,根据至少一个元音及至少一个鼻音生成鼻音韵族包括以下步骤:将元音与鼻音依序组合,得到第三候选组合韵母,获取介音集合,介音集合包括至少一个介音,将介音设置在第三候选组合韵母的前面,得到第四候选组合韵母,第三候选组合韵母及第四候选组合韵母都放置在候选韵母集合下,根据候选韵母集合及预设的标准韵母池,筛选出满足标准韵母条件的候选组合韵母作为第三目标组合韵母,将满足同一发音相似条件的第三目标组合韵母分类至同一鼻音韵族,将不满足同一发音相似条件的第三目标组合韵母分类至另一鼻音韵族。其中,介音集合包括i、u及ü。
举例而言,将元音“a”和鼻音“n”依序组合,得到第三候选组合韵母“an”,将元音“a”和鼻音“ng”依序组合,得到第三候选组合韵母“ang”。同理可得,将元音“o”和鼻音“n”依序组合,得到第三候选组合韵母“on”,将元音“o”和鼻音“ng”依序组合,得到第三候选组合韵母“ong”。将元音“e”和鼻音“n”依序组合,得到第三候选组合韵母“en”,将元音“e”和鼻音“ng”依序组合,得到第三候选组合韵母“eng”。将元音“i”和鼻音“n”依序组合,得到第三候选组合韵母“in”,将元音“i”和鼻音“ng”依序组合,得到第三候选组合韵母“ing”。将元音“u”和鼻音“n”依序组合,得到第三候选组合韵母“un”,将元音“u”和鼻音“ng”依序组合,得到第三候选组合韵母“ung”。将元音“ü”和鼻音“n”依序组合,得到第三候选组合韵母“ün”,将元音“ü”和鼻音“ng”依序组合,得到第三候选组合韵母“üng”。
将介音设置在第三候选组合韵母的前面,得到第四候选组合韵母如下:ian、iang、ion、iong、ien、ieng、iin、iing、iun、iung、iün、iüng,以及uan、uang、uon、uong、uen、ueng、uin、uing、uun、uung、uün及uüng,以及üan、üang、üon、üong、üen、üeng、üin、üing、üun、üung、üün及üüng。
由于候选组合韵母üng、ion、ien、ieng、iin、iing、iun、iung、iün、iüng、ueng、uin、uing、uun、uung、uün及uüng都不在标准韵母池中,因此,丢弃上述候选组合韵母,剩余的候选组合韵母作为第三目标组合韵母。
由于第三目标组合韵母“an”和“uan”满足同一发音相似条件、第三目标组合韵母“ian”及“üan”满足同一发音相似条件、第三目标组合韵母“en”、“eng”及“un”满足同一发音相似条件、第三目标组合韵母“in”、“ing”及“ün”满足同一发音相似条件、第三目标组合韵母“ang”、“iang”及“uang”满足同一发音相似条件及第三目标组合韵母“ong”及“iong”满足同一发音相似条件,
因此,将第三目标组合韵母“an”和“uan分类至第13韵族,将第三目标组合韵母“ian”及“üan”分类至第14韵族,将第三目标组合韵母“en”、“eng”及“un”分类至第15韵族,将第三目标组合韵母“in”、“ing”及“ün”分类至第16韵族,将第三目标组合韵母“ang”、“iang”及“uang”分类至第17韵族,将第三目标组合韵母“ong”及“iong”分类至第18韵族。
在一些实施例中,语料分类方法还包括:获取变音集合,变音集合包括至少一个变音,遍历韵律表的每个韵族,得到首音为变音的参考韵母,参考韵母为韵族中的韵母,删除参考韵母的首音,得到删除后的参考韵母,判断参考韵母对应的韵族是否存在与删除后的参考韵母相同的韵母,若存在,则在参考韵母对应的韵族去除删除后的参考韵母,若不存在,则在参考韵母对应的韵族保留删除后的参考韵母。其中,变音集合包括i和u。
举例而言,在第12韵族中,韵母“ie”是以变音“i”为首音的参考韵母。本实施例删除参考韵母“ie”的首音“i”,得到删除后的参考韵母“e”,由于参考韵母“ie”对应的第12韵族不存在与删除后的参考韵母“e”相同的韵母,因此,本实施例在第12韵族保留删除后的参考韵母“e”。
举例而言,在第13韵族中,韵母“uan”是以变音“u”为首音的参考韵母。本实施例删除参考韵母“uan”的首音“u”,得到删除后的参考韵母“an”,由于参考韵母“an”对应的第13韵族存在与删除后的参考韵母“an”相同的韵母,因此,本实施例在第13韵族中剔除掉删除后的参考韵母“an”。
举例而言,在第14韵族中,韵母“ian”是以变音“i”为首音的参考韵母。本实施例删除参考韵母“ian”的首音“i”,得到删除后的参考韵母“an”,由于参考韵母“an”对应的第14韵族不存在与删除后的参考韵母“an”相同的韵母,因此,本实施例在第14韵族保留删除后的参考韵母“an”。
在一些实施例中,语料分类方法还包括:遍历标准韵母池的每个标准韵母,判断标准韵母是否出现在韵律表,若不出现,则设置与每个标准韵母对应的韵族,若出现,则维持原状。
举例而言,在第7韵族中,零韵母(-i)未出现在韵律表中,因此,本实施例为零韵母(-i)设置第7韵族。零韵母的含义:韵母i本身不发音,当韵母i加上声母之后的发音对应声母的发音,比如吃chī、知zhī中的“i”本身不发音,但是加上声母“ch”、“zh”后的发音为声母“ch”、“zh”的发音。
举例而言,在第19韵族中,韵母er未出现在韵律表中,因此,本实施例为韵母er设置第19韵族。
在S125中,本实施例组合单韵族、双韵族及鼻音韵族,从而得到韵律表。
总体而言,本实施例能够接收目标语料的输入,将目标语料分类至目标韵族下,无需人工分类,有利于提高语料分类效率,从而为诗歌及国风体文学创作的自动化内容的生成效率和生成质量提供了语料基础。另外,本实施例能够将发音满足同一发音相似条件的两个韵母分类至同一韵族,以便后续能够将更多语料分类至同一韵族下,从而为人工智能生成诗歌提供符合押韵要求的多个语料选择,使得需要押韵的韵脚不容易重复。同时,本实施例提供的语料分类方法能够顺应社会的发展,都可结合变化的标准韵母池,将满足押韵要求的语料进行聚类。
需要说明的是,在上述各个实施方式中,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施方式的描述可以理解,不同实施方式中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
请参阅图2,图2为本发明实施例提供的一种电子设备的电路结构示意图,其中,电子设备可以为任意合适类型的设备或电子产品,例如,电子设备包括服务器或电脑等具有逻辑计算和分析功能的设备。如图2所示,电子设备200包括一个或多个处理器21以及存储器22。其中,图2中以一个处理器21为例。
处理器21和存储器22可以通过总线或者其他方式连接,图2中以通过总线连接为例。存储器22作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的语料分类方法对应的程序指令/模块。处理器21通过运行存储在存储器22中的非易失性软件程序、指令以及模块,从而实现上述方法实施例提供的语料分类方法的功能。
存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器22可选包括相对于处理器21远程设置的存储器,这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述程序指令/模块存储在所述存储器22中,当被所述一个或者多个处理器21执行时,执行上述任意方法实施例中的语料分类方法。
本发明实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如图2中的一个处理器21,可使得上述一个或多个处理器可执行上述任意方法实施例中的语料分类方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行任一项所述的语料分类方法。
以上所描述的装置或设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (13)
1.一种语料分类方法,其特征在于,包括:
响应目标语料的输入,确定所述目标语料的目标韵母;
获取韵律表,所述韵律表包括多个韵族,每个所述韵族包括发音满足同一发音相似条件的至少一个韵母;
根据所述韵律表,确定包含所述目标韵母的韵族为目标韵族;
将所述目标语料分类至所述目标韵族下。
2.根据权利要求1所述的方法,其特征在于,所述获取韵律表包括:
获取元音集合及鼻音集合,所述元音集合包括至少两个元音,所述鼻音组合包括至少一个鼻音;
根据单个所述元音生成单韵族;
根据两个所述元音生成双韵族;
根据至少一个所述元音及至少一个所述鼻音生成鼻音韵族;
根据所述单韵族、所述双韵族及所述鼻音韵族生成韵律表。
3.根据权利要求2所述的方法,其特征在于,所述根据单个所述元音生成单韵族包括:设置与每个所述元音对应的单韵族。
4.根据权利要求2所述的方法,其特征在于,所述根据两个所述元音生成双韵族包括:
根据两个所述元音生成第一目标组合韵母;
判断所述第一目标组合韵母与单韵族是否满足同一发音相似条件;
若满足,则将所述第一目标组合韵母分配至所述单韵族;
若不满足,则设置与所述第一目标组合韵母对应的双韵族。
5.根据权利要求4所述的方法,其特征在于,所述根据两个所述元音生成第一目标组合韵母包括:
根据两个所述元音生成第一候选组合韵母;
根据所述第一候选组合韵母及预设的标准韵母池,筛选出满足标准韵母条件的第一候选组合韵母作为第一目标组合韵母。
6.根据权利要求2所述的方法,其特征在于,还包括:
获取介音集合,所述介音集合包括至少一个介音;
根据所述介音集合及目标韵族生成第二候选组合韵母,所述目标韵族包括单韵族和/或双韵族;
根据所述第二候选组合韵母生成介音韵族。
7.根据权利要求6所述的方法,其特征在于,所述根据所述介音集合及目标韵族生成第二候选组合韵母包括:将介音设置在所述目标韵族下的韵母前面,得到第二候选组合韵母。
8.根据权利要求6所述的方法,其特征在于,所述根据所述第二候选组合韵母生成介音韵族包括:
根据所述第二候选组合韵母及预设的标准韵母池,筛选出满足标准韵母条件的第二候选组合韵母作为第二目标组合韵母;
判断第二目标组合韵母与目标韵族是否满足同一发音相似条件;
若满足,则将所述第二目标组合韵母分配至所述目标韵族;
若不满足,则设置与所述第二目标组合韵母对应的介音韵族。
9.根据权利要求2所述的方法,其特征在于,所述根据至少一个所述元音及至少一个所述鼻音生成鼻音韵族包括:
将所述元音与所述鼻音依序组合,得到第三候选组合韵母;
获取介音集合,所述介音集合包括至少一个介音;
将所述介音设置在所述第三候选组合韵母的前面,得到第四候选组合韵母,所述第三候选组合韵母及所述第四候选组合韵母都放置在候选韵母集合下;
根据所述候选韵母集合及预设的标准韵母池,筛选出满足标准韵母条件的候选组合韵母作为第三目标组合韵母;
将满足同一发音相似条件的第三目标组合韵母分类至同一鼻音韵族,将不满足同一发音相似条件的第三目标组合韵母分类至另一鼻音韵族。
10.根据权利要求2所述的方法,其特征在于,还包括:
获取变音集合,所述变音集合包括至少一个变音;
遍历所述韵律表的每个韵族,得到首音为所述变音的参考韵母,所述参考韵母为所述韵族中的韵母;
删除所述参考韵母的首音,得到删除后的参考韵母;
判断所述参考韵母对应的韵族是否存在与所述删除后的参考韵母相同的韵母;
若存在,则在参考韵母对应的韵族去除所述删除后的参考韵母;
若不存在,则在参考韵母对应的韵族保留所述删除后的参考韵母。
11.根据权利要求2所述的方法,其特征在于,还包括:
遍历标准韵母池的每个标准韵母;
判断所述标准韵母是否出现在所述韵律表;
若不出现,则设置与每个所述标准韵母对应的韵族。
12.一种非易失性可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于使电子设备执行如权利要求1至11任一项所述的语料分类方法。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至11任一项所述的语料分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310282074.8A CN115994532A (zh) | 2023-03-22 | 2023-03-22 | 语料分类方法、非易失性可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310282074.8A CN115994532A (zh) | 2023-03-22 | 2023-03-22 | 语料分类方法、非易失性可读存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115994532A true CN115994532A (zh) | 2023-04-21 |
Family
ID=85992373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310282074.8A Pending CN115994532A (zh) | 2023-03-22 | 2023-03-22 | 语料分类方法、非易失性可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115994532A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006084666A (ja) * | 2004-09-15 | 2006-03-30 | Nippon Hoso Kyokai <Nhk> | 韻律生成装置及び韻律生成プログラム |
CN101373407A (zh) * | 2008-08-07 | 2009-02-25 | 刘功宜 | 手机汉字韵母族群录入法 |
CN102938252A (zh) * | 2012-11-23 | 2013-02-20 | 中国科学院自动化研究所 | 结合韵律和发音学特征的汉语声调识别系统及方法 |
CN103177733A (zh) * | 2013-03-11 | 2013-06-26 | 哈尔滨师范大学 | 汉语普通话儿化音发音质量评测方法与系统 |
CN109002433A (zh) * | 2018-05-30 | 2018-12-14 | 出门问问信息科技有限公司 | 一种文本生成方法及装置 |
CN113850080A (zh) * | 2021-09-29 | 2021-12-28 | 北京百度网讯科技有限公司 | 一种押韵词推荐方法、装置、设备及存储介质 |
-
2023
- 2023-03-22 CN CN202310282074.8A patent/CN115994532A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006084666A (ja) * | 2004-09-15 | 2006-03-30 | Nippon Hoso Kyokai <Nhk> | 韻律生成装置及び韻律生成プログラム |
CN101373407A (zh) * | 2008-08-07 | 2009-02-25 | 刘功宜 | 手机汉字韵母族群录入法 |
CN102938252A (zh) * | 2012-11-23 | 2013-02-20 | 中国科学院自动化研究所 | 结合韵律和发音学特征的汉语声调识别系统及方法 |
CN103177733A (zh) * | 2013-03-11 | 2013-06-26 | 哈尔滨师范大学 | 汉语普通话儿化音发音质量评测方法与系统 |
CN109002433A (zh) * | 2018-05-30 | 2018-12-14 | 出门问问信息科技有限公司 | 一种文本生成方法及装置 |
CN113850080A (zh) * | 2021-09-29 | 2021-12-28 | 北京百度网讯科技有限公司 | 一种押韵词推荐方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968700A (zh) | 一种融合多类事理与实体知识的领域事件图谱构建方法和装置 | |
CN108763539B (zh) | 一种基于词性分类的文本分类方法和系统 | |
JPS6299865A (ja) | 自然言語の共起関係辞書保守方法 | |
CN109359290B (zh) | 试题文本的知识点确定方法、电子设备及存储介质 | |
CN114036300A (zh) | 一种语言模型的训练方法、装置、电子设备及存储介质 | |
CN114912448B (zh) | 一种文本扩展方法、装置、设备及介质 | |
Hassani | BLARK for multi-dialect languages: towards the Kurdish BLARK | |
EP3267327A1 (en) | Entailment pair expansion device, computer program therefor, and question-answering system | |
Suszczańska et al. | Translating Polish texts into sign language in the TGT system | |
US20200311345A1 (en) | System and method for language-independent contextual embedding | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
Savoldi et al. | Under the morphosyntactic lens: A multifaceted evaluation of gender bias in speech translation | |
JP5231698B2 (ja) | 日本語の表意文字の読み方を予測する方法 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
Dou et al. | Data2text studio: Automated text generation from structured data | |
CN112597307A (zh) | 人物动作相关数据的提取方法、装置、设备及存储介质 | |
Nieder et al. | A discriminative lexicon approach to word comprehension, production, and processing: Maltese plurals | |
CN112765977B (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN115994532A (zh) | 语料分类方法、非易失性可读存储介质及电子设备 | |
CN110348013A (zh) | 基于人工智能的写作辅助方法、设备及可读存储介质 | |
Athukorala et al. | Swa Bhasha: Message-Based Singlish to Sinhala Transliteration | |
Costa et al. | Towards an open platform for machine translation of spoken languages into sign languages | |
CN114861628A (zh) | 训练机器翻译模型的系统、方法、电子设备及存储介质 | |
CN111243351B (zh) | 一种基于分词技术的外语口语训练系统、客户端和服务器 | |
CN109783820B (zh) | 一种语义解析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |