CN114398888A - 生成声母韵母向量的方法、装置、电子设备及存储介质 - Google Patents
生成声母韵母向量的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114398888A CN114398888A CN202210015343.XA CN202210015343A CN114398888A CN 114398888 A CN114398888 A CN 114398888A CN 202210015343 A CN202210015343 A CN 202210015343A CN 114398888 A CN114398888 A CN 114398888A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- chinese
- sharp
- chinese character
- final
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 175
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004891 communication Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000219112 Cucumis Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请涉及一种生成声母韵母向量的方法、装置、电子设备及存储介质,方法包括:根据汉语中的尖字生成尖字音集和尖音团音集;将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中;根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音;根据修改好的所述拼音汉字拼音集汉字拼音集生成汉字声母韵母集;根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量,获得汉字的声母向量与韵母向量,考虑了汉字在发音方面的声母韵母关系,丰富了汉字向量表示的丰富度。
Description
技术领域
本申请涉及深度学习技术领域,尤其涉及一种生成声母韵母向量的方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,将汉字或词转化为向量表达形式,再将向量输入到各类神经网络中,完成各种具体任务(例如文本分类、文本摘要、文本生成、智能问答等)已成为当前自然语言处理领域主流的技术手段。但相关技术中,仅能根据汉字生成词向量、或是字向量。而相关技术中,只考虑汉字本身的特征,且设计的特征比较简单,因此,汉字生成的向量丰富度不够。
发明内容
本申请提供了一种生成声母韵母向量的方法、装置、电子设备及存储介质,以解决相关技术中,根据汉字生成的向量丰富度不够的问题。
第一方面,本申请提供了一种生成声母韵母向量的方法,所述生成声母韵母向量的方法,包括:根据汉语中的尖字生成尖字音集和尖音团音集,其中,所述尖字音集中包括尖字与尖音的对应关系,尖音团音集中包括尖音与团音的对应关系;将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中,其中,所述声母表中包括汉语拼音的声母,所述韵母表中包括汉语拼音的韵母;根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音,所述汉字拼音集中包括汉字与拼音的对应关系;根据修改好的所述汉字拼音集生成汉字声母韵母集,所述汉字声母韵母集的属性包括:汉字,拼音,声母,韵母;根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量。
可选的,所述根据汉语中的尖字生成尖字音集和尖音团音集,包括:获取汉语中的尖字,以及尖字对应的尖音、团音;根据所述尖字与其对应的尖音生成所述尖字音集,根据所述尖音和所述团音分别与尖字的对应关系生成所述尖音团音集。
可选的,所述根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改之前,所述方法还包括:读取汉字词典,根据所述汉字词典中的汉字生成汉字拼音集。
可选的,所述根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音,包括:确定所述汉字拼音集中存在的尖字,根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音。
可选的,所述确定所述汉字拼音集中存在的尖字,包括:在所述汉字拼音集中提取出在所述尖字音集中存在的汉字;获取提取出的汉字在所述尖字音集中对应的尖音;获取提取出的汉字的尖音在所述尖音团音集中对应的团音;当根据提取出的汉字获取的团音与所述提取出的汉字在汉字拼音集中的拼音对应时,判定提取处的汉字为尖字。
可选的,所述根据修改好的所述汉字拼音集生成汉字声母韵母集,包括:将所述汉字拼音集中的拼音拆分得到声母、韵母,以得到所述汉字声母韵母集。
可选的,所述根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量,包括:获取所述汉字拼音集中各个汉字的字向量,并根据获取的字向量生成汉字字向量集;根据所述声母表、所述韵母表生成声母韵母向量集;从所述汉字声母韵母集中取出汉字,并从所述汉字字向量集中获取取出汉字的字向量;根据取出汉字的字向量以及所述声母韵母向量集计算取出汉字的声母向量、韵母向量。
第二方面,本申请提供了一种生成声母韵母向量的装置,所述生成声母韵母向量的装置,包括:生成模块,所述生成模块用于根据汉语中的尖字生成尖字音集和尖音团音集,其中,所述尖字音集中包括尖字与尖音的对应关系,尖音团音集中包括尖音与团音的对应关系;拆分模块,所述拆分模块用于将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中,其中,所述声母表中包括汉语拼音的声母,所述韵母表中包括汉语拼音的韵母;修改模块,所述修改模块用于根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音,所述汉字拼音集中包括汉字与拼音的对应关系;所述生成模块还用于根据修改好的所述汉字拼音集生成汉字声母韵母集,所述汉字声母韵母集的属性包括:汉字,拼音,声母,韵母;计算模块,所述计算模块用于根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的生成声母韵母向量的方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的生成声母韵母向量的方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本方案可以应用于在深度学习技术领域进行自然语言处理,本申请实施例提供的该方法,包括:根据汉语中的尖字生成尖字音集和尖音团音集;将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中;根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音;根据修改好的所述拼音汉字拼音集汉字拼音集生成汉字声母韵母集;根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量。通过将各个汉字还原尖音,然后将还原后的尖音拆分得到的声母、韵母添加到声母表、韵母表中,最后在对各个汉字的声母向量韵母向量进行计算,获得各个汉字的声母向量与韵母向量,考虑了汉字在发音方面的声母韵母关系,丰富了汉字向量表示的丰富度,进而避免了相关技术中,仅通过汉字字向量作为表达,设计特征简单,汉字生成的向量丰富度不够的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种可选的生成声母韵母向量的方法的流程示意图;
图2为本申请实施例提供的再一种可选的生成声母韵母向量的方法的流程示意图;
图3为本申请实施例提供的一种可选的生成声母韵母向量的装置的基本结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种生成声母韵母向量的方法的流程示意图。其包括但不限于:
S101、根据汉语中的尖字生成尖字音集和尖音团音集;
应当理解的是,其中,所述尖字音集中包括尖字与尖音的对应关系,尖音团音集中包括尖音与团音的对应关系,也即,在尖字音集中,一个尖字对应一个尖音;在尖音团音集中一个尖音对应一个团音。例如,汉语中的西为尖字,西的尖音为sii,团音为xi,则在尖字音集中,尖字“西”对应尖音sii,在尖音团音集中尖音sii对应团音xi。
S102、将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中;
应当理解的是,其中,所述声母表中包括汉语拼音的声母,所述韵母表中包括汉语拼音的韵母;其中,应当理解的是,所述声母表中的声母包括但不限于:b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y、w;韵母表中的韵母表包括但不限于:a、o、e、i、u、ü、ai、ei、ui、ao、ou、iu、ie、üe、er、an、en、in、un、ün、ang、eng、ing、ong;应当理解的是,声母表中的声母依据汉语拼音而来,韵母表中的韵母也依据汉语拼音而来,因此,若汉语拼音发生改变,声母表中的声母,韵母表中的韵母也会随之改变。
承接上例,应当理解的是,将所述尖音团音集中的尖音和团音拆分为声母和韵母,也即,将尖音拆分为声母和韵母,将团音拆分为声母和韵母,然后将尖音拆分得到的声母,团音拆分得到的声母添加到声母表中,将尖音拆分得到的韵母,团音拆分得到的韵母添加到韵母表中;应当理解的是,在一些示例中,将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中之前,所述方法还包括:判断拆分得到的声母是否已经存在在声母表中,当拆分得到的声母未存在在声母表中,则将其添加到声母表中,若拆分得到的声母已经存在在声母表中,则放弃将其添加到声母表中;同理,判断拆分得到的韵母是否已经存在在韵母表中,当拆分得到的韵母未存在在韵母表中,则将其添加到韵母表中,若拆分得到的韵母已经存在在韵母表中,则放弃将其添加到韵母表中;例如:尖字“西”,其尖音为sii,对尖音进行拆分得到声母为s,韵母为ii。韵母ii不在韵母表中,因此需要将韵母ii添加到韵母表;再例如,尖字“奖”,其尖音为ziang,对尖音进行拆分得到声母为z,韵母为iang。韵母iang在韵母表中,所以不用再将韵母iang添加到韵母表中。
S103、根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音;
应当理解的是,所述汉字拼音集中包括汉字与拼音的对应关系;具体的,汉字拼音集中包括已知所有汉字,以及其对应的拼音,例如,汉字拼音集中包括汉字“瓜”,以及其对应的拼音gua。
S104、根据修改好的所述汉字拼音集生成汉字声母韵母集;
应当理解的是,所述汉字声母韵母集的属性包括:汉字,拼音,声母,韵母;其中汉字声母韵母集的属性可以根据相关人员的设置进行修改;也即,汉字声母韵母集中包括了汉字,以及该汉字对应的拼音、对应的声母,以及对应的韵母。
S105、根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量。
在本实施例的一些示例中,所述根据汉语中的尖字生成尖字音集和尖音团音集,包括:获取汉语中的尖字,以及尖字对应的尖音、团音;根据所述尖字与其对应的尖音生成尖字音集,根据所述尖音和所述团音分别与尖字的对应关系生成尖音团音集;需要理解的是,汉语中的尖字是固定的,因此,相关人员可以直接从汉语中获取所有的尖字,并根据尖字生成尖字音集和尖音团音集,尖字音集中包括所有尖字,以及各个尖字对应的尖音;尖音团音集中包括了所有尖音,以及各个尖音对应的团音。在本实施例的一些示例中,所述根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改之前,所述方法还包括:读取汉字词典,根据所述汉字词典中的汉字生成汉字拼音集。应当理解的是,其中,通过读取汉字词典,能够获取所有已知的汉字,进而根据获取的汉字生成汉字拼音集;应当理解的是,本实施例并不限制获取已知的汉字的方式仅为读取汉字词典,例如,还可以从数据库中获取已知的汉字等,本领域的技术人员可以灵活设置获取已知的汉字的方式。
承接上例,应当理解的是,现代汉语中,允许一字多音,如果是多音汉字,则需要将该多音汉字按其读音多次存入到汉字拼音集中。
在本实施例的一些示例中,所述根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音,包括:确定所述汉字拼音集中存在的尖字,根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音。应当理解的是,只有当确定出汉字拼音集中的哪些汉字为尖字后,才会根据对确定出为尖字的汉字进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音。
承接上例,所述确定所述汉字拼音集中存在的尖字,包括:在所述汉字拼音集中提取出在所述尖字音集中存在的汉字;获取提取出的汉字在所述尖字音集中对应的尖音;获取提取出的汉字的尖音在所述尖音团音集中对应的团音;当根据提取出的汉字获取的团音与所述提取出的汉字在汉字拼音集中的拼音对应时,判定提取出的汉字为尖字。具体的,首先在汉字拼音集中提取各个汉字,以及汉字对应的拼音,然后将提取出的在尖字音集中存在的汉字;并获取在尖字音集中该汉字对应的尖音,然后将该尖音拿去尖音团音集中获取该尖音对应的团音,然后将获取的团音拿来与该汉字在汉字拼音集中的拼音进行比对,当比对结果为一直时,判定该汉字为尖字,进而避免了当该汉字为一字多音,且该汉字同时存在尖音与团音的多音时,将该汉字的团音作为尖音的情况,进而提升了获取尖字的准确性。
在本实施例的一些示例中,所述根据修改好的所述汉字拼音集生成汉字声母韵母集,包括:将所述汉字拼音集中的拼音拆分得到声母、韵母,以得到所述汉字声母韵母集。具体的,汉字拼音集中包括了汉字以及汉字对应的拼音,将该拼音进行拆分,则得到了该汉字对应的声母、韵母,进而生成了汉字声母韵母集。应当理解的是,汉字声母韵母集中包括了汉字拼音集中的所有汉字。
在本实施例的一些示例中,所述根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量,包括:获取所述汉字拼音集中各个汉字的字向量,并根据获取的字向量生成汉字字向量集;根据所述声母表、所述韵母表生成声母韵母向量集;从所述汉字声母韵母集中取出汉字,并从所述汉字字向量集中获取取出汉字的字向量;根据取出汉字的字向量以及所述声母韵母向量集计算取出汉字的声母向量、韵母向量。
应当理解的是,其中,获取所述汉字拼音集中各个汉字的字向量的方法,本实施例并不知道限制,例如,可以通过汉字向量模型,读取汉字向量模型文件,进而获取汉字和汉字对应的字向量,其中汉字向量模型包括但不限于已公开的汉字向量模型或基于中文语料库现训练得到汉字向量模型;然后根据获取的字向量生成汉字字向量集,其中所述汉字字向量集中包括汉字与字向量的对应关系;
应当理解的是,根据所述声母表、所述韵母表生成声母韵母向量集包括但不限于:根据添加完成的声母表和添加完成的韵母表,构建声母韵母向量集,所述母韵母向量集中包括声母、韵母,以及声母对应的向量、韵母对应的向量;且其中,声母、韵母对应的向量的维数与汉字字向量集中汉字对应字向量的维数相同,且声母韵母向量集中,声母、韵母向量取值初始化为0,为声母、韵母的向量赋0值,以初始化,以使得后续计算声母、韵母向量能够实现。
应当理解的是,从所述汉字声母韵母集中取出汉字,并从所述汉字字向量集中获取取出汉字的字向量,也即,从汉字声母韵母集中可以取得所有汉字的字向量;例如,从汉字字向量集中取出一个汉字,并将取出该汉字的字向量;
应当理解的是,根据取出汉字的字向量以及所述声母韵母向量集计算取出汉字的声母向量、韵母向量,包括但不限于,从所述声母韵母向量集中取出汉字,以及该汉字的声母、韵母;然后通过声母向量计算公式该汉字的声母的向量。其中,声母向量计算公式为:声母向量=(声母向量+字向量/2)/2;然后通过韵母向量计算公式该汉字的韵母的向量。其中,韵母向量计算公式为:韵母向量=(韵母向量+字向量/2)/2;进而求出了该汉字对应的声母向量、韵母向量。
本实施例提供的生成声母韵母向量的方法,包括:根据汉语中的尖字生成尖字音集和尖音团音集;将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中;根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音;根据修改好的所述拼音汉字拼音集汉字拼音集生成汉字声母韵母集;根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量。通过将各个汉字还原尖音,然后将还原后的尖音拆分得到的声母、韵母添加到声母表、韵母表中,最后在对各个汉字的声母向量韵母向量进行计算,获得各个汉字的声母向量与韵母向量,考虑了汉字在发音方面的声母韵母关系,丰富了汉字向量表示的丰富度,进而避免了相关技术中,仅通过汉字字向量作为表达,设计特征简单,汉字生成的向量丰富度不够的问题。
为了更好的理解本发明,本实施例提供一种更为具体的示例对本发明进行说明,本示例提供一种生成声母韵母向量的方法,如图2所示,本实施例提供的生成声母韵母向量的方法包括但不限于:
S201、读取汉语拼音声母和韵母,生成声母表、韵母表。
应当理解的是,可以从文件或数据库中读取汉语拼音中的声母和韵母,并分别记为:声母表list_SM<声母>和韵母表list_YM<韵母>
S202、读取汉语中的尖字及其对应的尖音。
应当理解的是,可以从文件或数据库中读取汉语中的尖字及其对应的尖音,并将尖字和尖音生成:尖字音集map_HZ_JZ<尖字,尖音>。进一步地,还需将尖音所对应的团音进行存储,并记为尖音团音集map_JTY<尖音,团音>;
S203、拆分尖音团音集中的拼音为声母和韵母,并将新的声母和韵母合并至声母表list_SM和韵母表list_YM中。
应当理解的是,拆分尖音团音集中的拼音为声母和韵母,并将新的声母和韵母合并至声母表list_SM和韵母表list_YM之前,所述方法还包括:判断拆分得到的声母是否已经存在在声母表中,当拆分得到的声母未存在在声母表中,则将其添加到声母表中,若拆分得到的声母已经存在在声母表中,则放弃将其添加到声母表中;同理,判断拆分得到的韵母是否已经存在在韵母表中,当拆分得到的韵母未存在在韵母表中,则将其添加到韵母表中,若拆分得到的韵母已经存在在韵母表中,则放弃将其添加到韵母表中;例如:尖字“西”,其尖音为sii,对尖音进行拆分得到声母为s,韵母为ii。韵母ii不在韵母表中,因此需要将韵母ii添加到韵母表;再例如,尖字“奖”,其尖音为ziang,对尖音进行拆分得到声母为z,韵母为iang。韵母iang在韵母表中,所以不用再将韵母iang添加到韵母表中。
S204:读取汉字向量模型,生成汉字字向量集。
应当理解的是,读取汉字向量模型文件,根据其中的汉字和所对应的汉字向量生成汉字字向量集map_Vector<汉字,字向量>;其中,汉字向量模型不限于已公开的汉字向量模型或基于中文语料库现训练得到。
S205:读取汉字字典,生成汉字拼音集。
应当理解的是,汉字字典为获取汉字以及其拼音的一种手段,本实施例并不限制生成汉字拼音集的方法,并将其中的汉字及其对应的拼音生成汉字拼音集map_HZ_PY<汉字,拼音>。
应当理解的是,现代汉字,允许一字多音。如果是多音字,则需要将该多音字按其读音多次存入map_HZ_PY中。
在本实施例的一些示例中,生成汉字拼音集后,所述方法还包括将汉字拼音集中尖字对应的拼音修改为尖音,具体的,首先通过判断汉字拼音集中的汉字是否为尖字,即所述汉字拼音集中的汉字是否存在于map_HZ_JZ<尖字,尖音>中,如是,且则读取该汉字在map_HZ_JZ<尖字,尖音>中的尖音,然后通过该尖音读取在map_JTY<尖音,团音>的团音,然后将读取出来的团音与ap_HZ_PY<汉字,拼音>中的拼音进行比较,当在map_JTY<尖音,团音>中读取出的团音与其在map_HZ_PY<汉字,拼音>中的拼音一致,即确定该汉字为尖字。若为尖字,则将其在map_HZ_PY<汉字,拼音>中的拼音修改为尖音。
S206:拆分汉字拼音集map_HZ_PY中的汉字拼音为声母和韵母。将拆分出的声母和韵母记为汉字声母韵母集map_HZ_PY_SM_YM<汉字,拼音,声母,韵母>。
应当理解的是。拆分的汉字汉字拼音集为修改后的汉字拼音集。
S207:计算汉字对应的声母向量与韵母向量;
应当理解的是,其中,首先根据list_SM<声母>和list_YM<韵母>构建声母韵母向量map,SYM_map_Vector<声母/韵母,声母/韵母向量>,声母/韵母向量的维数与汉字字向量集中汉字的字向量的维数相同,声母/韵母向量取值初始化为0。然后计算声母和韵母向量。具体计算步骤如下:
a:遍历map_HZ_PY_SM_YM中第i个字HZi,声母SMi,YMi,i取1;
b:从map_Vector中提取出汉字HZi的字向量Vi;
c:计算声母SMi的向量SYM_map_Vector(SMi)=(SYM_map_Vector(SMi)+Vi/2)/2;
d:计算韵母YMi的向量SYM_map_Vector(YMi)=(SYM_map_Vector(YMi)+Vi/2)/2;
e:重复执行上述步骤,i取2至|map_HZ_PY_SM_YM|。|map_HZ_PY_SM_YM|表示map_HZ_PY_SM_YM的大小,直到获得所有的汉字的声母向量、韵母向量。
基于相同的构思,本实施例还提供一种生成声母韵母向量的装置,如图3所示,所述生成声母韵母向量的装置,包括:
生成模块1,所述生成模块用于根据汉语中的尖字生成尖字音集和尖音团音集,其中,所述尖字音集中包括尖字与尖音的对应关系,尖音团音集中包括尖音与团音的对应关系;
拆分模块2,所述拆分模块用于将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中,其中,所述声母表中包括汉语拼音的声母,所述韵母表中包括汉语拼音的韵母;
修改模块3,所述修改模块用于根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音,所述汉字拼音集中包括汉字与拼音的对应关系;
所述生成模块1还用于根据修改好的所述汉字拼音集生成汉字声母韵母集,所述汉字声母韵母集的属性包括:汉字,拼音,声母,韵母;
计算模块4,所述计算模块用于根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量。
应当理解的是,本实施例提供的生成声母韵母向量的装置,通过各个模块的组合能够实现如上述实施例所述的生成声母韵母向量的方法的各个步骤,进而达到与上述生成声母韵母向量的方法相同的技术效果。
如图4所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
存储器113,用于存放计算机程序;
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的生成声母韵母向量的方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的生成声母韵母向量的方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种生成声母韵母向量的方法,其特征在于,所述生成声母韵母向量的方法,包括:
根据汉语中的尖字生成尖字音集和尖音团音集,其中,所述尖字音集中包括尖字与尖音的对应关系,尖音团音集中包括尖音与团音的对应关系;
将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中,其中,所述声母表中包括汉语拼音的声母,所述韵母表中包括汉语拼音的韵母;
根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音,所述汉字拼音集中包括汉字与拼音的对应关系;
根据修改好的所述汉字拼音集生成汉字声母韵母集,所述汉字声母韵母集的属性包括:汉字,拼音,声母,韵母;
根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量。
2.根据权利要求1所述的方法,其特征在于,所述根据汉语中的尖字生成尖字音集和尖音团音集,包括:
获取汉语中的所述尖字,以及所述尖字对应的尖音、团音;
根据所述尖字与其对应的尖音生成尖字音集,根据所述尖音和所述团音分别与尖字的对应关系生成尖音团音集。
3.根据权利要求1所述的方法,其特征在于,所述根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改之前,所述方法还包括:
读取汉字词典,根据所述汉字词典中的汉字生成汉字拼音集。
4.根据权利要求1所述的方法,其特征在于,所述根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音,包括:
确定所述汉字拼音集中存在的尖字,根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音。
5.根据权利要求4所述的方法,其特征在于,所述确定所述汉字拼音集中存在的尖字,包括:
在所述汉字拼音集中提取出在所述尖字音集中存在的汉字;
获取提取出的汉字在所述尖字音集中对应的尖音;
获取提取出的汉字的尖音在所述尖音团音集中对应的团音;
当根据提取出的汉字获取的团音与所述提取出的汉字在汉字拼音集中的拼音对应时,判定提取出的汉字为尖字。
6.根据权利要求1所述的方法,其特征在于,所述根据修改好的所述汉字拼音集生成汉字声母韵母集,包括:
将所述汉字拼音集中的拼音拆分得到声母、韵母,以得到所述汉字声母韵母集。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量,包括:
获取所述汉字拼音集中各个汉字的字向量,并根据获取的字向量生成汉字字向量集;
根据所述声母表、所述韵母表生成声母韵母向量集;
从所述汉字声母韵母集中取出汉字,并从所述汉字字向量集中获取取出汉字的字向量;
根据取出汉字的字向量以及所述声母韵母向量集计算取出汉字的声母向量、韵母向量。
8.一种生成声母韵母向量的装置,其特征在于,所述生成声母韵母向量的装置,包括:
生成模块,所述生成模块用于根据汉语中的尖字生成尖字音集和尖音团音集,其中,所述尖字音集中包括尖字与尖音的对应关系,尖音团音集中包括尖音与团音的对应关系;
拆分模块,所述拆分模块用于将所述尖音团音集中的尖音和团音拆分为声母和韵母,并将拆分得到的声母和韵母分别添加到声母表和韵母表中,其中,所述声母表中包括汉语拼音的声母,所述韵母表中包括汉语拼音的韵母;
修改模块,所述修改模块用于根据所述尖字音集和所述尖音团音集对汉字拼音集中的拼音进行修改,以将所述汉字拼音集中尖字对应汉字的拼音修改为尖音,所述汉字拼音集中包括汉字与拼音的对应关系;
所述生成模块还用于根据修改好的所述汉字拼音集生成汉字声母韵母集,所述汉字声母韵母集的属性包括:汉字,拼音,声母,韵母;
计算模块,所述计算模块用于根据所述声母表、所述韵母表以及所述汉字声母韵母集计算各个汉字的声母向量、韵母向量。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的生成声母韵母向量的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的生成声母韵母向量的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210015343.XA CN114398888A (zh) | 2022-01-07 | 2022-01-07 | 生成声母韵母向量的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210015343.XA CN114398888A (zh) | 2022-01-07 | 2022-01-07 | 生成声母韵母向量的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398888A true CN114398888A (zh) | 2022-04-26 |
Family
ID=81229314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210015343.XA Pending CN114398888A (zh) | 2022-01-07 | 2022-01-07 | 生成声母韵母向量的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398888A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060212296A1 (en) * | 2004-03-17 | 2006-09-21 | Carol Espy-Wilson | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
CN106649749A (zh) * | 2016-12-26 | 2017-05-10 | 浙江传媒学院 | 一种基于汉语音位特征的文本查重方法 |
CN108614640A (zh) * | 2018-04-13 | 2018-10-02 | 李森 | 李氏三拼汉字输入方案 |
WO2019096068A1 (zh) * | 2017-11-14 | 2019-05-23 | 蔚来汽车有限公司 | 语音识别纠错方法以及语音识别纠错系统 |
US20200394356A1 (en) * | 2018-02-27 | 2020-12-17 | Beijing Dajia Internet Information Technology Co., Ltd. | Text information processing method, device and terminal |
CN113743053A (zh) * | 2021-08-17 | 2021-12-03 | 上海明略人工智能(集团)有限公司 | 字母向量计算方法、系统、存储介质及电子设备 |
-
2022
- 2022-01-07 CN CN202210015343.XA patent/CN114398888A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060212296A1 (en) * | 2004-03-17 | 2006-09-21 | Carol Espy-Wilson | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
CN106649749A (zh) * | 2016-12-26 | 2017-05-10 | 浙江传媒学院 | 一种基于汉语音位特征的文本查重方法 |
WO2019096068A1 (zh) * | 2017-11-14 | 2019-05-23 | 蔚来汽车有限公司 | 语音识别纠错方法以及语音识别纠错系统 |
US20200394356A1 (en) * | 2018-02-27 | 2020-12-17 | Beijing Dajia Internet Information Technology Co., Ltd. | Text information processing method, device and terminal |
CN108614640A (zh) * | 2018-04-13 | 2018-10-02 | 李森 | 李氏三拼汉字输入方案 |
CN113743053A (zh) * | 2021-08-17 | 2021-12-03 | 上海明略人工智能(集团)有限公司 | 字母向量计算方法、系统、存储介质及电子设备 |
Non-Patent Citations (4)
Title |
---|
P.-Y. TING: "New speech recognition approaches based upon finite state vector quantization with structural constraints", 《ICASSP-88., INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》, 6 August 2002 (2002-08-06) * |
余陆峰: "基于深度学习的客家方言语音识别", 《硕士电子期刊》, 6 April 2019 (2019-04-06) * |
孙淑红;: "河南方言分尖团音现象探究", 信阳农林学院学报, no. 04, 15 December 2015 (2015-12-15) * |
鲍欣, 林其, 张英芳: "基于汉语声母韵母发音模型的语音识别", 西北工业大学学报, no. 02, 30 May 1992 (1992-05-30) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956948A (zh) | 端到端的语音合成方法、装置及存储介质 | |
TWI610294B (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
JP5929909B2 (ja) | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム | |
CN107180084A (zh) | 词库更新方法及装置 | |
US20230055233A1 (en) | Method of Training Voice Recognition Model and Voice Recognition Device Trained by Using Same Method | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN112786018B (zh) | 语音转换及相关模型的训练方法、电子设备和存储装置 | |
CN110852075A (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN113990352A (zh) | 用户情绪识别与预测方法、装置、设备及存储介质 | |
CN109726386B (zh) | 一种词向量模型生成方法、装置和计算机可读存储介质 | |
CN114398888A (zh) | 生成声母韵母向量的方法、装置、电子设备及存储介质 | |
CN112463921B (zh) | 韵律层级划分方法、装置、计算机设备和存储介质 | |
JP5544575B2 (ja) | 音声言語評価装置、方法、及びプログラム | |
Chowdhury et al. | Bangla grapheme to phoneme conversion using conditional random fields | |
Abu-Soud | ILATalk: a new multilingual text-to-speech synthesizer with machine learning | |
CN110428668B (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 | |
JP6998017B2 (ja) | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム | |
JP5888723B2 (ja) | 発音辞書作成装置、発音辞書の生産方法、およびプログラム | |
Vineeth et al. | Identification of Vowel Phonemes for Speech Correction Using PRAAT Scripting and SPPAS | |
JP2014215396A (ja) | 発音付与方法とその装置とプログラム | |
CN111145725A (zh) | 近音汉字的语音识别方法及装置 | |
Trung et al. | An image based approach for speech perception | |
CN117953852A (zh) | 文本处理方法及装置 | |
CN116541496A (zh) | 话术模板生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |