CN112464649A - 多音字的拼音转换方法、装置、计算机设备和存储介质 - Google Patents

多音字的拼音转换方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112464649A
CN112464649A CN202011339562.0A CN202011339562A CN112464649A CN 112464649 A CN112464649 A CN 112464649A CN 202011339562 A CN202011339562 A CN 202011339562A CN 112464649 A CN112464649 A CN 112464649A
Authority
CN
China
Prior art keywords
pinyin
text
polyphone
speech
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011339562.0A
Other languages
English (en)
Inventor
李俊杰
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011339562.0A priority Critical patent/CN112464649A/zh
Publication of CN112464649A publication Critical patent/CN112464649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能技术领域,提供一种多音字的拼音转换方法、装置、计算机设备和存储介质,获取用户输入的文本,并对文本进行分词,得到多个分词文本;对分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;若分词文本存在多音字,则获取多音字所在的目标短句;根据目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;所述正确拼音与所述初始拼音不一致时,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音。本申请中针对多音字的拼音转换时,基于该多音字所在短句的所有分词文本的词性,获取对应的正确拼音,使得转换得到的拼音更加准确。

Description

多音字的拼音转换方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种多音字的拼音转换方法、装置、计算机设备和存储介质。
背景技术
目前,目前市场上大部分TTS(TextToSpeech,从文本到语音)系统都有一个前端处理模块,该前端处理模块主要负责文本处理工作,包括标点处理、数字清洗、文本转拼音、英语转音素等。
上述前端处理模块决定了TTS系统的发音准确性,如果拼音标错,必然导致TTS系统生成语音时的拼音有误。在文本转拼音的过程中,大部分多音字拼音存在发音不准确问题。一些语音合成助手采用同音字来解决多音字拼音问题,但是这种情况需要很大的字典来匹配及转换多音字,必须要对原文本进行文字替换,即需要修改原文本,这个工作需要提前知悉多音字情况并用相应的汉字进行替换,匹配非常耗时,响应时间成为一个十分严重的问题。
采用深度模型进行训练,可以直接将文本转拼音,然而这需要耗费大量的时间在文本标注上,比如对原文本进行拼音标注,但对于多音字仍需要人工进行校验。此外,深度模型所需的语料非常大,语料的收集是一件十分困难的工作,要考虑到具体的应用领域场景去收集,否则如果语料涉及的领域太泛,模型很难做到某个场景下比较高的准确性。
发明内容
本申请的主要目的为提供一种多音字的拼音转换方法、装置、计算机设备和存储介质,旨在克服目前多音字转换为拼音时发音不准确的缺陷。
为实现上述目的,本申请提供了一种多音字的拼音转换方法,包括以下步骤:
获取用户输入的文本,并对所述文本进行分词,得到多个分词文本;其中,所述分词文本包括词和/字;
对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;
判断各个所述分词文本是否存在多音字;
若存在,则获取所述多音字所在的目标短句;
根据所述目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;其中,预设的语法规则库中配置有语法规则,所述语法规则包括多音字在语法规则中作为不同词性时的拼音;
判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音。
进一步地,所述对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性的步骤,包括:
根据最大正向匹配算法与预设字典,将所述分词文本转换为对应的初始拼音;其中,预设字典中包括文本与拼音的对应关系;
根据预设的词性标注算法,对所述分词文本进行词性识别,得到所述分词文本对应的词性;其中所述预设的词性标注算法包括jieba、Hanlp、NLP算法中任意一种。
进一步地,所述获取所述多音字所在的目标短句的步骤,包括:
针对所述文本,从左往右识别所述多音字后的第一个标点符号,作为结束标点;
从右往左识别所述多音字前是否包括标点符号;
若包括标点符号,则将多音字前识别到的第一个标点符号作为起始标点,将所述起始标点与所述结束标点之间的文本构成的短句作为所述多音字所在的目标短句;
若不包括标点符号,则将所述结束标点前的文本构成的短句作为所述多音字所在的目标短句。
进一步地,所述判断各个所述分词文本是否存在多音字的步骤,包括:
在预设的多音字数据集中匹配所述分词文本,以识别所述分词文本是否为多音字;其中,所述多音字数据集为存储多音字的数据集。
进一步地,所述判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音的步骤之后,包括:
获取对所述文本的韵律层级划分;
根据所述文本的正确转换拼音以及所述文本的韵律层级划分,将所述文本转换为对应的语音。
进一步地,所述获取对所述文本的韵律层级划分的步骤,包括:
将分词后的所述文本输入至预设的条件随机场模型中,得到所述文本中每个分词文本的韵律层级标签;其中,所述条件随机场模型中包括特征函数,所述特征函数用于分别统计每个分词文本的上下文的词性结构、文本结构,根据所述词性结构、文本结构确定每个分词文本的韵律层级标签;
根据所述文本中每个分词文本的韵律层级标签对所述文本进行韵律层级划分。
进一步地,所述将所述文本转换为对应的语音的步骤,包括:
获取所述正确转换拼音中的每个音子;
按照所述音子在所述正确转换拼音中的顺序,获取每个所述音字对应的帧;
根据每个帧对应的音子,获取每个帧对应的线性谱;
按照所述帧的顺序,将每个帧对应的线性谱进行组合,得到所述文本对应的初始语音;
根据所述韵律层级划分,对所述初始语音进行停顿级别划分,并根据所述停顿级别,对所述初始语音进行修正,得到所述文本对应的语音。
本申请还提供了一种多音字的拼音转换装置,包括:
分词单元,用于获取用户输入的文本,并对所述文本进行分词,得到多个分词文本;其中,所述分词文本包括词和/字;
转换单元,用于对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;
判断单元,用于判断各个所述分词文本是否存在多音字;
短句获取单元,用于若存在,则获取所述多音字所在的目标短句;
匹配单元,用于根据所述目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;其中,预设的语法规则库中配置有语法规则,所述语法规则包括多音字在语法规则中作为不同词性时的拼音;
修正单元,用于判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本转换的正确拼音。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的多音字的拼音转换方法、装置、计算机设备和存储介质,获取用户输入的文本,并对所述文本进行分词,得到多个分词文本;对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;若分词文本存在多音字,则获取多音字所在的目标短句;根据所述目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;其中,预设的语法规则库中配置有语法规则,所述语法规则包括多音字在语法规则中作为不同词性时的拼音;所述正确拼音与所述初始拼音不一致时,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音。本申请中针对多音字的拼音转换时,基于该多音字所在短句的所有分词文本的词性,获取对应的正确拼音,使得转换得到的拼音更加准确。
附图说明
图1是本申请一实施例中多音字的拼音转换方法步骤示意图;
图2是本申请一实施例中多音字的拼音转换装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种多音字的拼音转换方法,包括以下步骤:
步骤S1,获取用户输入的文本,并对所述文本进行分词,得到多个分词文本;其中,所述分词文本包括词和/字;
步骤S2,对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;
步骤S3,判断各个所述分词文本是否存在多音字;
步骤S4,若存在,则获取所述多音字所在的目标短句;
步骤S5,根据所述目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;其中,预设的语法规则库中配置有语法规则,所述语法规则包括多音字在语法规则中作为不同词性时的拼音;
步骤S6,判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音。
在本实施例中,上述方法应用于TTS系统中的拼音转换,实现将文本转换为正确的拼音。当文本中出现多音字时,无需采用同音字替换的方式修改文本。上述方法还可以应用于智慧城市领域中,以推动智慧城市的建设。
如上述步骤S1所述的,上述文本为用户在终端上输入的文本,为了对其进行语音转换,需要先将其转换为对应的拼音;而在转换拼音时,由于同一个字在不同的词语中的拼音可能不同,若直接将单个字转换成对应的拼音,则可能造成一个完整的词语被拆分时,造成读音不正确。因此,在本实施例中,对上述文本进行分词处理,得到多个分词文本;其中,所述分词文本包括词和/字。例如,对于文本“今天你为家人节省了电费”,进行分词后得到的结果是“今天、你、为、家人、节省、了、电费”。
如上述步骤S2所述的,对上述分词文本进行拼音转换时,根据最大正向匹配算法与预设字典,将所述分词文本转换为对应的初始拼音;其中,预设字典中包括文本与拼音的对应关系。对上述分词文本进行词性标注时,则采用预设的词性标注算法,得到所述分词文本对应的词性;其中所述预设的词性标注算法包括jieba、Hanlp、NLP算法中任意一种。
上述转换得到的初始拼音中由于一些文字是多音字,因此读音不一定完全正确,需要对其进行修正。
如上述步骤S3所述的,在预设的多音字数据集中匹配所述分词文本,以识别所述分词文本是否为多音字;其中,所述多音字数据集为存储多音字的数据集。若上述分词文本中不包括多音字,则可以判定上述初始拼音即是正确拼音;若上述分词文本中包括多音字,则上述初始拼音不一定准确。
如上述步骤S4所述的,若上述分词文本中包括多音字,则获取所述多音字所在的目标短句,上述目标短句为上述包括多音字的分词文本所在的句子。
如上述步骤S5所述的,上述预设的语法规则库中配置有中文语法的语法规则,在该语法规则中配置有多音字在语法规则中作为不同词性时的拼音,因此,只需要获取上述目标短句中所有分词文本的词性,并根据该词性,便可以从上述语法规则库中获取到上述多音字的正确拼音。
例如,上述目标短句为“今天你为家人节省了电费!”,对应分词以及词性为“今天/t,你/rr,为/p,家人/n,节省/v,了/ule,电费/n,!/w”,在上述目标短句中,t表示时间,rr标识主语,p表示介词,n表示名词,ule表示了,w表示标点符号。其中,基于多音字数据集可以确定,为”是多音字;基于词性识别可知,在该目标短句中,“为”字是介词。
在预设的语法规则库中,“为”作为介词位于动词之前要读“wei4”,即四声,根据该语法规则库以及“为”所在目标短句中上下文的词性,可以判断出上述“为”在本句中的正确读音是“wei4”,读第四声。
如上述步骤S6所述的,若上述初始拼音与正确拼音一致,则表明其正确无误,不需要修正;若不一致,则需要将初始拼音修正为所述正确拼音。在修正上述多音字的拼音之后,则可以得到所述文本的正确转换拼音。本申请中,针对多音字的拼音转换时,基于该多音字所在短句的所有分词文本的词性,获取对应的正确拼音,使得转换得到的拼音更加准确。且不需要对多音字进行同音字的修改,无需修改原文本,在转换得到正确的拼音时,响应速度得到提升。
在一实施例中,所述获取所述多音字所在的目标短句的步骤S4,包括:
针对所述文本,从左往右识别所述多音字后的第一个标点符号,作为结束标点;
从右往左识别所述多音字前是否包括标点符号;
若包括标点符号,则将多音字前识别到的第一个标点符号作为起始标点,将所述起始标点与所述结束标点之间的文本构成的短句作为所述多音字所在的目标短句;
若不包括标点符号,则将所述结束标点前的文本构成的短句作为所述多音字所在的目标短句。
在本实施中,上述文本中可以包括多个短句,上述多音字可能出现在任意一个短句中,本实施例中,只需要对多音字所在的短句进行处理。因此,需要识别出上述多音字所在的目标短句。
可以理解的是,上述目标短句可能是上述文本的第一句,也可能是上述文本中的中间一句。若上述目标短句为上述文本的第一句时,则上述多音字之前不存在标点符号,此时,将上述结束标点前的文本构成的短句作为上述目标短句;若上述目标短句为上述文本的中间一句时,则上述多音字之前可以存在标点符号,此时,将多音字之前的第一个标点与多音字之后的第一个标点之间的文本构成的短句作为上述目标短句。
在一实施例中,所述判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音的步骤S6之后,包括:
步骤S7,获取对所述文本的韵律层级划分;
步骤S8,根据所述文本的正确转换拼音以及所述文本的韵律层级划分,将所述文本转换为对应的语音。
在本实施例中,所述获取对所述文本的韵律层级划分的步骤S7,包括:
将分词后的所述文本输入至预设的条件随机场模型中,得到所述文本中每个分词文本的韵律层级标签;其中,所述条件随机场模型中包括特征函数,所述特征函数用于分别统计每个分词文本的上下文的词性结构、文本结构,根据所述词性结构、文本结构确定每个分词文本的韵律层级标签;
根据所述文本中每个分词文本的韵律层级标签对所述文本进行韵律层级划分。
在本实施例中,上述条件随机场模型统计每个分词文本的上下文的词性结构,根据所述词性结构确定每个分词文本的韵律层级标签。例如,一个具体实施例中,韵律层级标签包括0、1、2、3、5;针对文本“今天/t,你/rr,为/p,家人/n,节省/v,了/ule,电费/n,!/w”,若直接根据该词性标注进行韵律层级划分,则对应的韵律层级标签为“今/5天/1你/1为/1家/5人/1节5省/1了/0电/5费/3”,其中“0”“1”,“2”,“3”分别表示第一、二、三、四韵律层级,“5”表示在对应的字后面没有韵律层级划分。可以理解的是,按照此方式进行划分,则会造成划分粒度过细,而由正常的语音发音可知,上述文本中“节省了”之间不应当进行韵律层级划分,即不需要任何停顿。因此,本实施例中,采用上述条件随机场模型,基于文本每个分词的词性,获取每个词的上下文的词,并获取其词性结构、文本结构;进而根据该词性结构在条件随机场模型中对应的韵律层级标签,对上述文本进行韵律层级标签的预测。最终则可以预测得到上述文本的韵律层级标签为:“今/5天/1你/1为/1家/5人/1节5省/5了/0电/5费/3”。根据上述文本中每个分词的韵律层级标签,则可以对所述文本进行韵律层级划分。即可以获取到上述文本中每个分词在转换成语音时,是否需要停顿,若需要停顿,则根据韵律层级标签获取停顿层级。
在一实施例中,上述预设的条件随机场模型的训练过程包括:
a,获取训练数据集;其中,所述训练数据包括多个训练文本,所述训练文本携带有训练文本中每个分词的词性,以及每个分词的韵律层级标签;
b,将所述训练文本输入至初始条件随机场模型中进行训练,得到所述预设的条件随机场模型;其中,所述初始条件随机场模型中包括特征模板,所述特征模板用于分别统计所述训练文本中每个分词的上下文的词性结构、文本结构,并根据所述词性结构、文本结构以及训练样本中每个分词的韵律层级标签,确定所述特征模板中的模型参数,以得到所述特征函数。
在本实施例中,条件随机场中特征函数的构造有很多的方法,常用的方法是先构造上述特征模板,然后通过训练数据构造对应的模型函数,从而得到上述上述特征函数。这种方式构造的特征函数较为简单,并且参数数量相较于神经网络的方法少,训练速度也会更快。得到上述特征函数之后,则可以利用上述条件随机场模型进行文本的韵律层级标签的预测。
其中,上述训练文本包括三列:
其中,第一列为所述训练文本中每个词的竖向排列,第二列为所述训练文本每个词对应的词性,第三列为所述训练文本中每个词对应的韵律层级标签。
在本实施例中,所述初始条件随机场模型中包括的特征模板为:
Figure BDA0002798214810000091
Figure BDA0002798214810000092
Figure BDA0002798214810000093
其中,xi,1表示训练样本中第i行第2列的数据,wi-a表示对应的词性,mi-a表示对应的文本;a、b分别表示上下文文字的范围;n为预设的超参数,yi为文字对应的韵律层级标签。上述训练文本为x,对应于第j列特征的第i行为xij
公式(1)表示当某种词性结构结构出现的次数大于n次的情况下这个函数返回1,否则返回0。例如当a=1,b=1的时候表示考虑了上下文以及当前词性,共三个范围,比如“xi-1,1=名词,xi,1=名词,xi+1,1=动词,yi=#1”这种词性结构下,在训练数据中出现次数大于n,我们可以通过函数模板(1)定义一个函数,该函数在满足“xi-1,1=名词,xi,1=名词,xi+1,1=动词,yi=#1”的情况下返回1,否则返回0。基于上述训练文本以及上述特征模板,则可以训练得到对应的模型参数。
公式(2)和公式(1)类似,区别在于它考虑的是文本本身的文本结构。公式(3)定义为预测的上一个韵律层级标签对当前韵律层级标签的影响。
上述特征模板中不仅引入了词性结构特征,而且还结合了训练数据的文本结构特性,将文本本身的信息与词性的信息相结合能够使得韵律层级的划分更为合理,构造的特征函数就能够充分利用文本上下文信息以及词性的变化和分词的信息。相较于目前基于神经网络的方法,在时间复杂度,模型复杂度以及训练的数据量上都会小很多。
在一实施例中,所述将所述文本转换为对应的语音的步骤S8,包括:
步骤S81,获取所述正确转换拼音中的每个音子;例如一个文本为“你是谁”,则对应的拼音文本为“nishishei”,对应的音子则为n,i,sh,i,sh,ei,对应的,上述音子中还包括上述拼音的声调。
步骤S82,按照所述音子在所述正确转换拼音中的顺序,获取每个所述音字对应的帧;即n,i,sh,i,sh,ei分别对应一个帧。
步骤S83,根据每个帧对应的音子,获取每个帧对应的线性谱;
步骤S84,按照所述帧的顺序,将每个帧对应的线性谱进行组合,得到所述文本对应的初始语音;每个音子对应一个线性谱,将所有音子对应的线性谱,则可以得到上述文本对应的语音,该语音中没有包括文本的韵律,是由文本直接转换得来。因此需要根据文本的韵律,对上述初始语音进行修正,即确定上述初始语音中不同读音之间的停顿,上述停顿为停顿级别,包括停顿时间。
步骤S85,根据所述韵律层级划分,对所述初始语音进行停顿级别划分,并根据所述停顿级别,对所述初始语音进行修正,得到所述文本对应的语音。
在一实施例中,所述方法还包括:
将所述预设的语法规则库、文本存储于区块链中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
参照图2,本申请一实施例中还提供了一种多音字的拼音转换装置,包括:
分词单元10,用于获取用户输入的文本,并对所述文本进行分词,得到多个分词文本;其中,所述分词文本包括词和/字;
转换单元20,用于对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;
判断单元30,用于判断各个所述分词文本是否存在多音字;
短句获取单元40,用于若存在,则获取所述多音字所在的目标短句;
匹配单元50,用于根据所述目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;其中,预设的语法规则库中配置有语法规则,所述语法规则包括多音字在语法规则中作为不同词性时的拼音;
修正单元60,用于判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本转换的正确拼音。
在一实施例中,上述转换单元20,具体用于:
根据最大正向匹配算法与预设字典,将所述分词文本转换为对应的初始拼音;其中,预设字典中包括文本与拼音的对应关系;
根据预设的词性标注算法,对所述分词文本进行词性识别,得到所述分词文本对应的词性;其中所述预设的词性标注算法包括jieba、Hanlp、NLP算法中任意一种。
在一实施例中,上述短句获取单元40,具体用于:
针对所述文本,从左往右识别所述多音字后的第一个标点符号,作为结束标点;
从右往左识别所述多音字前是否包括标点符号;
若包括标点符号,则将多音字前识别到的第一个标点符号作为起始标点,将所述起始标点与所述结束标点之间的文本构成的短句作为所述多音字所在的目标短句;
若不包括标点符号,则将所述结束标点前的文本构成的短句作为所述多音字所在的目标短句。
在一实施例中,上述判断单元30,具体用于:
在预设的多音字数据集中匹配所述分词文本,以识别所述分词文本是否为多音字;其中,所述多音字数据集为存储多音字的数据集。
在一实施例中,上述装置,还包括:
划分单元,用于获取对所述文本的韵律层级划分;
语音转换单元,用于根据所述文本的正确转换拼音以及所述文本的韵律层级划分,将所述文本转换为对应的语音。
在一实施例中,上述划分单元,具体包括:
将分词后的所述文本输入至预设的条件随机场模型中,得到所述文本中每个分词文本的韵律层级标签;其中,所述条件随机场模型中包括特征函数,所述特征函数用于分别统计每个分词文本的上下文的词性结构、文本结构,根据所述词性结构、文本结构确定每个分词文本的韵律层级标签;
根据所述文本中每个分词文本的韵律层级标签对所述文本进行韵律层级划分。
在一实施例中,上述语音转换单元,具体用于:
获取所述正确转换拼音中的每个音子;
按照所述音子在所述正确转换拼音中的顺序,获取每个所述音字对应的帧;
根据每个帧对应的音子,获取每个帧对应的线性谱;
按照所述帧的顺序,将每个帧对应的线性谱进行组合,得到所述文本对应的初始语音;
根据所述韵律层级划分,对所述初始语音进行停顿级别划分,并根据所述停顿级别,对所述初始语音进行修正,得到所述文本对应的语音。
在本实施例中,上述装置实施例中各个单元的具体实现,请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本、拼音等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多音字的拼音转换方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种多音字的拼音转换方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的多音字的拼音转换方法、装置、计算机设备和存储介质,获取用户输入的文本,并对所述文本进行分词,得到多个分词文本;对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;若分词文本存在多音字,则获取多音字所在的目标短句;根据所述目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;其中,预设的语法规则库中配置有语法规则,所述语法规则包括多音字在语法规则中作为不同词性时的拼音;所述正确拼音与所述初始拼音不一致时,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音。本申请中针对多音字的拼音转换时,基于该多音字所在短句的所有分词文本的词性,获取对应的正确拼音,使得转换得到的拼音更加准确。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种多音字的拼音转换方法,其特征在于,包括以下步骤:
获取用户输入的文本,并对所述文本进行分词,得到多个分词文本;其中,所述分词文本包括词和/字;
对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;
判断各个所述分词文本是否存在多音字;
若存在,则获取所述多音字所在的目标短句;
根据所述目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;其中,预设的语法规则库中配置有语法规则,所述语法规则包括多音字在语法规则中作为不同词性时的拼音;
判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音。
2.根据权利要求1所述的多音字的拼音转换方法,其特征在于,所述对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性的步骤,包括:
根据最大正向匹配算法与预设字典,将所述分词文本转换为对应的初始拼音;其中,预设字典中包括文本与拼音的对应关系;
根据预设的词性标注算法,对所述分词文本进行词性识别,得到所述分词文本对应的词性;其中,所述预设的词性标注算法包括jieba、Hanlp、NLP算法中任意一种。
3.根据权利要求1所述的多音字的拼音转换方法,其特征在于,所述获取所述多音字所在的目标短句的步骤,包括:
针对所述文本,从左往右识别所述多音字后的第一个标点符号,作为结束标点;
从右往左识别所述多音字前是否包括标点符号;
若包括标点符号,则将多音字前识别到的第一个标点符号作为起始标点,将所述起始标点与所述结束标点之间的文本构成的短句作为所述多音字所在的目标短句;
若不包括标点符号,则将所述结束标点前的文本构成的短句作为所述多音字所在的目标短句。
4.根据权利要求1所述的多音字的拼音转换方法,其特征在于,所述判断各个所述分词文本是否存在多音字的步骤,包括:
在预设的多音字数据集中匹配所述分词文本,以识别所述分词文本是否为多音字;其中,所述多音字数据集为存储多音字的数据集。
5.根据权利要求1所述的多音字的拼音转换方法,其特征在于,所述判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本的正确转换拼音的步骤之后,包括:
获取对所述文本的韵律层级划分;
根据所述文本的正确转换拼音以及所述文本的韵律层级划分,将所述文本转换为对应的语音。
6.根据权利要求5所述的多音字的拼音转换方法,其特征在于,所述获取对所述文本的韵律层级划分的步骤,包括:
将分词后的所述文本输入至预设的条件随机场模型中,得到所述文本中每个分词文本的韵律层级标签;其中,所述条件随机场模型中包括特征函数,所述特征函数用于分别统计每个分词文本的上下文的词性结构、文本结构,根据所述词性结构、文本结构确定每个分词文本的韵律层级标签;
根据所述文本中每个分词文本的韵律层级标签对所述文本进行韵律层级划分。
7.根据权利要求5所述的多音字的拼音转换方法,其特征在于,所述将所述文本转换为对应的语音的步骤,包括:
获取所述正确转换拼音中的每个音子;
按照所述音子在所述正确转换拼音中的顺序,获取每个所述音字对应的帧;
根据每个帧对应的音子,获取每个帧对应的线性谱;
按照所述帧的顺序,将每个帧对应的线性谱进行组合,得到所述文本对应的初始语音;
根据所述韵律层级划分,对所述初始语音进行停顿级别划分,并根据所述停顿级别,对所述初始语音进行修正,得到所述文本对应的语音。
8.一种多音字的拼音转换装置,其特征在于,包括:
分词单元,用于获取用户输入的文本,并对所述文本进行分词,得到多个分词文本;其中,所述分词文本包括词和/字;
转换单元,用于对所述分词文本分别进行拼音转换以及词性识别,得到各个分词文本对应的初始拼音以及词性;
判断单元,用于判断各个所述分词文本是否存在多音字;
短句获取单元,用于若存在,则获取所述多音字所在的目标短句;
匹配单元,用于根据所述目标短句中所有分词文本的词性,在预设的语法规则库中匹配所述多音字在所述目标短句中的正确拼音;其中,预设的语法规则库中配置有语法规则,所述语法规则包括多音字在语法规则中作为不同词性时的拼音;
修正单元,用于判断所述正确拼音与所述初始拼音是否一致;若不一致,则将所述初始拼音修正为所述正确拼音,以得到所述文本转换的正确拼音。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011339562.0A 2020-11-25 2020-11-25 多音字的拼音转换方法、装置、计算机设备和存储介质 Pending CN112464649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011339562.0A CN112464649A (zh) 2020-11-25 2020-11-25 多音字的拼音转换方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011339562.0A CN112464649A (zh) 2020-11-25 2020-11-25 多音字的拼音转换方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112464649A true CN112464649A (zh) 2021-03-09

Family

ID=74807903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011339562.0A Pending CN112464649A (zh) 2020-11-25 2020-11-25 多音字的拼音转换方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112464649A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707503A (zh) * 2022-02-14 2022-07-05 慧言科技(天津)有限公司 基于多任务学习的前端文本分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707503A (zh) * 2022-02-14 2022-07-05 慧言科技(天津)有限公司 基于多任务学习的前端文本分析方法

Similar Documents

Publication Publication Date Title
US11941366B2 (en) Context-based multi-turn dialogue method and storage medium
CN111247581B (zh) 一种多语言文本合成语音方法、装置、设备及存储介质
KR100277694B1 (ko) 음성인식시스템에서의 발음사전 자동생성 방법
EP1037195A2 (en) Generation and synthesis of prosody templates
CN111145718A (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN111611810A (zh) 一种多音字读音消歧装置及方法
CN113297366B (zh) 多轮对话的情绪识别模型训练方法、装置、设备及介质
Qian et al. Capturing L2 segmental mispronunciations with joint-sequence models in computer-aided pronunciation training (CAPT)
CN110808049B (zh) 语音标注文本修正方法、计算机设备和存储介质
CN111223476A (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN111164674B (zh) 语音合成方法、装置、终端及存储介质
CN112530404A (zh) 一种语音合成方法、语音合成装置及智能设备
CN113178188B (zh) 语音合成方法、装置、设备及存储介质
CN112800748B (zh) 适用于多音字的音素预测方法、装置、设备及存储介质
CN112464649A (zh) 多音字的拼音转换方法、装置、计算机设备和存储介质
CN113255343A (zh) 标签数据的语义识别方法、装置、计算机设备及存储介质
Lee Reading machine: From text to speech
Hadj Ali et al. DNN-based grapheme-to-phoneme conversion for Arabic text-to-speech synthesis
CN112463921B (zh) 韵律层级划分方法、装置、计算机设备和存储介质
Rajendran et al. A robust syllable centric pronunciation model for Tamil text to speech synthesizer
CN111898339A (zh) 基于约束解码的古诗生成方法、装置、设备及介质
CN114444492A (zh) 一种非标准词类判别方法及计算机可读存储介质
CN111816171B (zh) 语音识别模型的训练方法、语音识别方法及装置
Shreekanth et al. Duration modelling using neural networks for Hindi TTS system considering position of syllable in a word
Wiemerslage et al. Phonological features for morphological inflection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination