CN110619112A - 用于汉字的读音标注方法、装置、电子设备及存储介质 - Google Patents
用于汉字的读音标注方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110619112A CN110619112A CN201910733674.5A CN201910733674A CN110619112A CN 110619112 A CN110619112 A CN 110619112A CN 201910733674 A CN201910733674 A CN 201910733674A CN 110619112 A CN110619112 A CN 110619112A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- labeling
- chinese characters
- model
- alternative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000002372 labelling Methods 0.000 claims abstract description 79
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 description 6
- 235000012054 meals Nutrition 0.000 description 6
- 235000003140 Panax quinquefolius Nutrition 0.000 description 5
- 240000005373 Panax quinquefolius Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 208000027697 autoimmune lymphoproliferative syndrome due to CTLA4 haploinsuffiency Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 101150035983 str1 gene Proteins 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例公开一种用于汉字的读音标注方法、装置、电子设备及存储介质,涉及计算机技术领域,能够为汉字中的多音字进行高效准确的注音。所述方法包括:获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;通过所述读音标注模型,对目标语句标注读音。本发明适用于对中文的读音标注中。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于汉字的读音标注方法、装置、电子设备及存储介质。
背景技术
汉字注音是拼音输入法的基础。拼音输入法中预先设置有对常见汉字及词语的注音,当用户输入拼音时,能够从字库中调出该拼音对应的汉字或词语,从而完成输入。因此,对于拼音输入法来说,准确的汉字注音相当的重要,只有汉字的注音准确,才能在拼音输入中提供正确的汉字。
然而,由于汉字中存在大量的多音字,即一个汉字对应两种或两种以上读音,在汉字注音中,在一个具体语境下,常常难以确定为一个多音字标注哪个读音。如果注音错误,例如将“睡觉”注音成睡觉(shui jue),那么当用户打“shui jiao”的时候,永远不会出现正确结果。
相关技术中,对于多音字的注音,大多采用多音字白名单的解决方案。即,当遇到多音字时,按照多音字白名单中标注的读音对多音字进行读音标注。然而,由于名单枚举的有限性,常常导致汉字注音不够灵活、准确性差。
发明内容
有鉴于此,本发明实施例提供一种用于汉字的读音标注方法、装置、电子设备及存储介质,能够为汉字中的多音字进行高效准确的注音。
第一方面,本发明实施例提供一种用于汉字的读音标注方法,包括:获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;通过所述读音标注模型,对目标语句标注读音。
可选的,所述基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练包括:统计所述训练语料中,相邻汉字之间的搭配概率;根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数;根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练。
可选的,所述通过所述读音标注模型,对目标语句标注读音包括:对所述目标语句中的汉字初步标注读音,形成读音标注串,其中,所述目标语句中的每个多音字标注有对应的多个可选读音;基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;将所述多个备选标注串输入所述读音标注模型,以使所述读音标注模型对每个所述备选标注串打分;根据打分结果,选择其中一个备选标注串为所述目标语句标注读音。
可选的,所述目标语句中包括x个多音字,每个多音字具有y个可选读音,其中x为正整数,y为大于1的正整数;所述基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串包括:基于所述多音字的不同可选读音,利用所述读音标注串生成x×y个备选标注串。
可选的,所述根据打分结果,选择其中一个备选标注串为所述目标语句标注读音包括:根据所述读音标注模型对每个所述备选标注串的困惑度打分,选择困惑度打分最低的一个备选标注串为所述目标语句标注读音。
第二方面,本发明的实施例还提供一种用于汉字的读音标注装置,包括:获取单元,用于获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;训练单元,用于基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;标注单元,用于通过所述读音标注模型,对目标语句标注读音。
可选的,所述训练单元包括:统计模块,用于统计所述训练语料中,相邻汉字之间的搭配概率;推算模块,用于根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数;训练模块,用于根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练。
可选的,所述标注单元包括:第一标注模块,用于对所述目标语句中的汉字初步标注读音,形成读音标注串,其中,所述目标语句中的每个多音字标注有对应的多个可选读音;生成模块,用于基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;输入模块,用于将所述多个备选标注串输入所述读音标注模型,以使所述读音标注模型对每个所述备选标注串打分;第二标注模块,用于根据打分结果,选择其中一个备选标注串为所述目标语句标注读音。
可选的,所述目标语句中包括x个多音字,每个多音字具有y个可选读音,其中x为正整数,y为大于1的正整数;所述生成模块,具体用于基于所述多音字的不同可选读音,利用所述读音标注串生成x×y个备选标注串。
可选的,所述第二标注模块,具体用于根据所述读音标注模型对每个所述备选标注串的困惑度打分,选择困惑度打分最低的一个备选标注串为所述目标语句标注读音。
第三方面,本发明的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本发明的实施例提供的任一种用于汉字的读音标注方法。
第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本发明的实施例提供的任一种用于汉字的读音标注方法。
本发明的实施例提供的用于汉字的读音标注方法、装置、电子设备及存储介质,能够获取训练语料,基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型,通过所述读音标注模型,对目标语句标注读音。由于训练语料中的汉字标注有规范读音,对于其中的多音字,也会标注有其对应的正确读音,这样,基于各条训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,就可以学习到一个多音字在每种语言环境中的读音的规律,并能够根据该规律预测汉字的读音,从而训练出一个读音标注模型,利用该读音标注模型对目标语句标注读音。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的实施例提供的用于汉字的读音标注方法的一种流程图;
图2为本发明的实施例提供的用于汉字的读音标注方法的一种详细流程图;
图3为本发明的实施例提供的用于汉字的读音标注装置的一种结构示意图;
图4为本发明的实施例提供的用于汉字的读音标注装置的一种局部结构示意图;
图5为本发明的实施例提供的用于汉字的读音标注装置的另一种局部结构示意图;
图6为本发明的实施例提供的电子设备的一种结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
第一方面,本发明的实施例提供一种用于汉字的读音标注方法,能够为汉字中的多音字进行高效准确的注音。
请参考图1,其示出了本申请一个实施例提供的用于汉字的读音标注方法的流程图。
如图1所示,本发明的实施例提供的用于汉字的读音标注方法可以包括:
S11,获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;
其中,训练语料可以指能够用来进行机器学习的、已做标记的训练样本。具体而言,在本发明的实施例中,训练语料可以为标注有规范读音的词句。例如,一个训练语料可以为:去(qu)吃(chi)饭(fan)吗(ma)。当训练语料中的汉字为多音字时,多音字的规范读音即一个多音字在该训练语料的具体语境中对应的正确读音,例如训练语料成都的规范读音应标注为“cheng du”,而不是“cheng dou”。
可选的,训练语料的来源可以多种多样,既可以来自用户输入的文字信息,也可以来自专门的文字数据库,还可以来自网络爬取的各种新闻和资料。例如,在本发明的一个实施例中,如果获取的文字信息中已经包括了文字及其对应的规范读音(例如百度百科中标注的规范读音,或教科书中标注的规范读音),则可以将文字信息分解为单独的语句分别存储,每个语句形成一条训练语料。
S12,基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;
具体的,训练语料可以为汉字提供具体的上下文环境,该上下文环境例如可以包括相邻汉字之间的搭配概率,多音字在这个环境中可以确定唯一正确的读音,即规范读音。
可以理解的,一个多音字在不同的上下文环境下可以具有不同的规范读音。例如,“否极泰来”中,“否”的规范读音为“pi”,“不要随便否定别人的成绩”中“否”的规范读音为“fou”。当使用大量的训练语料进行机器学习时,就可以根据每个汉字的规范读音以及相邻汉字之间的搭配概率,预测未注音汉字的规范读音,从而训练出读音标注模型。
S13,通过所述读音标注模型,对目标语句标注读音。
其中,目标语句即需要进行读音标注的字、词或句子,其中可以包括多音字。
本发明的实施例提供的用于汉字的读音标注方法,能够获取训练语料,基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型,通过所述读音标注模型,对目标语句标注读音。由于训练语料中的汉字标注有规范读音,对于其中的多音字,也会标注有其对应的正确读音,这样,基于各条训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,就可以学习到一个多音字在每种语言环境中的读音的规律,并能够根据该规律预测汉字的读音,从而训练出一个读音标注模型,利用该读音标注模型对目标语句标注读音。
具体而言,在步骤S11中可以通过各种方式获取大量的训练语料,然后在步骤S12中基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练。可选的,在本发明的一个实施例中,进行模型训练具体可以包括:
统计所述训练语料中,相邻汉字之间的搭配概率;
根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数,所述出现概率为存在前n-1个汉字的条件下,第n个汉字的各可选读音的条件概率;
根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练。
举例说明,在本发明的一个实施例中,训练语料包括:
L1、省-sheng长-zhang说-shuo
L2、正-zheng方-fang形-xing的-de边-bian长-chang
L3、发-fa人-ren深-shen省-xing
……
可以理解的,当训练语料的数量足够大时,可以通过众多训练语料得出相邻汉字之间的搭配概率,其中,如果几个汉字可以组成常见的短语或句式,则它们搭配出现的概率就会较大。例如,省-sheng长-zhang的搭配概率就比省-sheng长-chang的搭配概率要大。
本实施例中,L1、L2、L3中汉字和它对应的注音中是用短横线相连的,但本发明的实施例不限于此,在本发明的其他实施例中,汉字与其对应的注音之间还可以表现为其他形式。例如,在本发明的一个实施例中,训练语料例如可以为以下任一种形式:
为(wei)我(wo)盛(cheng)饭(fan)
为_wei我_wo盛_cheng饭_fan
为~wei我~wo盛~cheng饭~fan。
统计出相邻汉字之间的搭配概率后,可选的,在本发明的一个实施例中,可以利用N-Gram模型推算第n个汉字的各可选读音的出现概率。N-Gram模型是基于一个假设:第N个词出现与前N-1个词相关,而与其他任何词不相关(即隐马尔可夫假设)。整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3...wn组成,用公式表示N-Gram语言模型如下:
P(T)=P(w1)*p(w2)*p(w3)*...*p(wn)=p(w1)*p(w2|w1)*p(w3|w1w2)*...*p(wn|w1w2w3...) (1)
一般常用的N-Gram模型是Bi-Gram和Tri-Gram。分别用公式表示如下:
Bi-Gram:
P(T)=p(w1|begin)*p(w2|w1)*p(w3|w2)*……*p(wn|wn-1) (2)
Tri-Gram:
P(T)=p(w1|begin1,begin2)*p(w2|w1,begin1)*p(w3|w2w1)*...*p(wn|wn-1,wn-2)
(3)
其中,P(w1|begin)=以w1为开头的所有句子/句子总数;p(w2|w1)=w1,w2同时出现的次数/w1出现的次数。以此类推。
也即是说,在基于隐马尔可夫假设的情况下,可以根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字可以为多音字,n可以为大于1的整数,所述出现概率为存在前n-1个汉字的条件下,第n个汉字的各可选读音的条件概率。
例如,当令n=5时,L2中的“长”的读音可以根据其前面的5-1=4个汉字来推算,即根据“方-fang形-xing的-de边-bian”来确定“长”的读音为“chang”还是“zhang”。如果推算出读音为“chang”的概率比读音为“zhang”的概率大,则推算出L2中的“长”的读音为“chang”。由于本实施例的模型中约定任一汉字的读音都可以由其前面的4个汉字来确定,因此,可以根据已经统计出的前4个汉字之间的搭配概率来推算出汉字“长”的读音。
同样道理,n也可以为大于1的其他整数,例如,当n=2时,只需根据n的前一个字符来确定第n个汉字的读音。
可选的,在上述实施例中,如果某个稀少的词在当前的训练语料中没有出现,那么当包含这个词的句子,需要计算概率的时候,如果用直接的比值计算概率,大部分条件概率会为0,这种模型可以被称为“不平滑”。为了解决此问题,本发明的实施例可以采用平滑技术(smoothing)进行数据处理。平滑技术的基本思想为提高低概率,降低高概率。可选的,在本发明的实施例中,可以使用的平滑技术可以包括:加1法(additive smoothing)、减值法/折扣法(discounting)和插值法等。
其中,加1法是最简单直观的一种平滑算法,假设每个n元语法出现的次数比实际出现(训练集)的次数多一次。减值法/折扣法的基本思想是修改训练样本中事件的实际计数,使样本中(实际出现的)不同事件的概率之和小于1,剩余的概率量分配给未见概率。插值法可以设想对于一个trigram的模型,如果要统计语料库中“like chinese food”出现的次数,结果发现它没出现过,则计数为0。在回退策略中,将会试着用低阶gram来进行替代,例如可以使用“chinese food”出现的次数来替代。
计算出概率最高的可选读音后,根据模型算法,应该用该概率最高的可选读音为多音字注音,而该概率最高的可选读音恰恰就是训练语料已经被标注的规范读音。也就是说,通过将大量训练语料作为输入,并将标记的多音字的规范读音作为输出,使计算出的概率最高的可选读音与多音字的规范读音保持一致来进行模型训练,即可以得到读音标注模型。这样,当在步骤S13中需要对新的目标语句进行读音标注时,就可以利用训练得到的读音标注模型进行读音标注。
具体而言,在本发明的一个实施例中,步骤S13中通过所述读音标注模型,对目标语句标注读音可以包括:
对所述目标语句中的汉字初步标注读音,形成读音标注串,其中,所述目标语句中的每个多音字标注有对应的多个可选读音;
基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;
将所述多个备选标注串输入所述读音标注模型,以使所述读音标注模型对每个所述备选标注串打分;
根据打分结果,选择其中一个备选标注串为所述目标语句标注读音。
例如,在本发明的一个实施例中,需要进行读音标注的目标语句为“他总埋怨别人”。则可以利用汉字字典对目标语句中的每个汉字初步标注读音,形成读音标注串:他_ta总_zong埋_mai/man怨_yuan别_bie人_ren。基于多音字“埋”的不同读音,利用读音标注串生成备选标注串str1:他_ta总_zong埋_mai怨_yuan别_bie人_ren,以及str2:他_ta总_zong埋_man怨_yuan别_bie人_ren。接着将str1和str2都输入读音标注模型,利用读音标注模型对str1和str2分别打分,然后根据打分结果,选择使用strl还是使用str2来为目标语句“他总埋怨别人”注音。
进一步的,目标语句有时也会出现同一句话中出现多个多音字的情况,这种情况下,可以对各多音字的每种读音进行排列组合,其中每种排列组合形成一个备选标注串。
举例而言,在本发明的一个实施例中,所述目标语句中包括x个多音字,每个多音字具有y个可选读音,其中x为正整数,y为大于1的正整数;
所述基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串包括:
基于所述多音字的不同可选读音,利用所述读音标注串生成x×y个备选标注串。
例如,在本发明的一个实施例中,目标语句为“他总埋怨单老师”,其中有“埋”和“单”两个多音字,“埋”的读音包括“man”和“mai”,“单”的读音包括“dan”和“shan”,则可以形成4个备选标注串,即:
Str11他ta总zong埋man怨yuan单dan老lao师shi
Str22他ta总zong埋man怨yuan单shan老lao师shi
Str33他ta总zong埋mai怨yuan单dan老lao师shi
Str44他ta总zong埋mai怨yuan单shan老lao师shi
将这四个备选标注串分别输入读音预测模型后,读音预测模型可以对这四句话分别进行打分,根据打分结果,选择其中一个备选标注串为所述目标语句标注读音。可选的,具体的打分原则可以包括对每个所述备选标注串的困惑度打分,选择困惑度(Perplexity)打分最低的一个备选标注串为所述目标语句标注读音。其中,困惑度在语言模型中的物理意义可以描述为对于任意给定序列,下一个候选词的可选范围大小,困惑度越小,说明语义越明确。
下面通过具体实施例对本发明的实施例提供的用于汉字的读音标注方法进行详细说明。
如图2所示,本实施例提供的用于汉字的读音标注方法包括:
S201、网上爬取各种语料信息。
S202、将标注有规范读音的语料信息,逐句存储为训练语料;将未标注有规范读音的语料信息进行人工注音和校对,然后逐句存储为训练语料。
可选的,训练语料例如可以为以下形式:
为(wei)我(wo)盛(cheng)饭(fan)
盛-sheng情-qing难-nan却-que
河_he南_nan省_sheng副_fu省_sheng长_zhang
S203、统计所述训练语料中,相邻汉字之间的搭配概率;
例如,可以统计“盛(cheng)饭(fan)”在训练语料(例如5000个词语)中出现的次数(例如出现了13次),作为盛饭之间搭配出现的搭配概率。
S204、根据训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数,所述出现概率为存在前n-1个汉字的条件下,第n个汉字的各可选读音的条件概率;
例如,可以根据河_he南_nan,推算省_sheng和省_xing出现的概率,根据河_he南_nan省_sheng副_fu省_sheng,推算长_zhang和长_chang出现的概率。
S205、根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练,得到读音标注模型;
例如,假设统计出的“河南省”中省_sheng的概率为21/5000,省_xing的概率为1/5000,则确定“河南省”中的“省”的应该标注读音为“sheng”而不是“xing”。
S206、对目标语句中的汉字初步标注读音,形成读音标注串;
例如,目标语句为“去南京出差”,则读音标注串为“去-qu南-nan京-jing出-chu差-chai/cha”。
S207、基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;
例如生成多个备选标注串包括a、“去-qu南-nan京-jing出-chu差-chai”和b、“去-qu南-nan京-jing出-chu差-cha”。
S208、将多个备选标注串输入步骤S205中得到的读音标注模型;
S209、读音标注模型对每个备选标注串打分;
例如,读音标注模型分别a、“去-qu南-nan京-jing出-chu差-chai”和b、“去-qu南-nan京-jing出-chu差-cha”进行困惑度打分,假设a得分为105,b的得分为876。
S210、选择困惑度打分较低的备选标注串为目标语句注音。
即,选择备选标注串a为目标语句“去南京出差”标注读音。
第二方面,本发明的实施例还提供一种用于汉字的读音标注装置,能够为汉字中的多音字进行高效准确的注音。
如图3所示,本发明的实施例提供的用于汉字的读音标注装置,可以包括:
获取单元31,用于获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;
训练单元32,用于基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;
标注单元33,用于通过所述读音标注模型,对目标语句标注读音。
本发明的实施例提供的用于汉字的读音标注装置,能够获取训练语料,基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型,通过所述读音标注模型,对目标语句标注读音。由于训练语料中的汉字标注有规范读音,对于其中的多音字,也会标注有其对应的正确读音,这样,基于各条训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,就可以学习到一个多音字在每种语言环境中的读音的规律,并能够根据该规律预测汉字的读音,从而训练出一个读音标注模型,利用该读音标注模型对目标语句标注读音。
可选的,如图4所示,训练单元32可以包括:
统计模块321,用于统计所述训练语料中,相邻汉字之间的搭配概率;
推算模块322,用于根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数,所述出现概率为存在前n-1个汉字的条件下,第n个汉字的各可选读音的条件概率;
训练模块323,用于根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练。
可选的,如图5所示,标注单元33可以包括:
第一标注模块331,用于对所述目标语句中的汉字初步标注读音,形成读音标注串,其中,所述目标语句中的每个多音字标注有对应的多个可选读音;
生成模块332,用于基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;
输入模块333,用于将所述多个备选标注串输入所述读音标注模型,以使所述读音标注模型对每个所述备选标注串打分;
第二标注模块334,用于根据打分结果,选择其中一个备选标注串为所述目标语句标注读音。
可选的,所述目标语句中包括x个多音字,每个多音字具有y个可选读音,其中x为正整数,y为大于1的正整数;
生成模块332,具体可以用于基于所述多音字的不同可选读音,利用所述读音标注串生成x×y个备选标注串。
可选的,第二标注模块334,具体可以用于根据所述读音标注模型对每个所述备选标注串的困惑度打分,选择困惑度打分最低的一个备选标注串为所述目标语句标注读音。
第三方面,本发明的实施例还提供一种电子设备,能够为汉字中的多音字进行高效准确的注音。
如图6所示,本发明的实施例提供的电子设备,可以包括:壳体51、处理器52、存储器53、电路板54和电源电路55,其中,电路板54安置在壳体51围成的空间内部,处理器52和存储器53设置在电路板54上;电源电路55,用于为上述电子设备的各个电路或器件供电;存储器53用于存储可执行程序代码;处理器52通过读取存储器53中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一实施例提供的用于汉字的读音标注方法。
处理器52对上述步骤的具体执行过程以及处理器52通过运行可执行程序代码来进一步执行的步骤,可以参见前述实施例的描述,在此不再赘述。
上述电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子设备。
相应的,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例提供的任一种输入法的测试方法,因此也能实现相应的技术效果,前文已经进行了详细说明,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种用于汉字的读音标注方法,其特征在于,包括:
获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;
基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;
通过所述读音标注模型,对目标语句标注读音。
2.根据权利要求1所述的方法,其特征在于,所述基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练包括:
统计所述训练语料中,相邻汉字之间的搭配概率;
根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数,所述出现概率为存在前n-1个汉字的条件下,第n个汉字的各可选读音的条件概率;
根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练。
3.根据权利要求1所述的方法,其特征在于,所述通过所述读音标注模型,对目标语句标注读音包括:
对所述目标语句中的汉字初步标注读音,形成读音标注串,其中,所述目标语句中的每个多音字标注有对应的多个可选读音;
基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;
将所述多个备选标注串输入所述读音标注模型,以使所述读音标注模型对每个所述备选标注串打分;
根据打分结果,选择其中一个备选标注串为所述目标语句标注读音。
4.根据权利要求3所述的方法,其特征在于,所述目标语句中包括x个多音字,每个多音字具有y个可选读音,其中x为正整数,y为大于1的正整数;
所述基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串包括:
基于所述多音字的不同可选读音,利用所述读音标注串生成x×y个备选标注串。
5.根据权利要求3所述的方法,其特征在于,所述根据打分结果,选择其中一个备选标注串为所述目标语句标注读音包括:
根据所述读音标注模型对每个所述备选标注串的困惑度打分,选择困惑度打分最低的一个备选标注串为所述目标语句标注读音。
6.一种用于汉字的读音标注装置,其特征在于,包括:
获取单元,用于获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;
训练单元,用于基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;
标注单元,用于通过所述读音标注模型,对目标语句标注读音。
7.根据权利要求6所述的装置,其特征在于,所述训练单元包括:
统计模块,用于统计所述训练语料中,相邻汉字之间搭配的搭配概率;
推算模块,用于根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数,所述出现概率为存在前n-1个汉字的条件下,第n个汉字的各可选读音的条件概率;
训练模块,用于根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练。
8.根据权利要求6所述的装置,其特征在于,所述标注单元包括:
第一标注模块,用于对所述目标语句中的汉字初步标注读音,形成读音标注串,其中,所述目标语句中的每个多音字标注有对应的多个可选读音;
生成模块,用于基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;
输入模块,用于将所述多个备选标注串输入所述读音标注模型,以使所述读音标注模型对每个所述备选标注串打分;
第二标注模块,用于根据打分结果,选择其中一个备选标注串为所述目标语句标注读音。
9.根据权利要求8所述的装置,其特征在于,所述目标语句中包括x个多音字,每个多音字具有y个可选读音,其中x为正整数,y为大于1的正整数;
所述生成模块,具体用于基于所述多音字的不同可选读音,利用所述读音标注串生成x×y个备选标注串。
10.根据权利要求8所述的装置,其特征在于,所述第二标注模块,具体用于根据所述读音标注模型对每个所述备选标注串的困惑度打分,选择困惑度打分最低的一个备选标注串为所述目标语句标注读音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910733674.5A CN110619112B (zh) | 2019-08-08 | 2019-08-08 | 用于汉字的读音标注方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910733674.5A CN110619112B (zh) | 2019-08-08 | 2019-08-08 | 用于汉字的读音标注方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619112A true CN110619112A (zh) | 2019-12-27 |
CN110619112B CN110619112B (zh) | 2024-03-05 |
Family
ID=68921843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910733674.5A Active CN110619112B (zh) | 2019-08-08 | 2019-08-08 | 用于汉字的读音标注方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619112B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967248A (zh) * | 2020-07-09 | 2020-11-20 | 深圳价值在线信息科技股份有限公司 | 拼音识别方法、装置、终端设备及计算机可读存储介质 |
CN112084752A (zh) * | 2020-09-08 | 2020-12-15 | 中国平安财产保险股份有限公司 | 基于自然语言的语句标注方法、装置、设备及存储介质 |
CN113011127A (zh) * | 2021-02-08 | 2021-06-22 | 杭州网易云音乐科技有限公司 | 文本注音方法及装置、存储介质和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000353159A (ja) * | 1999-06-11 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN109918619A (zh) * | 2019-01-07 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
CN109977361A (zh) * | 2019-03-01 | 2019-07-05 | 广州多益网络股份有限公司 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
-
2019
- 2019-08-08 CN CN201910733674.5A patent/CN110619112B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000353159A (ja) * | 1999-06-11 | 2000-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN109918619A (zh) * | 2019-01-07 | 2019-06-21 | 平安科技(深圳)有限公司 | 一种基于基础字典标注的发音标注方法和装置 |
CN109977361A (zh) * | 2019-03-01 | 2019-07-05 | 广州多益网络股份有限公司 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967248A (zh) * | 2020-07-09 | 2020-11-20 | 深圳价值在线信息科技股份有限公司 | 拼音识别方法、装置、终端设备及计算机可读存储介质 |
CN112084752A (zh) * | 2020-09-08 | 2020-12-15 | 中国平安财产保险股份有限公司 | 基于自然语言的语句标注方法、装置、设备及存储介质 |
CN112084752B (zh) * | 2020-09-08 | 2023-07-21 | 中国平安财产保险股份有限公司 | 基于自然语言的语句标注方法、装置、设备及存储介质 |
CN113011127A (zh) * | 2021-02-08 | 2021-06-22 | 杭州网易云音乐科技有限公司 | 文本注音方法及装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110619112B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI636452B (zh) | 語音識別方法及系統 | |
US8994660B2 (en) | Text correction processing | |
KR20210116379A (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN110286778B (zh) | 一种中文深度学习输入法、装置及电子设备 | |
CN110619112B (zh) | 用于汉字的读音标注方法、装置、电子设备及存储介质 | |
JP5379138B2 (ja) | 領域辞書の作成 | |
KR20100015958A (ko) | 멀티모드 다국어 입력기 | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
KR20100052461A (ko) | 단어 확률 결정 | |
Alshalabi et al. | Arabic light-based stemmer using new rules | |
CN109271641A (zh) | 一种文本相似度计算方法、装置及电子设备 | |
CN116186200B (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN110262674B (zh) | 一种基于拼音输入的汉字输入方法、装置及电子设备 | |
CN109524008A (zh) | 一种语音识别方法、装置及设备 | |
CN102929864A (zh) | 一种音字转换方法及装置 | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
CN114399772B (zh) | 样本生成、模型训练和轨迹识别方法、装置、设备和介质 | |
CN111859974A (zh) | 一种结合知识图谱的语义消歧方法和装置、智能学习设备 | |
CN109451347A (zh) | 一种特效制作方法、装置、终端及计算机可读存储介质 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
CN107168950B (zh) | 一种基于双语语义映射的事件短语学习方法及装置 | |
CN113626635A (zh) | 一种歌曲乐句划分方法、系统、电子设备及介质 | |
Gong et al. | Improved word list ordering for text entry on ambiguous keypads | |
CN111814433A (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
CN111428487A (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |