CN111078898A - 一种多音字标注方法、装置以及计算机可读存储介质 - Google Patents
一种多音字标注方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111078898A CN111078898A CN201911374465.2A CN201911374465A CN111078898A CN 111078898 A CN111078898 A CN 111078898A CN 201911374465 A CN201911374465 A CN 201911374465A CN 111078898 A CN111078898 A CN 111078898A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- polyphone
- word
- polyphones
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多音字标注方法、装置以及计算机可读存储介质,所述方法包括:获取多音字;将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;从歧义规则词库中获取对应于所述多音字的读音权重;根据所获取到的读音概率和读音权重,得到置信度;根据所得到的置信度,对所述多音字进行读音标注。通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多音字标注方法、装置以及计算机可读存储介质。
背景技术
当前的多音字读音获取方案,主要词典匹配获取。此方案系统考虑因素单一且对具有歧义或者固定搭配的短语,比如“为”、“得”等多音字,读音标注的准确度较低。
发明内容
本发明实施例提供了一种多音字标注方法、装置以及计算机可读存储介质,对多音字读音标注有着较高的准确率。
本发明一方面提供一种多音字标注方法,所述方法包括:获取多音字;将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;从歧义规则词库中获取对应于所述多音字的读音权重;根据所获取到的读音概率和读音权重,得到置信度;根据所得到的置信度,对所述多音字进行读音标注。
在一可实施方式中,所述从歧义规则词库中获取对应于所述多音字的读音权重,包括:判断所述歧义规则词库中是否包含所述多音字;若判定所述歧义规则词库中包含所述多音字,则从所述歧义规则词库中获取对应于所述多音字的读音权重。
在一可实施方式中,若判定所述歧义规则词库中未包含所述多音字,则选取概率最高的两个读音概率,并设置所述两个读音概率相同的读音权重;相应的,所述根据所获取到的读音概率和读音权重,得到置信度,包括:根据所选取的两个读音概率和所设置的读音权重,得到置信度。
在一可实施方式中,所述根据所获取到的读音概率和读音权重,得到置信度,包括:将所获取到的语音概率和读音权重,通过公式得到置信度,公式为:P=(p1*w1-p2*w2-…pn*wn)2*100(P∈(0~100)),其中P为置信度,p1、p2、…、pn为所述多音字对应的多个读音概率,w1、w2、…、wn为所述多音字对应的多个权重。
在一可实施方式中,所述根据所得到的置信度,对所述多音字进行读音标注,包括:判断所述置信度是否低于预设值;若判定所述置信度低于所述预设值,则从高频读音库搜索对应多音字的读音;将所述多音字标注所搜索到的读音。
在一可实施方式中,若判定所述置信度超过所述预设值,则从多个所述读音概率中选取最大读音概率;获取所述最大读音概率所对应的读音;将所述多音字标注为所获取的读音。
在一可实施方式中,所述获取多音字,包括:获取文本;对所获取的文本进行分词处理,得到多个分词;判断所得到的分词是否存在于多音字词库中;若判定所得到的分词存在于所述多音字词库中,则判定所述分词为多音字。
在一可实施方式中,在对所获取的文本进行分词处理,得到多个分词之后,所述方法还包括:利用读音字典对所述分词进行读音标注;判断所述分词和对应的读音标注是否存在于强规则词库中;若判定所述分词和对应的读音标注存在于所述强规则词库中,则将所述分词标注为由所述读音字典所标注的读音;若判定所述分词和对应的读音标注不存在于所述强规则词库中,则判断所述分词是否存在于多音字词库中。
本发明另一方面提供一种多音字标注装置,所述装置包括:多音字获取模块,用于获取多音字;读音概率获取模块,用于将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;读音权重获取模块,用于从歧义规则词库中获取对应于所述多音字的读音权重;置信度获取模块,用于根据所获取到的读音概率和读音权重,得到置信度;读音标注模块,用于根据所得到的置信度,对所述多音字进行读音标注。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行多音字标注方法。
在本发明实施例中,通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种多音字标注方法的实现流程示意图;
图2为本发明实施例一种多音字标注方法的具体实现流程框图
图3为本发明实施例一种多音字标注装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种多音字标注方法的实现流程示意图。
如图1所示,本发明一方面提供一种多音字标注方法,方法包括:
步骤101,获取多音字;
步骤102,将所获取的多音字作为预测模型的输入,得到多个对应于多音字的读音概率;
步骤103,从歧义规则词库中获取对应于多音字的读音权重;
步骤104,根据所获取到的读音概率和读音权重,得到置信度;
步骤105,根据所得到的置信度,对多音字进行读音标注。
本实施例中,首先获取到多音字,接着将所获取的多音字输入于预测模型中,得到多个对应于多音字的读音概率。其中,预测模型为已训练的统计模型或者神经网络模型,其中,神经网络模型大致的训练过程如下:
将训练语料(多音字)和对应训练语料的真实值(语音)输入于神经网络模型,得到对应的结果;
将所得到的结果与真实值通过损失函数得到损失值,根据损失值反复训练神经网络模型,直到损失值在指定范围内为止,模型训练完成。
接着从歧义规则词库中获取对应于该多音字的读音权重,其中,歧义规则词库中存有大量的高频多音字、读音标注以及读音权重,读音权重的获取方式可以是通过大量语料进行ngram(语言模型)统计。
接着根据所得到的读音概率和读音权重,得到一个置信度,最后根据置信度,对多音字进行读音标注。
由此,通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。
在一可实施方式中,获取多音字,包括:
获取文本;
对所获取的文本进行分词处理,得到多个分词;
判断所得到的分词是否存在于多音字词库中;
若判定所得到的分词存在于多音字词库中,则判定分词为多音字。
本实施例中,获取多音字的具体过程为:
首先获取文本,获取方式可以从线上获取,也可以人工撰写。接着通过现有的分词工具(比如NLPIR分词系统、THULAC、SnowNLP等)得到多个分词,然后判断所得到的分词是否存在于多音字词库中,其中多音字词库中至少包括所有的高频多音字。若判定多音字词库中存在该分词,则判定该分词为多音字。
在一可实施方式中,在对所获取的文本进行分词处理,得到多个分词之后,方法还包括:
利用读音字典对分词进行读音标注;
判断分词和对应的读音标注是否存在于强规则词库中;
若判定分词和对应的读音标注存在于强规则词库中,则将分词标注为由读音字典所标注的读音;
若判定分词和对应的读音标注不存在于强规则词库中,则判断分词是否存在于多音字词库中。
本实施例中,对所获取的文本进行分词处理,得到多个分词之后,利用读音字典对每个分词进行读音标注,接着判断每个分词以及对应的读音标注是否存在于强规则词库中,其中强规则词库中预先存有多音字以及对应的读音标注,若判定强规则词库中存在该分词和对应的读音标注,则将读音字典所标注的读音设为最终的读音。若判定分词和对应的读音标注不存在于强规则词库中,则继续判断分词是否存在于多音字词库中。
在一可实施方式中,从歧义规则词库中获取对应于多音字的读音权重,包括:
判断歧义规则词库中是否包含多音字;
若判定歧义规则词库中包含多音字,则从歧义规则词库中获取对应于多音字的读音权重。
本实施例中,上文中也提到,歧义规则词库中存有存有大量的高频多音字、对应的读音标注以及读音权重等信息,由此步骤103的具体过程为:
先判断歧义规则词库是否包含存在该多音字,若存在,则获取该多音字对应的读音权重。
在一可实施方式中,若判定歧义规则词库中未包含多音字,则选取概率最高的两个读音概率,并设置两个读音概率相同的读音权重;
相应的,根据所获取到的读音概率和读音权重,得到置信度,包括:
根据所选取的两个读音概率和所设置的读音权重,得到置信度。
本实施例中,若判定歧义规则词库中未包含多音字,则从经预测模型所得到的多个读音概率中选取概率值最高的两个,并设值该两个读音概率相同的读音权重,读音权重具体为百分之50。
相应的,步骤104的具体过程为:根据所选取的两个读音概率和所设置的读音权重,得到置信度。
在一可实施方式中,根据所获取到的读音概率和读音权重,得到置信度,包括:
将所获取到的语音概率和读音权重,通过公式得到置信度,公式为:
P=(p1*w1-p2*w2-…pn*wn)2*100(P∈(0~100)),其中P为置信度,p1、p2、…、pn为多音字对应的多个读音概率,w1、w2、…、wn为多音字对应的多个权重。
本实施例中,步骤104的具体过程为:将所得到的读音概率和读音权重作为该公式的参数,对应得到置信度。
在一可实施方式中,根据所得到的置信度,对多音字进行读音标注,包括:
判断置信度是否低于预设值;
若判定置信度低于预设值,则从高频读音库搜索对应多音字的读音;
将多音字标注所搜索到的读音。
本实施例中,在获取到置信度后,步骤105的具体过程为:判断置信度是否低于预设值;
若判定置信度低于预设值,则从高频读音库搜索对应多音字的读音,将所搜索到的读音替换为事先通过读音字典所标注的读音。其中预设值为固定值,由人工设定。高频读音库中存有大量的通过人工录入的高频多音字以及对应的读音标注。
在一可实施方式中,若判定置信度超过预设值,则从多个读音概率中选取最大读音概率;
获取最大读音概率所对应的读音;
将多音字标注为所获取的读音。
本实施例中,当置信度超过预设值时,则将经预测模型得到的多个读音概率中选取值最大的读音概率,选取该读音概率对应的读音,并将该读音最终标注为该多音字的读音。
图2为本发明实施例一种多音字标注方法的具体实现流程框图,如图2所示。
首先获取文本,利用现有的分词工具将该文本进行分词处理,得到多个分词,利用读音字典将这些分词进行读音标注。
判断强规则词库中是否存在所获取得到的分词和对应的读音标注,若存在,则确定将该分词设为由读音字典所标注的读音。
若某些分词不存在于强规则词库中,则进一步判断这些分词是否存在于多音字词库中,若不存在,则将该分词设置为由读音字典所标注的读音,若存在,则将该分词输入于预测模型,获取得到对应于该分词的多个读音以及读音概率。接着从歧义规则词库中获取到对应该分词的多个读音权重。
然后根据所得到的读音概率和读音权重,通过上文中提供的计算公式进行置信度计算,得到对应的置信度。
接着判断所计算得到的置信度是否低于阈值(也就是上文中提到的预设值),若该置信度低于阈值,则从高频读音库提取对应该分词的读音,并将该读音标注于该分词;若该置信度高于阈值,则将该分词标注经预测模型所得到的最大读音概率对应的读音。
其中,强规则词库、歧义规则词库以及预测模型均存储于系统的存储模块中。
图3为本发明实施例一种多音字标注装置的结构组成示意图,如图3所示。
基于上文提供的一种多音字标注方法,本发明实施例还提供一种多音字标注装置,装置包括:
多音字获取模块201,用于获取多音字;
读音概率获取模块202,用于将所获取的多音字作为预测模型的输入,得到多个对应于多音字的读音概率;
读音权重获取模块203,用于从歧义规则词库中获取对应于多音字的读音权重;
置信度获取模块204,用于根据所获取到的读音概率和读音权重,得到置信度;
读音标注模块205,用于根据所得到的置信度,对多音字进行读音标注。
本实施例中,首先通过多音字获取模块201获取到多音字,接着通过读音概率获取模块202将所获取的多音字输入于预测模型中,得到多个对应于多音字的读音概率。其中,预测模型为已训练的统计模型或者神经网络模型,其中,神经网络模型大致的训练过程如下:
将训练语料(多音字)和对应训练语料的真实值(语音)输入于神经网络模型,得到对应的结果;
将所得到的结果与真实值通过损失函数得到损失值,根据损失值反复训练神经网络模型,直到损失值在指定范围内为止,模型训练完成。
接着通过读音权重获取模块203从歧义规则词库中获取对应于该多音字的读音权重,其中,歧义规则词库中存有大量的高频多音字、读音标注以及读音权重,读音权重的获取方式可以是通过大量语料进行ngram(语言模型)统计。
接着通过置信度获取模块204根据所得到的读音概率和读音权重,得到一个置信度,最后通过读音标注模块205根据置信度,对多音字进行读音标注。
由此,通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的多音字标注方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获取多音字;将所获取的多音字作为预测模型的输入,得到多个对应于多音字的读音概率;从歧义规则词库中获取对应于多音字的读音权重;根据所获取到的读音概率和读音权重,得到置信度;根据所得到的置信度,对多音字进行读音标注。
通过设置预测模型结合歧义规则词库,根据读音概率和读音权重对多音字进行标注,较现有技术,有着较高的读音标注准确率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种多音字标注方法,其特征在于,所述方法包括:
获取多音字;
将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;
从歧义规则词库中获取对应于所述多音字的读音权重;
根据所获取到的读音概率和读音权重,得到置信度;
根据所得到的置信度,对所述多音字进行读音标注。
2.根据权利要求1所述的方法,其特征在于,所述从歧义规则词库中获取对应于所述多音字的读音权重,包括:
判断所述歧义规则词库中是否包含所述多音字;
若判定所述歧义规则词库中包含所述多音字,则从所述歧义规则词库中获取对应于所述多音字的读音权重。
3.根据权利要求2所述的方法,其特征在于,若判定所述歧义规则词库中未包含所述多音字,则选取概率最高的两个读音概率,并设置所述两个读音概率相同的读音权重;
相应的,所述根据所获取到的读音概率和读音权重,得到置信度,包括:
根据所选取的两个读音概率和所设置的读音权重,得到置信度。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所获取到的读音概率和读音权重,得到置信度,包括:
将所获取到的语音概率和读音权重,通过公式得到置信度,公式为:
P=(p1*w1-p2*w2-…pn*wn)2*100(P∈(0~100)),其中P为置信度,p1、p2、…、pn为所述多音字对应的多个读音概率,w1、w2、…、wn为所述多音字对应的多个权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所得到的置信度,对所述多音字进行读音标注,包括:
判断所述置信度是否低于预设值;
若判定所述置信度低于所述预设值,则从高频读音库搜索对应多音字的读音;
将所述多音字标注所搜索到的读音。
6.根据权利要求5所述的方法,其特征在于,若判定所述置信度超过所述预设值,则从多个所述读音概率中选取最大读音概率;
获取所述最大读音概率所对应的读音;
将所述多音字标注为所获取的读音。
7.根据权利要求1所述的方法,其特征在于,所述获取多音字,包括:
获取文本;
对所获取的文本进行分词处理,得到多个分词;
判断所得到的分词是否存在于多音字词库中;
若判定所得到的分词存在于所述多音字词库中,则判定所述分词为多音字。
8.根据权利要求7所述的方法,其特征在于,在对所获取的文本进行分词处理,得到多个分词之后,所述方法还包括:
利用读音字典对所述分词进行读音标注;
判断所述分词和对应的读音标注是否存在于强规则词库中;
若判定所述分词和对应的读音标注存在于所述强规则词库中,则将所述分词标注为由所述读音字典所标注的读音;
若判定所述分词和对应的读音标注不存在于所述强规则词库中,则判断所述分词是否存在于多音字词库中。
9.一种多音字标注装置,其特征在于,所述装置包括:
多音字获取模块,用于获取多音字;
读音概率获取模块,用于将所获取的多音字作为预测模型的输入,得到多个对应于所述多音字的读音概率;
读音权重获取模块,用于从歧义规则词库中获取对应于所述多音字的读音权重;
置信度获取模块,用于根据所获取到的读音概率和读音权重,得到置信度;
读音标注模块,用于根据所得到的置信度,对所述多音字进行读音标注。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-8任一项所述的一种多音字标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374465.2A CN111078898B (zh) | 2019-12-27 | 2019-12-27 | 一种多音字标注方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374465.2A CN111078898B (zh) | 2019-12-27 | 2019-12-27 | 一种多音字标注方法、装置以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078898A true CN111078898A (zh) | 2020-04-28 |
CN111078898B CN111078898B (zh) | 2023-08-08 |
Family
ID=70318335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911374465.2A Active CN111078898B (zh) | 2019-12-27 | 2019-12-27 | 一种多音字标注方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078898B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271687A (zh) * | 2007-03-20 | 2008-09-24 | 株式会社东芝 | 字音转换预测以及语音合成的方法和装置 |
JP2011076384A (ja) * | 2009-09-30 | 2011-04-14 | Casio Computer Co Ltd | 情報出力装置及び情報出力プログラム |
CN102184172A (zh) * | 2011-05-10 | 2011-09-14 | 中国科学院计算技术研究所 | 一种用于盲人读取汉字的系统和方法 |
CN102929864A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种音字转换方法及装置 |
CN104142909A (zh) * | 2014-05-07 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种汉字注音方法及装置 |
CN105225657A (zh) * | 2015-10-22 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 多音字标注模板生成方法和装置 |
CN105404621A (zh) * | 2015-09-25 | 2016-03-16 | 中国科学院计算技术研究所 | 一种用于盲人读取汉字的方法及系统 |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
CN106548787A (zh) * | 2016-11-01 | 2017-03-29 | 上海语知义信息技术有限公司 | 优化生词的评测方法及评测系统 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
JP2017208097A (ja) * | 2016-05-20 | 2017-11-24 | 富士通株式会社 | エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置 |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN108416055A (zh) * | 2018-03-20 | 2018-08-17 | 北京三快在线科技有限公司 | 建立拼音数据库的方法、装置、电子设备及存储介质 |
CN110277090A (zh) * | 2019-07-04 | 2019-09-24 | 苏州思必驰信息科技有限公司 | 用户个人的发音词典模型的自适应修正方法及系统 |
-
2019
- 2019-12-27 CN CN201911374465.2A patent/CN111078898B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271687A (zh) * | 2007-03-20 | 2008-09-24 | 株式会社东芝 | 字音转换预测以及语音合成的方法和装置 |
JP2011076384A (ja) * | 2009-09-30 | 2011-04-14 | Casio Computer Co Ltd | 情報出力装置及び情報出力プログラム |
CN102184172A (zh) * | 2011-05-10 | 2011-09-14 | 中国科学院计算技术研究所 | 一种用于盲人读取汉字的系统和方法 |
CN102929864A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种音字转换方法及装置 |
CN104142909A (zh) * | 2014-05-07 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种汉字注音方法及装置 |
CN105404621A (zh) * | 2015-09-25 | 2016-03-16 | 中国科学院计算技术研究所 | 一种用于盲人读取汉字的方法及系统 |
CN105225657A (zh) * | 2015-10-22 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 多音字标注模板生成方法和装置 |
CN105893414A (zh) * | 2015-11-26 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 筛选发音词典有效词条的方法及装置 |
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
JP2017208097A (ja) * | 2016-05-20 | 2017-11-24 | 富士通株式会社 | エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置 |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和系统 |
CN106598939A (zh) * | 2016-10-21 | 2017-04-26 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN106548787A (zh) * | 2016-11-01 | 2017-03-29 | 上海语知义信息技术有限公司 | 优化生词的评测方法及评测系统 |
CN108416055A (zh) * | 2018-03-20 | 2018-08-17 | 北京三快在线科技有限公司 | 建立拼音数据库的方法、装置、电子设备及存储介质 |
CN110277090A (zh) * | 2019-07-04 | 2019-09-24 | 苏州思必驰信息科技有限公司 | 用户个人的发音词典模型的自适应修正方法及系统 |
Non-Patent Citations (3)
Title |
---|
JUNBO ZHANG, HEMIN WU,YONGHONG YAN: "Tone pronunciation quality scoring of Mandarin multi-syllable words", IEEE * |
秦春香,黄浩: "发音特征在维汉语音识别中的应用", 秦春香黄浩 * |
范明;胡国平;王仁华;: "汉语字音转换中的多层面多音字读音消歧", 计算机工程与应用, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN111078898B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
US7917350B2 (en) | Word boundary probability estimating, probabilistic language model building, kana-kanji converting, and unknown word model building | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN111198948A (zh) | 文本分类校正方法、装置、设备及计算机可读存储介质 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN111145724B (zh) | 一种多音字标注方法、装置以及计算机可读存储介质 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN112131351A (zh) | 一种基于多答案损失函数的片段信息抽取模型训练方法 | |
CN111737990A (zh) | 一种词槽填充方法、装置、设备及存储介质 | |
CN112015903B (zh) | 题目判重方法、装置、存储介质、计算机设备 | |
CN114970554B (zh) | 一种基于自然语言处理的文档校验方法 | |
CN111078898B (zh) | 一种多音字标注方法、装置以及计算机可读存储介质 | |
CN115563515A (zh) | 文本相似性检测方法、装置、设备及存储介质 | |
CN112071304B (zh) | 一种语意分析方法及装置 | |
CN114154503A (zh) | 一种敏感数据类型识别方法 | |
CN113486666A (zh) | 一种医学命名实体识别方法及系统 | |
CN113836346B (zh) | 为音频文件生成摘要的方法、装置、计算设备及存储介质 | |
CN115146630B (zh) | 基于专业领域知识的分词方法、装置、设备及存储介质 | |
CN109325126B (zh) | 语言文本的对象化处理方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220509 Address after: 210000 8th floor, building D11, Hongfeng science and Technology Park, Nanjing Economic and Technological Development Zone, Jiangsu Province Applicant after: New Technology Co.,Ltd. Applicant after: VOLKSWAGEN (CHINA) INVESTMENT Co.,Ltd. Address before: 100044 1001, 10th floor, office building a, 19 Zhongguancun Street, Haidian District, Beijing Applicant before: MOBVOI INFORMATION TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |