CN109977361A - 一种基于相似词的汉语拼音标注方法、装置及存储介质 - Google Patents
一种基于相似词的汉语拼音标注方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109977361A CN109977361A CN201910154080.9A CN201910154080A CN109977361A CN 109977361 A CN109977361 A CN 109977361A CN 201910154080 A CN201910154080 A CN 201910154080A CN 109977361 A CN109977361 A CN 109977361A
- Authority
- CN
- China
- Prior art keywords
- word
- marked
- model
- phonetic alphabet
- chinese phonetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于相似词的汉语拼音标注方法、装置及存储介质,该方法包括步骤:收集文本语料,根据文本语料训练分词模型、词向量模型;根据分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;当待标注词语中含有多音字时,基于多音字,根据词向量模型获取待标注词语的相似词语;根据汉语拼音词典和汉语拼音备用词典对相似词语中的多音字进行拼音标注,获得拼音标注后的相似词语;采用投票方法根据拼音标注后的相似词语确定待标注词语中的多音字的拼音并进行拼音标注;将拼音标注后的待标注词语存储至汉语拼音备用词典。本发明能减少汉语拼音的错误标注,提高汉语拼音标注的准确率和应用拼音的可靠性。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于相似词的汉语拼音标注方法、装置及存储介质。
背景技术
在中文的自然语言处理领域,许多任务需要用到汉语拼音来解决问题,例如语言合成将文本转为音素的过程中需要把汉语文本转为拼音,不少信息识别任务需要提取文本的拼音信息以提高方法的泛化能力等等。
现有的汉语拼音标注方法主要采用分词后再标注拼音的方法,用最大匹配法对文本分词,用拼音词典的拼音标注词典存在的词汇,用默认拼音标注词典外的汉字拼音。这种方法虽然有一定的成效,但是,在分词过程难免出现分词错误的情况,从而可能导致拼音标注错误;并且对词典外的词汇用默认拼音导致多音字词汇的可靠性不高,容易出现标注错误的情况。
发明内容
本发明实施例的目的是提供一种基于相似词的汉语拼音标注方法、装置及存储介质,能减少汉语拼音的错误标注,提高汉语拼音标注的准确率和应用拼音的可靠性。
为实现上述目的,本发明实施例提供了一种基于相似词的汉语拼音标注方法,包括以下步骤:
收集文本语料,根据所述文本语料训练分词模型、词向量模型;
根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;
当任一所述待标注词语中含有多音字时,基于所述多音字,根据训练后的词向量模型获取所述待标注词语的相似词语;
根据预设的汉语拼音词典和预设的汉语拼音备用词典对所述相似词语中的所述多音字进行拼音标注,获得拼音标注后的相似词语;
采用预设的投票方法根据所述拼音标注后的相似词语确定所述待标注词语中的所述多音字的拼音并进行拼音标注;
将拼音标注后的待标注词语存储至所述汉语拼音备用词典。
作为上述方案的改进,所述方法还包括:
当任一所述待标注词语中含有单音字时,根据所述汉语拼音词典中获取所述单音字的拼音并进行拼音标注。
作为上述方案的改进,所述收集文本语料,根据所述文本语料训练分词模型、词向量模型,具体包括:
收集文本语料;其中,所述文本语料包括新闻、小说、剧本和对话语料;
根据所述文本语料对预设的第一模型进行训练,获得所述训练后的分词模型;其中,所述第一模型为隐马尔可夫模型或神经网络分词模型;
根据所述文本语料对预设的第二模型进行训练,获得所述训练后的词向量模型;其中,所述第二模型为word2vec模型、fasttext模型或glove模型。
作为上述方案的改进,所述根据所述文本语料对预设的第一模型进行训练,获得所述训练后的分词模型,具体包括:
基于最大匹配分词算法,根据所述文本语料对所述第一模型进行训练,获得所述训练后的分词模型。
作为上述方案的改进,所述根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语,具体包括:
将所述汉语拼音词典和所述汉语拼音备用词典导入所述训练后的分词模型;
根据所述训练后的分词模型对待标注拼音的文本进行精确切分、全切分或搜索引擎切分处理,获得若干个待标注词语。
作为上述方案的改进,所述方法通过以下步骤根据训练后的词向量模型获取所述待标注词语的相似词语:
计算所述训练后的词向量模型中的词向量与所述待标注词语的余弦相似度;
将大于预设的相似度阈值的余弦相似度所对应的词向量作为所述待标注词语的相似词语。
作为上述方案的改进,,所述投票方法包括少数服从多数投票方法、加权投票方法或动态加权投票方法。
本发明实施例还提供了一种基于相似词的汉语拼音标注装置,包括:
模型训练模块,用于收集文本语料,根据所述文本语料训练分词模型、词向量模型;
分词处理模块,用于根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;
相似词语获取模块,用于当任一所述待标注词语中含有多音字时,基于所述多音字,根据训练后的词向量模型获取所述待标注词语的相似词语;
相似词语拼音标注模块,用于根据预设的汉语拼音词典和预设的汉语拼音备用词典对所述相似词语中的所述多音字进行拼音标注,获得拼音标注后的相似词语;
多音字拼音标注模块,用于采用预设的投票方法根据所述拼音标注后的相似词语确定所述待标注词语中的所述多音字的拼音并进行拼音标注;
备用词典更新模块,用于将拼音标注后的待标注词语存储至所述汉语拼音备用词典。
本发明另一实施例对应提供了一种基于相似词的汉语拼音标注装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的基于相似词的汉语拼音标注方法。
本发明实施例还提供了一种计算机可读存储介质于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一项所述的基于相似词的汉语拼音标注方法。
与现有技术相比,本发明实施例公开的一种基于相似词的汉语拼音标注方法、装置及存储介质,通过收集文本语料训练分词模型、词向量模型,利用分词模型对待标注拼音文本进行分词,当分词中含有多音字,从词向量模型中获取若干个相似词语并对其中的多音字进行标注,再通过投票方法确定多音字的拼音,然后将标注后的分词存储至汉语拼音备用词典中,该方法能大大减少了使用默认拼音导致多音字词汇标注拼音不正确的现象,能有效减少汉语拼音错误标注的情况,使得汉语拼音标注更加准确,应用汉语拼音更加可靠。
附图说明
图1是本发明实施例1提供的一种基于相似词的汉语拼音标注方法的流程示意图。
图2是本发明实施例2提供的一种基于相似词的汉语拼音标注装置的结构示意图。
图3是本发明实施例3提供的一种基于相似词的汉语拼音标注装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例1提供的一种基于相似词的汉语拼音标注方法的流程示意图,所述方法包括步骤S1至步骤S6:
S1、收集文本语料,根据所述文本语料训练分词模型、词向量模型;
S2、根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;
S3、当任一所述待标注词语中含有多音字时,基于所述多音字,根据训练后的词向量模型获取所述待标注词语的相似词语;
S4、根据预设的汉语拼音词典和预设的汉语拼音备用词典对所述相似词语中的所述多音字进行拼音标注,获得拼音标注后的相似词语;
S5、采用预设的投票方法根据所述拼音标注后的相似词语确定所述待标注词语中的所述多音字的拼音并进行拼音标注;
S6、将拼音标注后的待标注词语存储至所述汉语拼音备用词典。
具体地,先大量收集各种文本语料,包括但不限于新闻、小说、剧本和对话语料,接着根据收集到的文本语料分别训练分词模型、词向量模型,对应得到训练后的分词模型、训练后的词向量模型;
然后根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语。待标注拼音的文本一般含有段落、章节,将其进行分词处理,分为若干个待标注词语,是为了更好地将其中的汉字进行拼音标注,使拼音标注更准确,更能根据文本语境选择适合的拼音标注。
对待标注词语进行拼音标注是先对该待标注词语中每个汉字进行拼音标注,然后将每个汉字的拼音组合成待标注词语的拼音,最后将待标注词语的拼音组合成待标注拼音的文本的拼音。在对每个待标注词语进行拼音标注前,先对该待标注词语中的汉字进行判断,判断其是否包含多音字,当任一待标注词语中含有多音字时,基于该多音字,根据训练后的词向量模型获取待标注词语的相似词语。一般地,一个待标注词语对应有多个相似词语,并且每个相似词语均含有该多音字。
接着根据预设的汉语拼音词典和预设的汉语拼音备用词典对获取到的相似词语中的该多音字进行拼音标注,获得拼音标注后的相似词语。汉语拼音词典收录包括百度词典、新华字典等各种汉语拼音词典。汉语拼音备用词典以空白词典初始化,当待标注词进行拼音标注后,会被记录进汉语拼音备用词典中,首次实施该方法时,不能利用汉语拼音备用词典进行拼音标注。对相似词语中的多音字进行拼音标注,还可以从网上爬取拼音或者人工标注拼音。因为汉语拼音备用词典记录的是修正后的汉语拼音,所以在进行拼音标注时,可以优先选择从汉语拼音备用词典查找拼音并进行标注。优选级依次是汉语拼音备用词典>汉语拼音词典>网上爬取>人工标注。
然后采用预设的投票方法根据拼音标注后的相似词语确定待标注词语中的多音字的拼音并进行拼音标注;最后将拼音标注后的待标注词语存储至汉语拼音备用词典中,这样一来,汉语拼音备用词典就可以不断被拓展和更新,很有利于汉语拼音的正确标注。
在中文的自然语言处理领域,常常需要将汉语文本转为音素,不少信息识别任务需要提取文本的拼音信息以提高方法的泛化能力等等。但目前的拼音字典有一部分会标注错误,特别是多音字的词语标注,当词语不在拼音词典中,则采用默认拼音来标注,标注错误的情况更加严重。本发明实施例1提供的一种基于相似词的汉语拼音标注方法能大大减少了使用默认拼音导致多音字词汇标注拼音不正确的现象,既能对现有汉语拼音词典做进一步的补充和修正,改善默认拼音导致的错误标注,又能应对新词和新的表达方式层出不穷的现象,使得汉语拼音标注更加准确,应用汉语拼音更加可靠。
作为上述方案的改进,所述方法还包括:
当任一所述待标注词语中含有单音字时,根据所述汉语拼音词典中获取所述单音字的拼音并进行拼音标注。
具体地,因为单音字的拼音是唯一的、确定的,所以当待标注词语中含有单音字时,可以直接从汉语拼音词典中查找并标注,单音字的标注一般情况下是不会出现错误的,也不是现有拼音标注错误的主要原因。当然也可以通过其他途径对单音字进行标注,例如网上爬取、人工标注等,优选地,从汉语拼音词典中获取并标注。
作为上述方案的改进,所述收集文本语料,根据所述文本语料训练分词模型、词向量模型,具体包括:
收集文本语料;其中,所述文本语料包括新闻、小说、剧本和对话语料;
根据所述文本语料对预设的第一模型进行训练,获得训练后的分词模型;其中,所述第一模型为隐马尔可夫模型或神经网络分词模型;
根据所述文本语料对预设的第二模型进行训练,获得训练后的词向量模型;其中,所述第二模型为word2vec模型、fasttext模型或glove模型。
具体地,新闻包括各种渠道报道的新闻,包括网络、电视、报纸等。将收集的文本语料整合在一起,有出现重复的词语、短语、句子、段落或章节,不作重复收录。以收集到的文本语料为基础,选择一个第一模型进行训练,其中第一模型为隐马尔可夫模型或神经网络分词模型,最后获得训练后的分词模型,作为后续分词处理的准备工作;同样地选择一个第二模型,其中第二模型为word2vec模型、fasttext模型或glove模型中的一个,利用收集到的文本语料对选择的第二模型进行训练,获得训练后的词向量模型,作为后续获取相似词语的准备工作。
之后根据训练后的分词模型对待标注拼音的文本进行分词处理,得到若干个待标注词语,接着根据训练后的词向量模型获取待标注词语的相似词语,并给相似词语标注拼音,然后采用投票方法确定待标注词语的拼音并记录在汉语拼音备用词典中。
优选地,所述根据所述文本语料对预设的第一模型进行训练,获得所述训练后的分词模型,具体包括:
基于最大匹配分词算法,根据所述文本语料对所述第一模型进行训练,获得所述训练后的分词模型。
具体地,采用最大匹配分词算法根据收集到的文本语料对第一模型进行分词训练,最后获得训练后的分词模型,作为后续分词处理的准备工作。
作为上述方案的改进,所述根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语,具体包括:
将所述汉语拼音词典和所述汉语拼音备用词典导入所述训练后的分词模型;
根据所述训练后的分词模型对待标注拼音的文本进行精确切分、全切分或搜索引擎切分处理,获得若干个待标注词语。
具体地,将汉语拼音词典和汉语拼音备用词典导入训练后的分词模型中,能最大程度地囊括待标注拼音的文本中的拼音,将拼音标注的错误率大大降低,这样得到的训练后的分词模型对文本的切分更准确、有效。对待标注拼音的文本进行切分,将文本切分为若干个待标注词语,然后对待标注词语进行拼音标注,待标注词语的拼音组合成文本的拼音。一般情况下,处理时间较充裕,对拼音标注正确率要求较高时,采用精确切分,尽可能保证文本的正确切分,得到恰当的待标注词语。当对汉语拼音修正的工作时间要求不高的情况下可用全切分或搜索引擎切分。
分词处理后,得到若干个待标注词语,接着根据训练后的词向量模型获取待标注词语的相似词语,并给相似词语标注拼音,然后采用投票方法确定待标注词语的拼音并记录在汉语拼音备用词典中。
作为上述方案的改进,所述方法通过以下步骤根据训练后的词向量模型获取所述待标注词语的相似词语:
计算所述训练后的词向量模型中的词向量与所述待标注词语的余弦相似度;
将大于预设的相似度阈值的余弦相似度所对应的词向量作为所述待标注词语的相似词语。
具体地,对比训练后的词向量模型中的词向量与待标注词语,并计算它们的余弦相似度,记录并标记结果;将大于预设的相似度阈值的余弦相似度所对应的词向量作为待标注词语的相似词语。另外,还可以采用wordnet、hownet方法获取待标注词语的相似词语。相似词语的形式包括词语、成语、短语等表达方式。
获得相似词语之后,给相似词语标注拼音,然后采用投票方法确定待标注词语的拼音并记录在汉语拼音备用词典中。
作为上述方案的改进,所述投票方法包括少数服从多数投票方法、加权投票方法或动态加权投票方法。
具体地,少数服从多数投票方法如下:给字A投票选择拼音,包含字A的相似词语作为投票人,相似词语中的字A的拼音作为投票项。统计所有投票人投票的结果,选择得票最多的投票项作为字A的拼音。
加权投票方法如下:给字B投票选择拼音,设定包含字B的相似词语作为投票人的不同权重,相似词语中的字B的拼音作为拼音项。统计不同拼音项的权重,权重最高的拼音项作为字B的拼音。
动态加权投票方法即先采用上述加权投票方法确定字B的拼音,再计算字B拼音标注的正确率,然后根据正确率调整对应的相似词语的权重,最后重新统计权重,将权重最高的拼音项作为字B的拼音。
一般情况下采用少数服从多数投票方法。在对汉语拼音修正的工作时间要求不高的情况下可采用加权投票方法和动态加权投票方法。
投票确定待标注词语的拼音后,将待标注词语的拼音记录在汉语拼音备用词典中。
为了便于对本发明的理解,下面将对本发明的一些优选实施例做更进一步的描述。
在本实施例中,以待标注拼音的文本“拼音的用处”为例说明上述方法的使用。对待标注拼音的文本“拼音的用处”做分词处理,获得三个待标注词语:“拼音”、“的”、“用处”。以“用处”为例说明“处”的拼音标注,“处”为多音字,首先以“处”为基础,根据训练后的词向量模型获取对应的待标注词语“用处”的相似词语:“用处”、“益处”、“害处”、“好处”、“坏处”;接着根据预设的汉语拼音词典对上述相似词语中的多音字“处”进行拼音标注,获得拼音标注后的相似词语:chu3(用处)、chu4(益处),、chu4(害处)、chu4(好处)、chu4(坏处);采用少数服从多数投票方法统计结果为:chu3:一票,chu4:四票,根据少数服从多数原则,待标注词语“用处”中的“处”的拼音为chu4。同理,得到待标注拼音的文本“拼音的用处”的拼音为“pin1 yin1 de1 yong4 chu4”。
参见图2,是本发明实施例2提供的一种基于相似词的汉语拼音标注装置的结构示意图,所述装置包括:
模型训练模块11,用于收集文本语料,根据所述文本语料训练分词模型、词向量模型;
分词处理模块12,用于根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;
相似词语获取模块13,用于当任一所述待标注词语中含有多音字时,基于所述多音字,根据训练后的词向量模型获取所述待标注词语的相似词语;
相似词语拼音标注模块14,用于根据预设的汉语拼音词典和预设的汉语拼音备用词典对所述相似词语中的所述多音字进行拼音标注,获得拼音标注后的相似词语;
多音字拼音标注模块15,用于采用预设的投票方法根据所述拼音标注后的相似词语确定所述待标注词语中的所述多音字的拼音并进行拼音标注;
备用词典更新模块16,用于将拼音标注后的待标注词语存储至所述汉语拼音备用词典。
优选地,所述装置还包括:
单音字拼音标注模块,用于当任一所述待标注词语中含有单音字时,根据所述汉语拼音词典中获取所述单音字的拼音并进行拼音标注。
优选地,所述模型训练模块11具体包括:
收集单元,用于收集文本语料;其中,所述文本语料包括新闻、小说、剧本和对话语料;
第一训练单元,用于根据所述文本语料对预设的第一模型进行训练,获得所述训练后的分词模型;其中,所述第一模型为隐马尔可夫模型或神经网络分词模型;
第二训练单元,用于根据所述文本语料对预设的第二模型进行训练,获得所述训练后的词向量模型;其中,所述第二模型为word2vec模型、fasttext模型或glove模型。
优选地,所述第一训练单元具体用于:
基于最大匹配分词算法,根据所述文本语料对所述第一模型进行训练,获得所述训练后的分词模型。
优选地,所述分词处理模块12具体包括:
存储单元,用于将所述汉语拼音词典和所述汉语拼音备用词典导入所述训练后的分词模型;
切分单元,用于根据所述训练后的分词模型对待标注拼音的文本进行精确切分、全切分或搜索引擎切分处理,获得若干个待标注词语。
优选地,所述相似词语获取模块13具体包括:
计算单元,用于计算所述训练后的词向量模型中的词向量与所述待标注词语的余弦相似度;
选择单元,用于将大于预设的相似度阈值的余弦相似度所对应的词向量作为所述待标注词语的相似词语。
优选地,所述投票方法包括少数服从多数投票方法、加权投票方法或动态加权投票方法。
本发明实施例所提供的一种基于相似词的汉语拼音标注装置能够实现上述任一实施例所述的基于相似词的汉语拼音标注方法的所有流程,装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的基于相似词的汉语拼音标注方法的作用以及实现的技术效果对应相同,这里不再赘述。
参见图3,是本发明实施例3提供的一种基于相似词的汉语拼音标注装置的示意图,所述装置包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10执行所述计算机程序时实现上述任一实施例所述的基于相似词的汉语拼音标注方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器20中,并由处理器10执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在一种基于相似词的汉语拼音标注装置中的执行过程。例如,计算机程序可以被分割成模型训练模块、分词处理模块、相似词语获取模块、相似词语拼音标注模块、多音字拼音标注模块和备用词典更新模块,各模块具体功能如下:
模型训练模块11,用于收集文本语料,根据所述文本语料训练分词模型、词向量模型;
分词处理模块12,用于根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;
相似词语获取模块13,用于当任一所述待标注词语中含有多音字时,基于所述多音字,根据训练后的词向量模型获取所述待标注词语的相似词语;
相似词语拼音标注模块14,用于根据预设的汉语拼音词典和预设的汉语拼音备用词典对所述相似词语中的所述多音字进行拼音标注,获得拼音标注后的相似词语;
多音字拼音标注模块15,用于采用预设的投票方法根据所述拼音标注后的相似词语确定所述待标注词语中的所述多音字的拼音并进行拼音标注;
备用词典更新模块16,用于将拼音标注后的待标注词语存储至所述汉语拼音备用词典。
一种基于相似词的汉语拼音标注装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。一种基于相似词的汉语拼音标注装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,示意图3仅仅是一种基于相似词的汉语拼音标注装置的示例,并不构成对一种基于相似词的汉语拼音标注方装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如一种基于相似词的汉语拼音标注装置还可以包括输入输出设备、网络接入设备、总线等。
处理器10可以是中央处理单元(Centra lProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者处理器10也可以是任何常规的处理器等,处理器10是一种基于相似词的汉语拼音标注装置的控制中心,利用各种接口和线路连接整个基于相似词的汉语拼音标注装置的各个部分。
存储器20可用于存储所述计算机程序和/或模块,处理器10通过运行或执行存储在存储器20内的计算机程序和/或模块,以及调用存储在存储器20内的数据,实现一种基于相似词的汉语拼音标注装置的各种功能。存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,一种基于相似词的汉语拼音标注装置集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一实施例所述的基于相似词的汉语拼音标注方法。
综上,本发明实施例所提供的一种基于相似词的汉语拼音标注方法、装置及存储介质,通过收集文本语料并训练分词模型、词向量模型,利用分词模型对待标注拼音文本进行分词,当分词中含有多音字时,从词向量模型中获取若干个相似词语并对其中的多音字进行标注,再通过投票方法确定多音字的拼音,然后将标注后的分词存储至汉语拼音备用词典中。对应相似词的拼音标注不限于从拼音词典中查找、从网上爬取和人工标注,使得相似词的字音标注准确率大大提高。另外,通过投票方法从相似词中选出一个拼音作为标注拼音,方法更灵活,更贴切,大大减少了使用默认拼音导致多音字词汇标注拼音不正确的现象,能有效纠正汉语拼音错误标注的情况,使得汉语拼音标注更加准确,应用汉语拼音更加可靠。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于相似词的汉语拼音标注方法,其特征在于,包括以下步骤:
收集文本语料,根据所述文本语料训练分词模型、词向量模型;
根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;
当任一所述待标注词语中含有多音字时,基于所述多音字,根据训练后的词向量模型获取所述待标注词语的相似词语;
根据预设的汉语拼音词典和预设的汉语拼音备用词典对所述相似词语中的所述多音字进行拼音标注,获得拼音标注后的相似词语;
采用预设的投票方法根据所述拼音标注后的相似词语确定所述待标注词语中的所述多音字的拼音并进行拼音标注;
将拼音标注后的待标注词语存储至所述汉语拼音备用词典。
2.如权利要求1所述的基于相似词的汉语拼音标注方法,其特征在于,所述方法还包括:
当任一所述待标注词语中含有单音字时,根据所述汉语拼音词典中获取所述单音字的拼音并进行拼音标注。
3.如权利要求1所述的基于相似词的汉语拼音标注方法,其特征在于,所述收集文本语料,根据所述文本语料训练分词模型、词向量模型,具体包括:
收集文本语料;其中,所述文本语料包括新闻、小说、剧本和对话语料;
根据所述文本语料对预设的第一模型进行训练,获得所述训练后的分词模型;其中,所述第一模型为隐马尔可夫模型或神经网络分词模型;
根据所述文本语料对预设的第二模型进行训练,获得所述训练后的词向量模型;其中,所述第二模型为word2vec模型、fasttext模型或g l ove模型。
4.如权利要求3所述的基于相似词的汉语拼音标注方法,其特征在于,所述根据所述文本语料对预设的第一模型进行训练,获得所述训练后的分词模型,具体包括:
基于最大匹配分词算法,根据所述文本语料对所述第一模型进行训练,获得所述训练后的分词模型。
5.如权利要求1所述的基于相似词的汉语拼音标注方法,其特征在于,所述根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语,具体包括:
将所述汉语拼音词典和所述汉语拼音备用词典导入所述训练后的分词模型;
根据所述训练后的分词模型对待标注拼音的文本进行精确切分、全切分或搜索引擎切分处理,获得若干个待标注词语。
6.如权利要求1所述的基于相似词的汉语拼音标注方法,其特征在于,所述方法通过以下步骤根据训练后的词向量模型获取所述待标注词语的相似词语:
计算所述训练后的词向量模型中的词向量与所述待标注词语的余弦相似度;
将大于预设的相似度阈值的余弦相似度所对应的词向量作为所述待标注词语的相似词语。
7.如权利要求1所述的基于相似词的汉语拼音标注方法,其特征在于,所述投票方法包括少数服从多数投票方法、加权投票方法或动态加权投票方法。
8.一种基于相似词的汉语拼音标注装置,其特征在于,包括:
模型训练模块,用于收集文本语料,根据所述文本语料训练分词模型、词向量模型;
分词处理模块,用于根据训练后的分词模型对待标注拼音的文本进行分词处理,获得若干个待标注词语;
相似词语获取模块,用于当任一所述待标注词语中含有多音字时,基于所述多音字,根据训练后的词向量模型获取所述待标注词语的相似词语;
相似词语拼音标注模块,用于根据预设的汉语拼音词典和预设的汉语拼音备用词典对所述相似词语中的所述多音字进行拼音标注,获得拼音标注后的相似词语;
多音字拼音标注模块,用于采用预设的投票方法根据所述拼音标注后的相似词语确定所述待标注词语中的所述多音字的拼音并进行拼音标注;
备用词典更新模块,用于将拼音标注后的待标注词语存储至所述汉语拼音备用词典。
9.一种使用基于相似词的汉语拼音标注方法的装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于相似词的汉语拼音标注方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的基于相似词的汉语拼音标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910154080.9A CN109977361A (zh) | 2019-03-01 | 2019-03-01 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910154080.9A CN109977361A (zh) | 2019-03-01 | 2019-03-01 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109977361A true CN109977361A (zh) | 2019-07-05 |
Family
ID=67077679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910154080.9A Pending CN109977361A (zh) | 2019-03-01 | 2019-03-01 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977361A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619112A (zh) * | 2019-08-08 | 2019-12-27 | 北京金山安全软件有限公司 | 用于汉字的读音标注方法、装置、电子设备及存储介质 |
CN110889278A (zh) * | 2019-11-27 | 2020-03-17 | 南京创维信息技术研究院有限公司 | 一种用于语音识别的词典生成方法 |
CN110942767A (zh) * | 2019-11-05 | 2020-03-31 | 深圳市一号互联科技有限公司 | 一种asr语言模型识别标注与优化方法及其装置 |
CN111143528A (zh) * | 2019-12-20 | 2020-05-12 | 云知声智能科技股份有限公司 | 多音字词汇的标注方法及装置 |
CN111209724A (zh) * | 2019-12-31 | 2020-05-29 | 智慧神州(北京)科技有限公司 | 文本的校验方法、装置、存储介质以及处理器 |
CN111354339A (zh) * | 2020-03-05 | 2020-06-30 | 深圳前海微众银行股份有限公司 | 词汇音素表构建方法、装置、设备及存储介质 |
CN111507104A (zh) * | 2020-03-19 | 2020-08-07 | 北京百度网讯科技有限公司 | 建立标签标注模型的方法、装置、电子设备和可读存储介质 |
CN111667810A (zh) * | 2020-06-08 | 2020-09-15 | 北京有竹居网络技术有限公司 | 多音字语料的获取方法、装置、可读介质和电子设备 |
CN112069805A (zh) * | 2019-12-20 | 2020-12-11 | 北京来也网络科技有限公司 | 结合rpa与ai的文本标注方法、装置、设备及存储介质 |
CN112101025A (zh) * | 2020-11-13 | 2020-12-18 | 北京世纪好未来教育科技有限公司 | 拼音标注方法、装置、电子设备及存储介质 |
CN112364159A (zh) * | 2019-07-26 | 2021-02-12 | 北京中关村科金技术有限公司 | 对文本进行分类的方法、装置以及存储介质 |
CN113806479A (zh) * | 2021-09-02 | 2021-12-17 | 深圳市声扬科技有限公司 | 文本注音的方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482867A (zh) * | 2008-01-09 | 2009-07-15 | 北大方正集团有限公司 | 一种自动为汉字添加拼音的方法及装置 |
CN103365925A (zh) * | 2012-04-09 | 2013-10-23 | 高德软件有限公司 | 获取多音字拼音、基于拼音检索的方法及其相应装置 |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN109117463A (zh) * | 2018-07-26 | 2019-01-01 | 掌阅科技股份有限公司 | 文本拼音标注方法、电子设备、存储介质 |
-
2019
- 2019-03-01 CN CN201910154080.9A patent/CN109977361A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101482867A (zh) * | 2008-01-09 | 2009-07-15 | 北大方正集团有限公司 | 一种自动为汉字添加拼音的方法及装置 |
CN103365925A (zh) * | 2012-04-09 | 2013-10-23 | 高德软件有限公司 | 获取多音字拼音、基于拼音检索的方法及其相应装置 |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN109117463A (zh) * | 2018-07-26 | 2019-01-01 | 掌阅科技股份有限公司 | 文本拼音标注方法、电子设备、存储介质 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364159A (zh) * | 2019-07-26 | 2021-02-12 | 北京中关村科金技术有限公司 | 对文本进行分类的方法、装置以及存储介质 |
CN110619112A (zh) * | 2019-08-08 | 2019-12-27 | 北京金山安全软件有限公司 | 用于汉字的读音标注方法、装置、电子设备及存储介质 |
CN110619112B (zh) * | 2019-08-08 | 2024-03-05 | 北京金山安全软件有限公司 | 用于汉字的读音标注方法、装置、电子设备及存储介质 |
CN110942767A (zh) * | 2019-11-05 | 2020-03-31 | 深圳市一号互联科技有限公司 | 一种asr语言模型识别标注与优化方法及其装置 |
CN110942767B (zh) * | 2019-11-05 | 2023-03-17 | 深圳市一号互联科技有限公司 | 一种asr语言模型识别标注与优化方法及其装置 |
CN110889278A (zh) * | 2019-11-27 | 2020-03-17 | 南京创维信息技术研究院有限公司 | 一种用于语音识别的词典生成方法 |
CN110889278B (zh) * | 2019-11-27 | 2023-09-05 | 南京创维信息技术研究院有限公司 | 一种用于语音识别的词典生成方法 |
CN111143528A (zh) * | 2019-12-20 | 2020-05-12 | 云知声智能科技股份有限公司 | 多音字词汇的标注方法及装置 |
CN112069805A (zh) * | 2019-12-20 | 2020-12-11 | 北京来也网络科技有限公司 | 结合rpa与ai的文本标注方法、装置、设备及存储介质 |
CN111209724A (zh) * | 2019-12-31 | 2020-05-29 | 智慧神州(北京)科技有限公司 | 文本的校验方法、装置、存储介质以及处理器 |
CN111354339B (zh) * | 2020-03-05 | 2023-11-03 | 深圳前海微众银行股份有限公司 | 词汇音素表构建方法、装置、设备及存储介质 |
CN111354339A (zh) * | 2020-03-05 | 2020-06-30 | 深圳前海微众银行股份有限公司 | 词汇音素表构建方法、装置、设备及存储介质 |
US11531813B2 (en) | 2020-03-19 | 2022-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, electronic device and readable storage medium for creating a label marking model |
CN111507104A (zh) * | 2020-03-19 | 2020-08-07 | 北京百度网讯科技有限公司 | 建立标签标注模型的方法、装置、电子设备和可读存储介质 |
CN111667810B (zh) * | 2020-06-08 | 2021-10-15 | 北京有竹居网络技术有限公司 | 多音字语料的获取方法、装置、可读介质和电子设备 |
CN111667810A (zh) * | 2020-06-08 | 2020-09-15 | 北京有竹居网络技术有限公司 | 多音字语料的获取方法、装置、可读介质和电子设备 |
CN112101025A (zh) * | 2020-11-13 | 2020-12-18 | 北京世纪好未来教育科技有限公司 | 拼音标注方法、装置、电子设备及存储介质 |
CN113806479A (zh) * | 2021-09-02 | 2021-12-17 | 深圳市声扬科技有限公司 | 文本注音的方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977361A (zh) | 一种基于相似词的汉语拼音标注方法、装置及存储介质 | |
CN107204184B (zh) | 语音识别方法及系统 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN110069784A (zh) | 一种语音质检评分方法、装置、终端及可存储介质 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN108563636A (zh) | 提取文本关键词的方法、装置、设备及存储介质 | |
CN106021572B (zh) | 二元特征词典的构建方法和装置 | |
CN109582704A (zh) | 招聘信息和求职简历匹配的方法 | |
CN110232923B (zh) | 一种语音控制指令生成方法、装置及电子设备 | |
CN103324621A (zh) | 一种泰语文本拼写纠正方法及装置 | |
CN104239289B (zh) | 音节划分方法和音节划分设备 | |
CN107807958A (zh) | 一种文章列表个性化推荐方法、电子设备及存储介质 | |
CN109902157A (zh) | 一种训练样本有效性检测方法及装置 | |
CN109522417A (zh) | 一种公司名的商号抽取方法 | |
CN108038108A (zh) | 分词模型训练方法和装置、及存储介质 | |
CN110489747A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
WO2017032427A1 (en) | Identifying augmented features based on a bayesian analysis of a text document | |
CN107967259A (zh) | 泰语音节切分的方法及装置 | |
CN111444695B (zh) | 基于人工智能的文本生成方法、装置、设备及存储介质 | |
Tüselmann et al. | Are end-to-end systems really necessary for NER on handwritten document images? | |
CN103678288A (zh) | 一种专名自动翻译的方法 | |
CN108536673A (zh) | 新闻事件抽取方法及装置 | |
CN103608805A (zh) | 辞典产生装置、方法、及程序 | |
CN112749544B (zh) | 段落分割模型的训练方法及系统 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |