CN112101025A - 拼音标注方法、装置、电子设备及存储介质 - Google Patents

拼音标注方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112101025A
CN112101025A CN202011266560.3A CN202011266560A CN112101025A CN 112101025 A CN112101025 A CN 112101025A CN 202011266560 A CN202011266560 A CN 202011266560A CN 112101025 A CN112101025 A CN 112101025A
Authority
CN
China
Prior art keywords
text
word segmentation
adjusted
phonetic notation
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011266560.3A
Other languages
English (en)
Other versions
CN112101025B (zh
Inventor
向宇
丁文彪
刘子韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202011266560.3A priority Critical patent/CN112101025B/zh
Publication of CN112101025A publication Critical patent/CN112101025A/zh
Application granted granted Critical
Publication of CN112101025B publication Critical patent/CN112101025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种拼音标注方法、装置、电子设备及存储介质,拼音标注方法包括:获取待标注文本,对待标注文本进行分词,得到各个分词文本;获取各个分词文本的初始注音;根据预定的注音调整词典和调整当前分词文本,对调整当前分词文本的初始注音进行确定或调整,得到确定注音或调整注音,并确定新的调整当前分词文本,直至完成待标注文本的全部分词文本的初始注音确定或调整,得到各个分词文本的标注拼音;对标注拼音进行排列,得到待标注文本的拼音。本发明实施例所提供的拼音标注方法、装置、电子设备及存储介质,可以提高拼音标注的准确性。

Description

拼音标注方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及计算机领域,尤其涉及一种拼音标注方法、装置、电子设备及存储介质。
背景技术
在小学低幼年级,由于小学生的识字量受到限制,需要给文本进行拼音标注,因此会存在大量给教案文本拼音标注的任务。
然而受到汉字发音的特点的影响,存在很多的多音字、轻声字,导致拼音标注的结果不准确。
因此,如何提高拼音标注的准确性,就成为亟需解决的技术问题。
发明内容
本发明实施例提供一种拼音标注方法、装置、电子设备及存储介质,以提高拼音标注的准确性。
为解决上述问题,本发明实施例提供一种拼音标注方法,包括:
获取待标注文本,对所述待标注文本进行分词和词性标记,得到各个分词文本以及各个所述分词文本的词性;
利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音;
确定各个所述分词文本中的调整当前分词文本,当根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本不满足与所述待注音调整文本对应的分词文本要求时,根据所述待注音调整文本在所述调整当前分词文本中的位置,确定并获取与所述调整当前分词文本直接相邻的且与所述位置对应的至少一个分词文本,得到相邻分词文本,将所述相邻分词文本与所述调整当前分词文本按照所述待标注文本中各个所述分词文本的顺序进行排列和组合,得到排列分词文本,其中所述分词文本要求包括词性要求;
当所述排列分词文本满足与所述待注音调整文本对应的分词文本要求时,根据与所述待注音调整文本和所述分词文本要求对应的注音调整规则,对所述待注音调整文本的初始注音进行调整,得到调整注音,并确定新的调整当前分词文本,直至完成所述待标注文本的全部所述分词文本的初始注音确定或调整,得到各个所述分词文本的标注拼音;
根据所述待标注文本中各个所述分词文本的顺序,对所述标注拼音进行排列,得到所述待标注文本的拼音。
为解决上述问题,本发明实施例提供一种拼音标注装置,包括:
分词文本获取单元,适于获取待标注文本,对所述待标注文本进行分词和词性标记,得到各个分词文本以及各个所述分词文本的词性;
初始注音获取单元,适于利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音;
标注拼音获取单元,适于确定各个所述分词文本中的调整当前分词文本,当根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本不满足与所述待注音调整文本对应的分词文本要求时,根据所述待注音调整文本在所述调整当前分词文本中的位置,确定并获取与所述调整当前分词文本直接相邻的且与所述位置对应的至少一个分词文本,得到相邻分词文本,将所述相邻分词文本与所述调整当前分词文本按照所述待标注文本中各个所述分词文本的顺序进行排列和组合,得到排列分词文本,其中所述分词文本要求包括词性要求;
标注拼音获取单元,当所述排列分词文本满足与所述待注音调整文本对应的分词文本要求时,根据与所述待注音调整文本和所述分词文本要求对应的注音调整规则,对所述待注音调整文本的初始注音进行调整,得到调整注音,并确定新的调整当前分词文本,直至完成所述待标注文本的全部所述分词文本的初始注音确定或调整,得到各个所述分词文本的标注拼音;
待标注文本的拼音获取单元,适于根据所述待标注文本中各个所述分词文本的顺序,对所述标注拼音进行排列,得到所述待标注文本的拼音。
为解决上述问题,本发明实施例提供一种存储介质,所述存储介质存储有适于拼音标注的程序,以实现如前述任一项所述的拼音标注方法。
为解决上述问题,本发明实施例提供一种电子设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述任一项所述的拼音标注方法。
与现有技术相比,本发明的技术方案具有以下优点:
本发明实施例所提供的拼音标注方法、装置、电子设备及存储介质,其中,拼音标注方法,首先对获取的待标注文本进行分词和词性标记,得到各个分词文本以及各个分词文本的词性,并利用预定的初始注音词典,获取各个分词文本的初始注音,再根据注音调整词典获取满足注音调整条件,需要进行注音调整的文本,进行注音确定或调整,得到确定注音或调整注音,从而得到待标注文本的注音,直至完成待标注文本的全部分词文本的初始注音的确定或调整。这样,本发明实施例所提供的拼音标注方法,可以通过初始注音对文本进行初始注音标注,初步保证能够唯一确定拼音的文本的注音准确性,并且对于难以唯一确定拼音的文本,通过后续的注音调整利用注音调整词典进行进一步确定,可以提高对需要进行注音调整的文本获取的准确性,利用准确的注音调整规则,提高对待拼音标注文本的拼音标注的准确性。
可选方案中,在进行注音调整时,不仅通过对调整当前分词文本本身进行判断,确定是否能够进行注音调整,还对文本分词中包括有待注音调整文本但不满足对应的分词文本要求的当前文本分词,进行文本分词的组合,即根据待注音调整文本在调整当前分词文本中的位置,确定相邻文本分词,然后将相邻文本分词和当前文本分词进行排列和组合,得到排列分词文本,并将排列分词文本确定为组合后的调整当前分词文本,进一步对组合后的调整当前分词文本进行判断,确定是否能够进行注音调整。这样,本发明实施例所提供的拼音标注方法,在进行注音调整时,考虑到由于分词不准确所造成的分词文本中包括待注音调整文本,但分词文本不满足与待注音调整文本对应的分词文本要求的情况而造成的注音调整的遗漏,通过对相邻文本分词的获取和排列文本分词的构建,获取组合后的当前文本分词,以降低分词误差,通过进一步判断,以提高对分词文本是否能够进行注音调整判断的准确性,进一步提高对待拼音标注文本的拼音标注的准确性。
附图说明
图1是本发明实施例所提供的拼音标注方法的一流程示意图;
图2为本发明实施例所提供的拼音标注方法的获取初始注音的步骤的流程示意图;
图3为本发明实施例所提供的拼音标注方法的获取相邻分词文本的流程示意图;
图4为本发明实施例所提供的拼音标注装置的一框图;
图5是本发明实施例提供的设备一种可选硬件设备架构。
具体实施方式
现有技术中,拼音标注的准确性较低。
为了提高拼音标注的准确性,本发明实施例提供了一种拼音标注方法,包括:
获取待标注文本,对所述待标注文本进行分词和词性标记,得到各个分词文本以及各个所述分词文本的词性;
利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音;
确定各个所述分词文本中的调整当前分词文本,根据预定的注音调整词典和所述调整当前分词文本,对所述调整当前分词文本的初始注音进行确定或调整,得到确定注音或调整注音,并确定新的调整当前分词文本,直至完成所述待标注文本的全部所述分词文本的初始注音确定或调整,得到各个所述分词文本的标注拼音;根据所述待标注文本中各个所述分词文本的顺序,对所述标注拼音进行排列,得到所述待标注文本的拼音。
可以看出,本发明实施例所提供的拼音标注方法,首先对获取的待标注文本进行分词和词性标记,得到各个分词文本以及各个分词文本的词性,并利用预定的初始注音词典,获取各个分词文本的初始注音,再根据注音调整词典获取满足注音调整条件,需要进行注音调整的文本,进行注音确定或调整,得到确定注音或调整注音,从而得到待标注文本的注音,直至完成待标注文本的全部分词文本的初始注音的确定或调整。
这样,本发明实施例所提供的拼音标注方法,可以通过初始注音对文本进行初始注音标注,初步保证能够唯一确定拼音的文本的注音准确性,并且对于难以唯一确定拼音的文本,通过后续的注音调整利用注音调整词典进行进一步确定,可以提高对需要进行注音调整的文本获取的准确性,利用准确的注音调整规则,提高对待拼音标注文本的拼音标注的准确性。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1是本发明实施例所提供的拼音标注方法的一流程示意图。
如图中所示,本发明实施例所提供的拼音标注方法,包括以下步骤:
步骤S10:获取待标注文本,对所述待标注文本进行分词和词性标记,得到各个分词文本以及各个所述分词文本的词性。
为进行拼音标注,首先获取待标注文本,即需要获取待拼音标注的文本,通过用户的输入即可以得到待标注文本,当然也可以通过网络传输的方式获取待标注文本。
由于用户直接输入的文本不一定能够满足本发明实施例所提供的拼音标注方法对待标注文本的要求,因此,在一种具体实施方式中,本发明实施例所提供的拼音标注方法,为了获取待标注文本,可以包括:
获取原始待标注文本;
确定原始待标注文本的字符长度和字符编码,当所述字符长度在预定长度范围内,且所述字符编码为预定字符编码时,得到所述待标注文本。
原始待标注文本即用户直接输入的文本,用户输入的同时,电子设备获取原始待标注文本,然后进一步对原始待标注文本的字符长度和字符编码进行获取,并将字符长度与预定字符长度范围进行比较,将字符编码与预定字符编码进行比较,如果原始待标注文本的字符长度落入预定字符长度范围内,并且原始待标注文本的字符编码属于预定字符编码,则可以确定原始待标注文本为待标注文本;如果原始待标注文本的字符长度未落入预定字符长度范围内,或者原始待标注文本的字符编码不属于预定字符编码,那么原始待标注文本不能被确定为待标注文本,从而终止拼音标注。
当然,当原始待标注文本的字符长度未落入预定字符长度范围内,或者原始待标注文本的字符编码不属于预定字符编码时,还可以进一步给出对原始待标注文本进行调整的建议,这样用户可以通过对原始待标注文本的调整,使其能够被确定为待标注文本。
具体地,预定字符长度范围可以根据需要进行确定,比如:1-4000个字符、1-5000个字符等等;预定字符编码可以选择汉字常用的编码形式,比如:UTF-8编码。
得到待标注文本后,进一步对待标注文本进行处理,对待标注文本进行分词和词性标记,以获取待标注文本的各个分词文本和各个分词文本的词性。
对待标注文本的分词,可以利用已有的分词工具进行,为了同时获取分词标记,可以选择具有词性标记功能的分词工具,从而可以提高分词和词性标记的效率,减少处理流程,具体地,可以选择的工具可以有pkuseg、jieba等。
经过分词和词性标记后,可以得到各个分词文本以及各个分词文本的词性。
当然,在一种具体实施方式中,为了方便后续将各个分词文本的标注拼音进行排序,对待标注文本进行分词、词性标记和文本顺序标记,得到各个分词文本、各个分词文本的词性和各个分词文本的文本顺序,即分词文本在待标注文本中的排序。
这样,在进行拼音标注的过程中,可以灵活进行各个分词文本的拼音标注,不一定按照各个分词文本在待标注文本中的顺序进行,在得到各个分词文本的标注拼音后,在按照文本顺序进行排列即可。
在一种具体实施方式中,经过分词和词性标记的待标注文本,可以以标记数组的方式呈现,为方便理解现举例如下:
待标记文本=‘智能注音系统’,则标记数组为:
[{‘token’: ‘智能’, ‘tag’: ‘n’, ‘pinyin’:[], ‘ln_index’:[0, 1},
{‘token’: ‘注音’, ‘tag’: ‘n’, ‘pinyin’:[], ‘ln_index’:[2, 3},
{‘token’: ‘系统’, ‘tag’: ‘n’, ‘pinyin’:[], ‘ln_index’:[4, 5}]
Token表示分词文本,有3个分词文本,分别为“智能“、”注音“、”系统“;tag表示词性,”n“表示名词,当然,词性还可以有动词、形容词、代词、语气词、助词等等,pinyin表示分词文本的拼音,通过本发明实施例所提供的拼音标注方法实现对后续具体拼音内容的填充,ln_index表示文本顺序,即所对应的分词文本在待标注文本中的位置,在此实施例中,可以从0开始。
步骤S11:利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音。
得到各个分词文本后,首先以各个分词文本为单位,对其进行初始注音标注,得到各个初始注音,为此可以利用预定的初始注音词典,通过在词典中进行查找的方式,找到具体的分词文本以及分词文本的初始注音。
容易理解的是,初始注音词典是在具体注音之前已经构建完成的,本发明实施例所提供的拼音标注方法,在进行拼音标注时,进行调用即可。
为了提高初始注音的准确性,在一种具体实施方式中,请参考图2,图2为本发明实施例所提供的拼音标注方法的获取初始注音的步骤的流程示意图。
如图中所示,为了获取初始注音,初始注音词典包括单字初始注音词典和词语初始注音词典,本发明实施例所提供的拼音标注方法可以包括:
步骤S200:确定各个所述分词文本中的初始当前分词文本。
确定当前需要进行初始注音的分词文本,并将其定为初始当前分词文本。
当对经过待标注文本进行处理,未进行文本顺序标记时,可以按照各个所述分词文本在待标注文本中的顺序,依次确定各个分词文本为初始当前分词文本,当对经过待标注文本进行处理,进行文本顺序标记时,则可以灵活地确定各个分词文本为初始当前分词文本。
步骤S201:判断所述初始当前分词文本的文本数量是否大于1,若是,执行步骤S203;若否,执行步骤S202。
确定初始当前分词文本的文本数量,并判断文本数量是否大于1,如果是,则说明初始当前分词文本为多字文本,执行步骤S203;否则,则说明初始当前分词文本为单字文本,执行步骤S202。
步骤S202:利用所述单字初始注音词典,获取所述初始当前分词文本的初始注音。
初始当前分词文本为单字文本,则在单字初始注音词典中进行查找,得到初始当前分词文本的初始注音。
容易理解的是,单字初始注音词典为以单个字为单位进行注音,形成的注音词典。
步骤S203:判断在所述词语初始注音词典中是否找到所述初始当前分词文本,若是,执行步骤S204,若否,执行步骤S205。
受到分词准确性的影响,分词过程中被分为多字的分词文本并不一定是一个词语,因此当确定初始当前分词文本为多字文本时,还需进一步在词语初始注音词典中查找,确定是否能够找到初始当前分词文本。
如果能够找到,则说明初始当前分词文本为词语文本,执行步骤S204,否则,则说明初始当前分词文本不是词语文本,不能以词语组合的方式进行文本注音,则执行步骤S205。
步骤S204:利用所述词语初始注音词典,获取所述初始当前分词文本的初始注音。
在词语初始注音词典中找到初始当前分词文本后,就可以根据词语初始注音词典中对于初始当前分词文本的注音,确定其初始注音。
容易理解的是,词语初始注音词典是以词语为单位进行注音的词典,其中各个词语的文本数量视具体的词语组成而定,比如:我们,文本数量为2;对不起,文本数量为3;潇潇洒洒,文本数量为4。
并且,以词语为单位进行拼音的标注,对于可以通过分词得到词语的文本而言,可以具有较高的准确性,比如:对于“乐“,在”快乐“和”音乐“中的发音是不同的,以词语为单位,就可以词语确定其中的单字文本的发音,对于在特定词语中有特定发音的多音字等,可以有较高的准确性。
步骤S205:利用所述单字初始注音词典,获取所述初始当前分词文本的各个单字文本的初始注音。
在词语初始注音词典中未找到初始当前分词文本时,为了实现初始注音的获取,将初始当前分词文本的各个单字文本作为一个单元,在单字初始注音词典进行查找,得到其初始注音。
步骤S206:判断是否存在未获取初始注音的分词文本,若是,执行步骤S208,若否,执行步骤S207。
当获取到初始当前分词文本的初始注音后,进一步判断是否已经完成待标注文本的全部分词文本的初始注音,如果是,则执行步骤S208,若否,执行步骤S207。
步骤S207:更换初始当前分词文本,转向执行步骤S201。
如果存在未获取初始注音的分词文本,那么更换未获取初始注音的分词文本中的一个为初始当前分词文本,并获取新的初始当前分词文本的初始注音。
步骤S208:得到各个分词文本的初始注音。
如果不存在未获取初始注音的分词文本,那么得到待标注文本的各个分词文本的初始注音。
这样,利用单字初始注音词典和词语初始注音词典,一方面可以利用词语提高所得到的初始注音的准确性,另一方面还可以保证不能通过形成词语的单字文本的初始注音的获取,保证初始注音的完成,从而可以保证全部词语的初步注音。
步骤S12:确定各个所述分词文本中的调整当前分词文本。
得到各个分词文本的初始注音后,由于有些文本的初始注音不一定准确,因此,本发明实施例所提供的拼音标注方法还要对初始注音进行调整,为此首先确定调整当前分词文本。
当对经过待标注文本进行处理,未进行文本顺序标记时,可以按照各个所述分词文本在待标注文本中的顺序,依次确定各个分词文本为调整当前分词文本,当对经过待标注文本进行处理,进行文本顺序标记时,则可以灵活地确定各个分词文本为调整当前分词文本。
步骤S1:根据预定的注音调整词典和所述调整当前分词文本,对所述调整当前分词文本的初始注音进行调整,得到调整注音,并确定新的调整当前分词文本,直至完成所述待标注文本的全部所述分词文本的初始注音确定或调整,得到各个所述分词文本的标注拼音,具体包括:
步骤S13:根据预定的注音调整词典确定所述调整当前分词文本中是否包括待注音调整文本,若是,执行步骤S14;若否,执行步骤S17。
具体地,可以通过在注音调整词典中进行调整当前分词文本中的各个单字文本的查找的方式,确定其是否包含待注音调整文本,如果找到,即包含待注音调整文本,则执行步骤S14,确定所述调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求,否则,执行步骤S17,确定所述调整当前分词文本是否满足注音调整的分词要求。
当然,注音调整词典是预先确定的,当进行待标注文本的拼音标注时,可以通过调用获取,另外,注音调整词典还可以不断完善和调整。
步骤S14:确定所述调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求,若是,执行步骤S18,若否,执行步骤S15。
由于包含待注音调整文本的调整当前分词文本并不一定都需要进行注音调整,因此,当确定调整当前分词文本中包括待注音调整文本时,还需要进一步确定调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求,只有满足分词文本要求的调整当前分词文本的待注音调整文本才需要进行文本的调整,即执行步骤S18,根据与所述待注音调整文本对应的注音调整规则,对所述调整当前分词文本的初始注音进行调整,得到调整注音;不满足的需要进行进一步处理和判断,执行步骤S15。
另外,对于不同的待注音调整文本,具体的分词文本要求也不同,因此,在进行分词文本要求的确定时,可以基于待注音调整文本进行确定。
由于拼音中比较特殊的主要包括轻声字、多音字和变声字,为了实现提高对轻声字的拼音标注的准确性,在一种具体实施方式中,注音调整词典可以包括轻声文本词典,所述根据预定的注音调整词典确定所述调整当前分词文本中是否包括待注音调整文本,以及确定所述调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求的步骤可以包括:
根据所述调整当前分词文本在所述轻声文本词典中进行查找,且在所述轻声文本词典中找到所述调整当前分词文本。
可以理解的是,轻声文本词典中存储有拼音确定为轻声的文本,在轻声文本词典中找到调整当前分词文本,则可以确定调整当前分词文本中包括注音应为轻声的文本,自然也就满足分词文本要求。
当然,轻声文本词典也是提前制定好的。
这样,通过轻声文本词典,可以实现将拼音声调为轻声的文本确定下来,进一步根据后续的注音调整,得到调整注音,容易理解的是,利用轻声文本词典找到待注音调整文本的注音调整,可以直接从轻声文本词典中找到对应的拼音,对初始注音进行替换就好。
在另一种具体实施方式中,为了实现提高对变声字的拼音标注的准确性,注音调整词典还可以包括变声规则词典;
所述根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求的步骤包括:
根据在所述变声规则词典中查找所述调整当前分词文本的各个单字文本,将找到的所述单字文本作为所述待注音调整文本,根据所述待注音调整文本在所述变声规则词典中查找分词文本要求,并确定所述调整当前分词文本满足所述分词文本要求。
可以理解的是,变声规则词典中存储有可能发生变声的文本,在变声规则词典中找到调整当前分词文本中的文本,则可以确定调整当前分词文本中包括注音可能需要变声的文本,因此需要对其进行进一步地判断,根据具体的待注音调整文本,在变声规则词典中确定具体的分词文本要求。
具体地,变声规则词典中可以包括第一类待注音调整文本,具体可以包括子、头、巴、们、的、么、了,与第一类待注音调整文本对应的第一分词文本要求包括所述调整当前分词文本的词性为名词或代词,且所述第一类变声单字为所述调整当前分词文本的最后一个字。
变声规则词典中还可以包括第二类待注音调整文本,具体可以包括的、地、得、着、了、过,与第二类待注音调整文本对应的第二分词文本要求包括所述调整当前分词文本的词性为助词,且所述调整当前分词文本为单字文本。
变声规则词典中还可以包括第三类待注音调整文本,具体地,可以包括啊、吧、吗、呢、哟、了、啦、呀、唉、呐、哦、哇、噢、喔、哪、哎、呗、嘛、嘞、哩、咯、啰、呦,与第三类待注音调整文本对应的第三分词文本要求包括所述调整当前分词文本的词性为助词,且所述调整当前分词文本为单字文本。
变声规则词典中还可以包括第四类待注音调整文本,具体地,可以包括一,与第四类待注音调整文本对应的第四分词文本要求包括:
调整当前分词文本中的“一”字位于两个相同的字A之间,且A的词性为动词;比如:看一看、走一走。
调整当前分词文本中的“一”字后的单字文本的读音声调为四声;比如:有一个、一次。
调整当前分词文本中的“一”字后的单字文本的读音声调为一声、二声或三声;比如:有一手、一年。
变声规则词典中还可以包括第五类待注音调整文本,具体地,可以包括不,与第五类待注音调整文本对应的第五分词文本要求包括调整当前分词文本中的“不”字后的单字文本的读音声调为四声,比如:不错、不去、不看。
由于还存在难以利用词语确定读音的单字,为了实现提高对单字文本的多音字的拼音标注的准确性,在一种具体实施方式中,注音调整词典还可以包括词性多音单字词典;
所述根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求的步骤还可以包括:
在预定的所述词性多音单字词典中查找所述调整当前分词文本,将找到的所述调整当前分词文本作为所述待注音调整文本,根据所述待注音调整文本在所述词性多音单字词典中确定分词文本词性要求,并确定所述调整当前分词文本满足所述分词文本词性要求。
可以理解的是,词性多音单字词典中存储有可能需要进行注音调整的文本,并且其中的文本的注音与文本的词性直接相关,在词性多音单字词典中找到调整当前分词文本,则可以确定调整当前分词文本可能需要进一步进行注音调整,因此需要对其进行词性判断,根据具体的调整当前分词文本,在词性多音单字词典中确定具体的分词文本词性要求。
比如:当“都”的词性是副词时,其拼音为“dou”且声调为一声;当“还”字的词性是动词时,其拼音为“huan”且声调为二声。
可见,通过词性多音单字词典的利用,可以提高对单字文本的多音字的拼音标注的准确性。
由于除了可以根据词性确定拼音的单字文本的多音字,还存在难以根据确定的拼音的单字文本的多音字,因此,为了实现提高对难以基于词性确定拼音的单字文本多音字的拼音标注的准确性,在一种具体实施方式中,注音调整词典还可以包括内容多音单字词典;
这样,所述根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求的步骤还包括:
在预定的所述内容多音单字词典中查找所述调整当前分词文本,将找到的所述调整当前分词文本作为所述待注音调整文本,根据所述待注音调整文本在所述内容多音单字词典中确定分词文本要求,并确定所述调整当前分词文本满足所述分词文本要求。
可以理解的是,内容多音单字词典中存储有可能需要进行注音调整的文本,并且其中的文本的注音与文本的内容直接相关,在内容多音单字词典中找到调整当前分词文本,则可以确定调整当前分词文本可能需要进一步进行注音调整,因此需要对其进行是否满足分词文本内容要求的判断,根据具体的调整当前分词文本,在内容多音单字词典中确定具体的分词文本内容要求。
具体地,分词文本内容要求可以为:
1、调整当前分词文本前的分词文本的词性和调整当前分词文本后的分词文本的词性,比如“你得让他成功”中的“得”,当其前面的分词文本的词性为代词,后面的分词文本的词性为介词时,其拼音为“dei”声调为三声;
2、调整当前分词文本前后的文本的具体内容,比如:“曾老师”中的“曾“,当其后面有具体内容为“老师”时,其拼音为“zeng“声调为一声,当然,其后面的具体内容也可以为”先生“、“女士”等;
3、调整当前分词文本前的分词文本的词性和具体内容,以及调整当前分词文本后的分词文本的词性和具体内容,比如:如“为人民服务”中的 “为”前面没内容,其后面的分词文本“人民”的词性为名词时,其拼音为“wei”声调为四声,当然其后面的具体内容也可以为“你”、“我”等代词。
当然,对于具体的单字文本,在内容多音单字词典会存储具体的分词文本内容要求,当满足具体的内容要求时,可以确定具体的注音。
可见,通过内容多音单字词典的利用,可以进一步提高对单字文本的多音字的拼音标注的准确性。
步骤S15:根据所述待注音调整文本在所述调整当前分词文本中的位置,确定并获取与所述调整当前分词文本直接相邻的且与所述位置对应的至少一个分词文本,得到相邻分词文本,将所述相邻分词文本与所述调整当前分词文本按照所述待标注文本中各个所述分词文本的顺序进行排列和组合,得到排列分词文本。
当调整当前分词文本不满足与所述待注音调整文本对应的分词文本要求时,首先确定待注音调整文本在所述调整当前分词文本中的位置,进而确定相邻分词文本,通过将调整当前分词文本与相邻分词文本的排列和组合,得到排列分词文本。
在一种具体实施方式中,为了保证相邻分词文本的获取,请参考图3,图3为本发明实施例所提供的拼音标注方法的获取相邻分词文本的流程示意图。
如图中所示,步骤S150:判断所述调整当前分词文本的文本数量是否大于1,若是,执行步骤S152,若否,执行步骤S151。
由于基于调整当前分词文本的文本数量的不同,所确定的相邻分词文本也不同,因此,首先需要确定调整当前分词文本的文本数量是否大于1,如果否,那么为了保证后续形成的排列分词文本能够实现是否满足分词文本要求的判断,执行步骤S151,否则,执行步骤S152。
S151、确定并获取位于所述调整当前分词文本前的分词文本和位于所述调整当前分词文本后的分词文本,得到所述相邻分词文本。
调整当前分词文本的文本数量不大于1,即调整当前分词文本的文本数量等于1,将位于所述调整当前分词文本前的分词文本和位于所述调整当前分词文本后的分词文本均作为相邻分词文本,进而组成排列分词文本。
S152、确定所述待注音调整文本是否位于所述调整当前分词文本的首位,若是,执行步骤S153,若否,执行步骤S154。
当调整当前分词文本的文本数量大于1时,进一步确定待注音调整文本是否位于所述调整当前分词文本的首位,如果是,那么调整当前分词文本中待注音调整文本的后面有相应的文本,为了实现后续形成的排列分词文本能够实现是否满足分词文本要求的判断,进一步获取位于所述调整当前分词文本前的分词文本,即执行步骤S153,否则,则进行进一步判断。
S153、确定并获取位于所述调整当前分词文本前的分词文本,得到所述相邻分词文本。
当调整当前分词文本的文本数量大于1且待注音调整文本是否位于所述调整当前分词文本的首位时,将位于调整当前分词文本前的分词文本作为相邻分词文本,进而组成排列分词文本。
S154、确定所述待注音调整文本是否位于所述调整当前分词文本的末位,若是,执行步骤S156,若否,执行步骤S155。
除了要确定待注音调整文本是否位于所述调整当前分词文本的首位,还需要确定待注音调整文本是否位于所述调整当前分词文本的末位,如果是,那么调整当前分词文本中待注音调整文本的前面有相应的文本,为了实现后续形成的排列分词文本能够实现是否满足分词文本要求的判断,进一步获取位于所述调整当前分词文本后的分词文本,即执行步骤S156,否则,则执行步骤S155。
S155、停止获取所述相邻分词文本。
经过判断,由于待注音调整文本的前后都有相应的文本,已经能够满足对于调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求的判断,因此,无需进行相邻分词文本和后续排列分词文本的获取,为此停止获取相邻分词文本。
S156、确定并获取位于所述调整当前分词文本后的分词文本,得到所述相邻分词文本。
当调整当前分词文本的文本数量大于1且待注音调整文本是否位于所述调整当前分词文本的末位时,将位于调整当前分词文本后的分词文本作为相邻分词文本,进而组成排列分词文本。
当然,步骤S152和步骤S154的执行顺序可以进行调整,在此不再赘述。
这样,通过上述方式,可以很方便地实现相邻分词文本的获取,并且可以保证所获取的相邻分词文本的合理性,为后续提高提高所得到的包含待注音调整文本的排列分词文本与分词文本要求的可比性,降低由于分词误差所带来的注音偏差提供基础。
当然,在其他具体实施方式中,也可以通过其他方式获取相邻分词文本。
得到相邻分词文本后,将相邻分词文本与调整当前分词文本按照待标注文本中各个所述分词文本的顺序进行排列和组合,即可以得到排列分词文本。
需要说明的是,本文所述的分词文本要求包括词性要求。
步骤S16:确定所述排列分词文本是否满足与所述待注音调整文本对应的分词文本要求,若是,执行步骤S18,若否,执行步骤S19。
得到排列分词文本后,进一步确定排列分词文本是否满足与所述待注音调整文本对应的分词文本要求,如果满足,相当确定调整当前分词文本满足与待注音调整文本对应的分词文本要求,执行步骤S18,否则,执行步骤S19。
需要说明的是,对于未获取相邻分词文本的调整当前分词文本,可以将未组合的调整当前分词文本当成排列分词文本执行步骤S16的判断。
容易理解的是,本文所述的排列分词文本是否满足与待注音调整文本对应的分词文本要求中的分词文本要求与步骤S14中所述的分词文本要求相同,只是以排列分词文本作为对象进行判断。
步骤S17:确定所述调整当前分词文本是否满足注音调整的分词要求,若是执行步骤S18,若否,执行步骤S19。
对于调整当前分词文本,除了进行是否包括待注音调整文本的确定外,还需要确定是否满足注音调整的分词要求的判断。
在一种具体实施方式中,为了实现提高对变声字的拼音标注的准确性,所述确定所述调整当前分词文本满足注音调整的分词要求的步骤包括:
确定所述调整当前分词文本的词性、单字文本数量、单字文本的文本排列、单字文本的文本内容以及按照所述待标注文本中各个所述分词文本的顺序,位于所述调整当前分词文本后的文本分词的词性均满足注音调整的所述分词要求。
具体地,可以为第一种情形:确定所述调整当前分词文本的词性为名词,所述调整当前分词文本的单字文本的数量大于2,倒数第一个单字文本和倒数第二个单字文本相同,且按照所述待标注文本中各个所述分词文本的顺序,位于所述调整当前分词文本后的文本分词的词性为非名词,比如:小猫猫的玩具。
还可以为第二种情形:确定所述调整当前分词文本的词性为名词,所述调整当前分词文本的单字文本的数量大于3,倒数第三个单字文本和倒数第二个单字文本相同,倒数第一个单字文本为“儿”且按照所述待标注文本中各个所述分词文本的顺序,位于所述调整当前分词文本后的文本分词的词性为非名词,比如:小狗狗儿的骨头。
步骤S18:根据与所述待注音调整文本和所述分词文本要求对应或者与所述分词要求对应的注音调整规则,对所述调整当前分词文本的初始注音进行调整,得到调整注音。
基于步骤S14、步骤S16和步骤S17的判断,当确定调整当前分词文本需要进行注音调整,对于步骤S14、步骤S16确定的调整当前分词文本,根据与所述待注音调整文本和所述分词文本要求对应的注音调整规则,进行注音调整,对于步骤S17确定的调整当前分词文本,根据与所述分词要求对应的注音调整规则,进行注音调整。
具体地,对于利用轻声文本词典找到待注音调整文本的注音调整,注音调整规则即为从轻声文本词典中找到对应的拼音,对初始注音进行替换。
对于利用变声规则词典找到待注音调整文本的注音调整,根据所满足的具体的分词文本要求,确定注音调整规则,对初始注音进行替换,具体注意调整规则包括:
对于满足第一分词文本要求的第一类待注音调整文本,将第一类待注音调整文本的拼音变为轻声;
对于满足第二分词文本要求的第二类待注音调整文本,将第二类待注音调整文本的拼音变为轻声;
对于满足第三分词文本要求的第三类待注音调整文本,将第三类待注音调整文本的拼音变为轻声;
对于满足第四分词文本要求中的第一种情况的第四类待注音调整文本,将第四类待注音调整文本的拼音变为轻声;满足第四分词文本要求中的第二种情况的第四类待注音调整文本,将第四类待注音调整文本的拼音变为二声;满足第四分词文本要求中的第三种情况的第四类待注音调整文本,将第四类待注音调整文本的拼音变为三声;
对于满足第五分词文本要求的第五类待注音调整文本,将第五类待注音调整文本的拼音变为二声。
对于第一种情形,调整当前分词文本的倒数第一个单字文本的拼音变为轻声;
对于第二种情形,调整当前分词文本的倒数第一个单字文本和“儿”字的拼音变为轻声。
对于利用词性多音单字词典找到且满足分词文本词性要求的待注音调整文本的注音调整,注音调整规则即为从词性多音单字词典中找到对应的拼音,对初始注音进行替换;
对于利用内容多音单字词典找到且满足分词文本内容要求的待注音调整文本的注音调整,注音调整规则即为从内容多音单字词典中找到对应的拼音,对初始注音进行替换。
从而,在进行注音调整时,不仅通过对调整当前分词文本本身进行判断,确定是否能够进行注音调整,还对文本分词中包括有待注音调整文本但不满足对应的分词文本要求的当前文本分词,进行文本分词的组合,即根据待注音调整文本在调整当前分词文本中的位置,确定相邻文本分词,然后将相邻文本分词和当前文本分词进行排列和组合,得到排列分词文本,并将排列分词文本确定为组合后的调整当前分词文本,进一步对组合后的调整当前分词文本进行判断,确定是否能够进行注音调整。
这样,本发明实施例所提供的拼音标注方法,在进行注音调整时,考虑到由于分词不准确所造成的分词文本中包括待注音调整文本,但分词文本不满足与待注音调整文本对应的分词文本要求的情况而造成的注音调整的遗漏,通过对相邻文本分词的获取和排列文本分词的构建,获取组合后的当前文本分词,以降低分词误差,通过进一步判断,以提高对分词文本是否能够进行注音调整判断的准确性,提高对待拼音标注文本的拼音标注的准确性。
步骤S19:确定所述调整当前分词文本的初始注音不变,得到确定注音。
基于步骤S16和步骤S17的判断,当确定调整当前分词文本不需要进行注音调整,只需确定调整当前分词文本的初始注音不变即可,得到确定注音。
步骤S110:确定是否完成所述待标注文本的全部所述分词文本的初始注音确定或调整,若是,则执行步骤S111,若否,则执行步骤S112。
当完成调整当前分词文本的调整或者确定后,进一步确定是否已经完成全部分词文本的初始注音,若是,则得到各个所述分词文本的标注拼音,若否,则执行步骤S112,确定新的调整当前分词文本。
步骤S111:得到各个所述分词文本的标注拼音。
容易理解的是,标注拼音包括初始注音和调整注音。
步骤S112:确定新的调整当前分词文本,并执行步骤S13。
步骤S114:根据所述待标注文本中各个所述分词文本的顺序,对所述标注拼音进行排列,得到所述待标注文本的拼音。
基于各个所述分词文本的顺序对标注拼音进行排列,就可以得到待标注文本的拼音了。
当各个分词文本具有文本顺序时,基于各个所述分词文本的顺序,即基于文本顺序。
可以看出,本发明实施例所提供的拼音标注方法,首先对获取的待标注文本进行分词和词性标记,得到各个分词文本以及各个分词文本的词性,并利用预定的初始注音词典,获取各个分词文本的初始注音,再根据注音调整词典获取满足注音调整条件,需要进行注音调整的文本,进行注音确定或调整,得到确定注音或调整注音,从而得到待标注文本的注音,直至完成待标注文本的全部分词文本的初始注音的确定或调整。
这样,本发明实施例所提供的拼音标注方法,可以通过初始注音对文本进行初始注音标注,初步保证能够唯一确定拼音的文本的注音准确性,并且对于难以唯一确定拼音的文本,通过后续的注音调整利用注音调整词典进行进一步确定,可以提高对需要进行注音调整的文本获取的准确性,利用准确的注音调整规则,提高对待拼音标注文本的拼音标注的准确性。
下面对本发明实施例提供的拼音标注装置进行介绍,下文描述的拼音标注装置可以分别认为是,电子设备(如:PC)为分别实现本发明实施例提供的拼音标注方法所需设置的功能模块架构。下文描述的拼音标注装置的内容,可分别与上文描述的拼音标注方法的内容相互对应参照。
图4为本发明实施例所提供的拼音标注装置的一框图,该拼音标注装置即可应用于客户端,也可应用于服务器端,参考图4,该拼音标注装置可以包括:
分词文本获取单元100,适于获取待标注文本,对所述待标注文本进行分词和词性标记,得到各个分词文本以及各个所述分词文本的词性;
初始注音获取单元110,适于利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音;
标注拼音获取单元120标注拼音获取单元120,适于确定各个所述分词文本中的调整当前分词文本,根据预定的注音调整词典和所述调整当前分词文本,对所述调整当前分词文本的初始注音进行确定或调整,得到确定注音或调整注音,并确定新的调整当前分词文本,直至完成所述待标注文本的全部所述分词文本的初始注音确定或调整,得到各个所述分词文本的标注拼音;
待标注文本的拼音获取单元130,适于根据所述待标注文本中各个所述分词文本的顺序,对所述标注拼音进行排列,得到所述待标注文本的拼音。
为进行拼音标注,分词文本获取单元100首先获取待标注文本,即需要获取待拼音标注的文本,通过用户的输入即可以得到待标注文本,当然也可以通过网络传输的方式获取待标注文本。
由于用户直接输入的文本不一定能够满足本发明实施例所提供的拼音标注方法对待标注文本的要求,因此,在一种具体实施方式中,为了获取待标注文本,可以获取原始待标注文本;确定原始待标注文本的字符长度和字符编码,当所述字符长度在预定长度范围内,且所述字符编码为预定字符编码时,得到所述待标注文本。
原始待标注文本即用户直接输入的文本,用户输入的同时,电子设备获取原始待标注文本,然后进一步对原始待标注文本的字符长度和字符编码进行获取,并将字符长度与预定字符长度范围进行比较,将字符编码与预定字符编码进行比较,如果原始待标注文本的字符长度落入预定字符长度范围内,并且原始待标注文本的字符编码属于预定字符编码,则可以确定原始待标注文本为待标注文本;如果原始待标注文本的字符长度未落入预定字符长度范围内,或者原始待标注文本的字符编码不属于预定字符编码,那么原始待标注文本不能被确定为待标注文本,从而终止拼音标注。
当然,当原始待标注文本的字符长度未落入预定字符长度范围内,或者原始待标注文本的字符编码不属于预定字符编码时,还可以进一步给出对原始待标注文本进行调整的建议,这样用户可以通过对原始待标注文本的调整,使其能够被确定为待标注文本。
得到待标注文本后,分词文本获取单元100进一步对待标注文本进行处理,对待标注文本进行分词和词性标记,以获取待标注文本的各个分词文本和各个分词文本的词性。
对待标注文本的分词,可以利用已有的分词工具进行,为了同时获取分词标记,可以选择具有词性标记功能的分词工具,从而可以提高分词和词性标记的效率,减少处理流程。
经过分词和词性标记后,可以得到各个分词文本以及各个分词文本的词性。
当然,在一种具体实施方式中,为了方便后续将各个分词文本的标注拼音进行排序,对待标注文本进行分词、词性标记和文本顺序标记,得到各个分词文本、各个分词文本的词性和各个分词文本的文本顺序,即分词文本在待标注文本中的排序。
这样,在进行拼音标注的过程中,可以灵活进行各个分词文本的拼音标注,不一定按照各个分词文本在待标注文本中的顺序进行,在得到各个分词文本的标注拼音后,在按照文本顺序进行排列即可。
得到各个分词文本后,初始注音获取单元110,首先以各个分词文本为单位,对其进行初始注音标注,得到各个初始注音,为此可以利用预定的初始注音词典,通过在词典中进行查找的方式,找到具体的分词文本以及分词文本的初始注音。
容易理解的是,初始注音词典是在具体注音之前已经构建完成的,本发明实施例所提供的拼音标注方法,在进行拼音标注时,进行调用即可。
为了提高初始注音的准确性,初始注音词典包括单字初始注音词典和词语初始注音词典,初始注音获取单元110,适于利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音,可以包括:
确定各个所述分词文本中的初始当前分词文本;
当所述初始当前分词文本的文本数量为1时,利用所述单字初始注音词典,获取所述初始当前分词文本的初始注音;
当所述初始当前分词文本的文本数量大于1且在所述词语初始注音词典中找到所述初始当前分词文本时,利用所述词语初始注音词典,获取所述初始当前分词文本的初始注音;
当所述初始当前分词文本的文本数量大于1且在所述词语初始注音词典中未找到所述初始当前分词文本时,利用所述单字初始注音词典,获取所述初始当前分词文本的各个单字文本的初始注音;
得到所述初始当前分词文本的初始注音后,更换新的初始当前分词文本,直至得到各个所述分词文本的初始注音。
确定当前需要进行初始注音的分词文本,并将其定为初始当前分词文本,当对经过待标注文本进行处理,未进行文本顺序标记时,可以按照各个所述分词文本在待标注文本中的顺序,依次确定各个分词文本为初始当前分词文本,当对经过待标注文本进行处理,进行文本顺序标记时,则可以灵活地确定各个分词文本为初始当前分词文本。
初始当前分词文本为单字文本,则在单字初始注音词典中进行查找,得到初始当前分词文本的初始注音。
容易理解的是,单字初始注音词典为以单个字为单位进行注音,形成的注音词典。
受到分词准确性的影响,分词过程中被分为多字的分词文本并不一定是一个词语,因此当确定初始当前分词文本为多字文本时,还需进一步在词语初始注音词典中查找,确定是否能够找到初始当前分词文本。
如果能够找到,则说明初始当前分词文本为词语文本,否则,则说明初始当前分词文本不是词语文本,不能以词语组合的方式进行文本注音。
在词语初始注音词典中找到初始当前分词文本后,就可以根据词语初始注音词典中对于初始当前分词文本的注音,确定其初始注音。
容易理解的是,词语初始注音词典是以词语为单位进行注音的词典,其中各个词语的文本数量视具体的词语组成而定。
以词语为单位进行拼音的标注,对于可以通过分词得到词语的文本而言,可以具有较高的准确性。
在词语初始注音词典中未找到初始当前分词文本时,为了实现初始注音的获取,将初始当前分词文本的各个单字文本作为一个单元,在单字初始注音词典进行查找,得到其初始注音。
当获取到初始当前分词文本的初始注音后,进一步判断是否已经完成待标注文本的全部分词文本的初始注音,如果存在未获取初始注音的分词文本,那么更换未获取初始注音的分词文本中的一个为初始当前分词文本,并获取新的初始当前分词文本的初始注音;如果不存在未获取初始注音的分词文本,那么得到待标注文本的各个分词文本的初始注音。
这样,利用单字初始注音词典和词语初始注音词典,一方面可以利用词语提高所得到的初始注音的准确性,另一方面还可以保证不能通过形成词语的单字文本的初始注音的获取,保证初始注音的完成,从而可以保证全部词语的初步注音。
得到各个分词文本的初始注音后,由于有些文本的初始注音不一定准确,因此,本发明实施例所提供的拼音标注装置还要对初始注音进行调整,为此标注拼音获取单元120,首先确定调整当前分词文本。
当对经过待标注文本进行处理,未进行文本顺序标记时,可以按照各个所述分词文本在待标注文本中的顺序,依次确定各个分词文本为调整当前分词文本,当对经过待标注文本进行处理,进行文本顺序标记时,则可以灵活地确定各个分词文本为调整当前分词文本。
然后标注拼音获取单元120再根据预定的注音调整词典和所述调整当前分词文本,对所述调整当前分词文本的初始注音进行确定或调整,具体包括:
确定所述调整当前分词文本中是否包括待注音调整文本,并根据预定的注音调整词典确定所述调整当前分词文本中是否包括待注音调整文本且所述调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求,以及确定所述调整当前分词文本是否满足注音调整的分词文本要求。
可以通过在注音调整词典中进行调整当前分词文本中的各个单字文本的查找的方式,确定其是否包含待注音调整文本,如果找到,即包含待注音调整文本,进一步确定所述调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求。
当然,注音调整词典是预先确定的,当进行待标注文本的拼音标注时,可以通过调用获取,另外,注音调整词典还可以不断完善和调整。
由于包含待注音调整文本的调整当前分词文本并不一定都需要进行注音调整,因此,当确定调整当前分词文本中包括待注音调整文本时,标注拼音获取单元120,还需要进一步确定调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求,即根据预定的注音调整词典确定所述调整当前分词文本中是否包括待注音调整文本且所述调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求。
另外,对于不同的待注音调整文本,具体的分词文本要求也不同,因此,在进行分词文本要求的确定时,可以基于待注音调整文本进行确定。
由于拼音中比较特殊的主要包括轻声字、多音字和变声字,为了实现提高对轻声字的拼音标注的准确性,在一种具体实施方式中,注音调整词典可以包括轻声文本词典,标注拼音获取单元120,适于根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本,以及确定所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求可以包括:
根据所述调整当前分词文本在所述轻声文本词典中进行查找,且在所述轻声文本词典中找到所述调整当前分词文本。
可以理解的是,轻声文本词典中存储有拼音确定为轻声的文本,在轻声文本词典中找到调整当前分词文本,则可以确定调整当前分词文本中包括注音应为轻声的文本,自然也就满足分词文本要求。
当然,轻声文本词典也是提前制定好的。
这样,通过轻声文本词典,可以实现将拼音声调为轻声的文本确定下来,进一步根据后续的注音调整,得到调整注音,容易理解的是,利用轻声文本词典找到待注音调整文本的注音调整,可以直接从轻声文本词典中找到对应的拼音,对初始注音进行替换就好。
在另一种具体实施方式中,为了实现提高对变声字的拼音标注的准确性,注音调整词典还可以包括变声规则词典;
标注拼音获取单元120,适于根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求包括:
根据在所述变声规则词典中查找所述调整当前分词文本的各个单字文本,将找到的所述单字文本作为所述待注音调整文本,根据所述待注音调整文本在所述变声规则词典中查找分词文本要求,并确定所述调整当前分词文本满足所述分词文本要求。
可以理解的是,变声规则词典中存储有可能发生变声的文本,在变声规则词典中找到调整当前分词文本中的文本,则可以确定调整当前分词文本中包括注音可能需要变声的文本,因此需要对其进行进一步地判断,根据具体的待注音调整文本,在变声规则词典中确定具体的分词文本要求。
具体地,变声规则词典中可以包括第一类待注音调整文本,具体可以包括子、头、巴、们、的、么、了,与第一类待注音调整文本对应的第一分词文本要求包括所述调整当前分词文本的词性为名词或代词,且所述第一类变声单字为所述调整当前分词文本的最后一个字。
变声规则词典中还可以包括第二类待注音调整文本,具体可以包括的、地、得、着、了、过,与第二类待注音调整文本对应的第二分词文本要求包括所述调整当前分词文本的词性为助词,且所述调整当前分词文本为单字文本。
变声规则词典中还可以包括第三类待注音调整文本,具体地,可以包括啊、吧、吗、呢、哟、了、啦、呀、唉、呐、哦、哇、噢、喔、哪、哎、呗、嘛、嘞、哩、咯、啰、呦,与第三类待注音调整文本对应的第三分词文本要求包括所述调整当前分词文本的词性为助词,且所述调整当前分词文本为单字文本。
变声规则词典中还可以包括第四类待注音调整文本,具体地,可以包括一,与第四类待注音调整文本对应的第四分词文本要求包括:
调整当前分词文本中的“一”字位于两个相同的字A之间,且A的词性为动词;比如:看一看、走一走。
调整当前分词文本中的“一”字后的单字文本的读音声调为四声;比如:有一个、一次。
调整当前分词文本中的“一”字后的单字文本的读音声调为一声、二声或三声;比如:有一手、一年。
变声规则词典中还可以包括第五类待注音调整文本,具体地,可以包括不,与第五类待注音调整文本对应的第五分词文本要求包括调整当前分词文本中的“不”字后的单字文本的读音声调为四声,比如:不错、不去、不看。
由于还存在难以利用词语确定读音的单字,为了实现提高对单字文本的多音字的拼音标注的准确性,在一种具体实施方式中,注音调整词典还可以包括词性多音单字词典;
标注拼音获取单元120,适于根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求还可以包括:
在预定的所述词性多音单字词典中查找所述调整当前分词文本,将找到的所述调整当前分词文本作为所述待注音调整文本,根据所述待注音调整文本在所述词性多音单字词典中确定分词文本词性要求,并确定所述调整当前分词文本满足所述分词文本词性要求。
可以理解的是,词性多音单字词典中存储有可能需要进行注音调整的文本,并且其中的文本的注音与文本的词性直接相关,在词性多音单字词典中找到调整当前分词文本,则可以确定调整当前分词文本可能需要进一步进行注音调整,因此需要对其进行词性判断,根据具体的调整当前分词文本,在词性多音单字词典中确定具体的分词文本词性要求。
从而,通过词性多音单字词典的利用,可以提高对单字文本的多音字的拼音标注的准确性。
由于除了可以根据词性确定拼音的单字文本的多音字,还存在难以根据确定的拼音的单字文本的多音字,因此,为了实现提高对难以基于词性确定拼音的单字文本多音字的拼音标注的准确性,在一种具体实施方式中,注音调整词典还可以包括内容多音单字词典;
这样,标注拼音获取单元120,适于根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求,还包括:
在预定的所述内容多音单字词典中查找所述调整当前分词文本,将找到的所述调整当前分词文本作为所述待注音调整文本,根据所述待注音调整文本在所述内容多音单字词典中确定分词文本要求,并确定所述调整当前分词文本满足所述分词文本要求。
可以理解的是,内容多音单字词典中存储有可能需要进行注音调整的文本,并且其中的文本的注音与文本的内容直接相关,在内容多音单字词典中找到调整当前分词文本,则可以确定调整当前分词文本可能需要进一步进行注音调整,因此需要对其进行是否满足分词文本内容要求的判断,根据具体的调整当前分词文本,在内容多音单字词典中确定具体的分词文本内容要求。
具体地,分词文本内容要求可以为:
1、调整当前分词文本前的分词文本的词性和调整当前分词文本后的分词文本的词性;
2、调整当前分词文本前后的文本的具体内容;
3、调整当前分词文本前的分词文本的词性和具体内容,以及调整当前分词文本后的分词文本的词性和具体内容。
当然,内容多音单字词典还可以存储其他的内容文本要求,对于具体的单字文本,在内容多音单字词典会存储具体的分词文本内容要求,当满足具体的内容要求时,可以确定具体的注音。
可见,通过内容多音单字词典的利用,可以进一步提高对单字文本的多音字的拼音标注的准确性。
当调整当前分词文本不满足与所述待注音调整文本对应的分词文本要求时,标注拼音获取单元120首先确定待注音调整文本在所述调整当前分词文本中的位置,进而确定相邻分词文本,通过将调整当前分词文本与相邻分词文本的排列和组合,得到排列分词文本。
在一种具体实施方式中,标注拼音获取单元120,适于根据所述待注音调整文本在所述调整当前分词文本中的位置,确定并获取与所述调整当前分词文本直接相邻的且与所述位置对应的至少一个分词文本,得到相邻分词文本,可以包括:
当所述调整当前分词文本的文本数量大于1,且所述待注音调整文本位于所述调整当前分词文本的首位时,确定并获取位于所述调整当前分词文本前的分词文本,得到所述相邻分词文本;
当所述调整当前分词文本的文本数量大于1,且所述待注音调整文本位于所述调整当前分词文本的末位时,确定并获取位于所述调整当前分词文本后的分词文本,得到所述相邻分词文本;
当所述调整当前分词文本的文本数量等于1时,确定并获取位于所述调整当前分词文本前的分词文本和位于所述调整当前分词文本后的分词文本,得到所述相邻分词文本。
调整当前分词文本的文本数量不大于1,即调整当前分词文本的文本数量等于1,将位于所述调整当前分词文本前的分词文本和位于所述调整当前分词文本后的分词文本均作为相邻分词文本,进而组成排列分词文本。
当调整当前分词文本的文本数量大于1时,进一步确定待注音调整文本是否位于所述调整当前分词文本的首位,如果是,那么调整当前分词文本中待注音调整文本的后面有相应的文本,为了实现后续形成的排列分词文本能够实现是否满足分词文本要求的判断,进一步获取位于所述调整当前分词文本前的分词文本,将位于调整当前分词文本前的分词文本作为相邻分词文本,进而组成排列分词文本。
如果确定待注音调整文本位于所述调整当前分词文本的末位,那么调整当前分词文本中待注音调整文本的前面有相应的文本,为了实现后续形成的排列分词文本能够实现是否满足分词文本要求的判断,进一步获取位于所述调整当前分词文本后的分词文本,将位于调整当前分词文本后的分词文本作为相邻分词文本,进而组成排列分词文本。
如果经过判断,待注音调整文本的前后都有相应的文本,已经能够满足对于调整当前分词文本是否满足与所述待注音调整文本对应的分词文本要求的判断,因此,无需进行相邻分词文本和后续排列分词文本的获取,为此停止获取相邻分词文本。
这样,通过上述方式,可以很方便地实现相邻分词文本的获取,并且可以保证所获取的相邻分词文本的合理性,为后续提高提高所得到的包含待注音调整文本的排列分词文本与分词文本要求的可比性,降低由于分词误差所带来的注音偏差提供基础。
当然,在其他具体实施方式中,也可以通过其他方式获取相邻分词文本。
得到相邻分词文本后,将相邻分词文本与调整当前分词文本按照待标注文本中各个所述分词文本的顺序进行排列和组合,即可以得到排列分词文本。
需要说明的是,本文所述的分词文本要求包括词性要求。
得到排列分词文本后,标注拼音获取单元120进一步确定排列分词文本是否满足与所述待注音调整文本对应的分词文本要求。
容易理解的是,本文所述的排列分词文本是否满足与待注音调整文本对应的分词文本要求中的分词文本要求与前述的分词文本要求相同,只是以排列分词文本作为对象进行判断。
当确定调整当前分词文本需要进行注音调整,根据与所述待注音调整文本和所述分词文本要求对应的注音调整规则,进行注音调整。
这样,在进行注音调整时,不仅通过对调整当前分词文本本身进行判断,确定是否能够进行注音调整,还对文本分词中包括有待注音调整文本但不满足对应的分词文本要求的当前文本分词,进行文本分词的组合,即根据待注音调整文本在调整当前分词文本中的位置,确定相邻文本分词,然后将相邻文本分词和当前文本分词进行排列和组合,得到排列分词文本,并将排列分词文本确定为组合后的调整当前分词文本,进一步对组合后的调整当前分词文本进行判断,确定是否能够进行注音调整。这样,本发明实施例所提供的拼音标注方法,在进行注音调整时,考虑到由于分词不准确所造成的分词文本中包括待注音调整文本,但分词文本不满足与待注音调整文本对应的分词文本要求的情况而造成的注音调整的遗漏,通过对相邻文本分词的获取和排列文本分词的构建,获取组合后的当前文本分词,以降低分词误差,通过进一步判断,以提高对分词文本是否能够进行注音调整判断的准确性,进一步提高对待拼音标注文本的拼音标注的准确性。
具体地,对于利用轻声文本词典找到待注音调整文本的注音调整,注音调整规则即为从轻声文本词典中找到对应的拼音,对初始注音进行替换。
对于利用变声规则词典找到待注音调整文本的注音调整,根据所满足的具体的分词文本要求,确定注音调整规则,对初始注音进行替换,具体注意调整规则包括:
对于满足第一分词文本要求的第一类待注音调整文本,将第一类待注音调整文本的拼音变为轻声;
对于满足第二分词文本要求的第二类待注音调整文本,将第二类待注音调整文本的拼音变为轻声;
对于满足第三分词文本要求的第三类待注音调整文本,将第三类待注音调整文本的拼音变为轻声;
对于满足第四分词文本要求中的第一种情况的第四类待注音调整文本,将第四类待注音调整文本的拼音变为轻声;满足第四分词文本要求中的第二种情况的第四类待注音调整文本,将第四类待注音调整文本的拼音变为二声;满足第四分词文本要求中的第三种情况的第四类待注音调整文本,将第四类待注音调整文本的拼音变为三声;
对于满足第五分词文本要求的第五类待注音调整文本,将第五类待注音调整文本的拼音变为二声。
对于利用词性多音单字词典找到且满足分词文本词性要求的待注音调整文本的注音调整,注音调整规则即为从词性多音单字词典中找到对应的拼音,对初始注音进行替换;
对于利用内容多音单字词典找到且满足分词文本内容要求的待注音调整文本的注音调整,注音调整规则即为从内容多音单字词典中找到对应的拼音,对初始注音进行替换。
当确定包含待注音调整文本的调整当前分词文本不需要进行注音调整,确定所述调整当前分词文本的初始注音不变。
当完成调整当前分词文本的调整或者确定后,标注拼音获取单元120进一步确定是否已经完成全部分词文本的初始注音,若是,则得到各个所述分词文本的标注拼音,若否,确定新的调整当前分词文本,直至完成所述待标注文本的全部所述分词文本的初始注音确定或调整,得到各个所述分词文本的标注拼音。
然后,待标注文本的拼音获取单元140,根据所述待标注文本中各个所述分词文本的顺序,对所述标注拼音进行排列,得到所述待标注文本的拼音。
在另一种具体实施方式中,标注拼音获取单元120,还适于当根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求,或者确定所述调整当前分词文本满足注音调整的分词文本要求时,根据与所述分词要求对应的注音调整规则,对所述调整当前分词文本的初始注音进行调整,得到调整注音。
对于调整当前分词文本,除了进行是否包括待注音调整文本的确定外,还需要确定是否满足注音调整的分词要求的判断。
在一种具体实施方式中,为了实现提高对变声字的拼音标注的准确性,所述确定所述调整当前分词文本满足注音调整的分词要求的步骤包括:
确定所述调整当前分词文本的词性、单字文本数量、单字文本的文本排列、单字文本的文本内容以及按照所述待标注文本中各个所述分词文本的顺序,位于所述调整当前分词文本后的文本分词的词性均满足注音调整的所述分词要求。
具体地,可以为:确定所述调整当前分词文本的词性为名词,所述调整当前分词文本的单字文本的数量大于2,倒数第一个单字文本和倒数第二个单字文本相同,且按照所述待标注文本中各个所述分词文本的顺序,位于所述调整当前分词文本后的文本分词的词性为非名词,比如:小猫猫的玩具,需要将第二个“猫“的初始注音调整为轻声。
还可以为:确定所述调整当前分词文本的词性为名词,所述调整当前分词文本的单字文本的数量大于3,倒数第三个单字文本和倒数第二个单字文本相同,倒数第一个单字文本为“儿”且按照所述待标注文本中各个所述分词文本的顺序,位于所述调整当前分词文本后的文本分词的词性为非名词,比如:小狗狗儿的骨头,需要将“儿”的初始注音调整为轻声
基于各个所述分词文本的顺序对标注拼音进行排列,就可以得到待标注文本的拼音了。
当各个分词文本具有文本顺序时,基于各个所述分词文本的顺序,即基于文本顺序。
可以看出,本发明实施例所提供的拼音标注装置,首先对获取的待标注文本进行分词和词性标记,得到各个分词文本以及各个分词文本的词性,并利用预定的初始注音词典,获取各个分词文本的初始注音,再根据注音调整词典获取满足注音调整条件,需要进行注音调整的文本,进行注音确定或调整,得到确定注音或调整注音,从而得到待标注文本的注音,直至完成待标注文本的全部分词文本的初始注音的确定或调整。
这样,本发明实施例所提供的拼音标注方法,可以通过初始注音对文本进行初始注音标注,初步保证能够唯一确定拼音的文本的注音准确性,并且对于难以唯一确定拼音的文本,通过后续的注音调整利用注音调整词典进行进一步确定,可以提高对需要进行注音调整的文本获取的准确性,利用准确的注音调整规则,提高对待拼音标注文本的拼音标注的准确性。
当然,本发明实施例还提供一种设备,本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构,以实现本发明实施例提供的拼音标注方法;该硬件设备可以应用于具体数据处理能力的电子设备,该电子设备可以为:例如终端设备或者服务器设备。
可选的,图5示出了本发明实施例提供的电子设备的一种可选硬件设备架构,可以包括:至少一个存储器3和至少一个处理器1;所述存储器存储有程序,所述处理器调用所述程序,以执行前述的拼音标注方法,另外,至少一个通信接口2和至少一个通信总线4;处理器1和存储器3可以位于同一电子设备,例如处理器1和存储器3可以位于服务器设备或者终端设备;处理器1和存储器3也可以位于不同的电子设备。
作为本发明实施例公开内容的一种可选实现,存储器3可以存储程序,处理器1可调用所述程序,以执行本发明上述实施例提供的拼音标注方法。
本发明实施例中,电子设备可以是能够进行拼音标注的平板电脑、笔记本电脑等设备。
在本发明实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;显然,图5所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
需要说明的是,上述的设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,当该指令被处理器执行时可以实现如上所述拼音标注方法。
本发明实施例所提供的存储介质所存储的计算机可执行指令,可以通过初始注音对文本进行初始注音标注,初步保证能够唯一确定拼音的文本的注音准确性,并且对于难以唯一确定拼音的文本,通过后续的注音调整利用注音调整词典进行进一步确定,可以提高对需要进行注音调整的文本获取的准确性,利用准确的注音调整规则,提高对待拼音标注文本的拼音标注的准确性。
上述本发明的实施方式是本发明的元件和特征的组合。除非另外提及,否则所述元件或特征可被视为选择性的。各个元件或特征可在不与其它元件或特征组合的情况下实践。另外,本发明的实施方式可通过组合部分元件和/或特征来构造。本发明的实施方式中所描述的操作顺序可重新排列。任一实施方式的一些构造可被包括在另一实施方式中,并且可用另一实施方式的对应构造代替。对于本领域技术人员而言明显的是,所附权利要求中彼此没有明确引用关系的权利要求可组合成本发明的实施方式,或者可在提交本申请之后的修改中作为新的权利要求包括。
本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中,根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。
在固件或软件配置方式中,本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部,并可经由各种己知手段向处理器发送数据以及从处理器接收数据。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种变动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (17)

1.一种拼音标注方法,其特征在于,包括:
获取待标注文本,对所述待标注文本进行分词和词性标记,得到各个分词文本以及各个所述分词文本的词性;
利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音;
确定各个所述分词文本中的调整当前分词文本,根据预定的注音调整词典和所述调整当前分词文本,对所述调整当前分词文本的初始注音进行确定或调整,得到确定注音或调整注音,并确定新的调整当前分词文本,直至完成所述待标注文本的全部所述分词文本的初始注音确定或调整,得到各个所述分词文本的标注拼音;
根据所述待标注文本中各个所述分词文本的顺序,对所述标注拼音进行排列,得到所述待标注文本的拼音。
2.如权利要求1所述的拼音标注方法,其特征在于,所述根据预定的注音调整词典和所述调整当前分词文本,对所述调整当前分词文本的初始注音进行调整,得到调整注音的步骤,包括:
当根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本不满足与所述待注音调整文本对应的分词文本要求时,根据所述待注音调整文本在所述调整当前分词文本中的位置,确定并获取与所述调整当前分词文本直接相邻的且与所述位置对应的至少一个分词文本,得到相邻分词文本,将所述相邻分词文本与所述调整当前分词文本按照所述待标注文本中各个所述分词文本的顺序进行排列和组合,得到排列分词文本,其中所述分词文本要求包括词性要求;
当所述排列分词文本满足与所述待注音调整文本对应的分词文本要求时,根据与所述待注音调整文本和所述分词文本要求对应的注音调整规则,对所述待注音调整文本的初始注音进行调整,得到所述调整注音。
3.如权利要求2所述的拼音标注方法,其特征在于,所述根据预定的注音调整词典和所述调整当前分词文本,对所述调整当前分词文本的初始注音进行调整,得到调整注音的步骤,还包括:
当根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求,或者确定所述调整当前分词文本满足注音调整的分词文本要求时,根据与所述分词要求对应的注音调整规则,对所述调整当前分词文本的初始注音进行调整,得到调整注音。
4.如权利要求3所述的拼音标注方法,其特征在于,所述根据所述待注音调整文本在所述调整当前分词文本中的位置,确定并获取与所述调整当前分词文本直接相邻的且与所述位置对应的至少一个分词文本,得到相邻分词文本的步骤包括:
当所述调整当前分词文本的文本数量大于1,且所述待注音调整文本位于所述调整当前分词文本的首位时,确定并获取位于所述调整当前分词文本前的分词文本,得到所述相邻分词文本;
当所述调整当前分词文本的文本数量大于1,且所述待注音调整文本位于所述调整当前分词文本的末位时,确定并获取位于所述调整当前分词文本后的分词文本,得到所述相邻分词文本;
当所述调整当前分词文本的文本数量等于1时,确定并获取位于所述调整当前分词文本前的分词文本和位于所述调整当前分词文本后的分词文本,得到所述相邻分词文本。
5.如权利要求3所述的拼音标注方法,其特征在于,还包括:
当所述排列分词文本不满足与所述待注音调整文本对应的分词文本要求时,确定所述调整当前分词文本的初始注音不变。
6.如权利要求3所述的拼音标注方法,其特征在于,所述注音调整词典包括轻声文本词典;
所述根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求的步骤包括:
根据所述调整当前分词文本在所述轻声文本词典中进行查找,且在所述轻声文本词典中找到所述调整当前分词文本。
7.如权利要求6所述的拼音标注方法,其特征在于,所述注音调整词典还包括变声规则词典;
所述根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求的步骤包括:
根据在所述变声规则词典中查找所述调整当前分词文本的各个单字文本,将找到的所述单字文本作为所述待注音调整文本,根据所述待注音调整文本在所述变声规则词典中查找分词文本要求,并确定所述调整当前分词文本满足所述分词文本要求。
8.如权利要求6所述的拼音标注方法,其特征在于,所述确定所述调整当前分词文本满足注音调整的分词要求的步骤包括:
确定所述调整当前分词文本的词性、单字文本数量、单字文本的文本排列、单字文本的文本内容以及按照所述待标注文本中各个所述分词文本的顺序,位于所述调整当前分词文本后的文本分词的词性均满足注音调整的所述分词要求。
9.如权利要求8所述的拼音标注方法,其特征在于,所述注音调整词典还包括词性多音单字词典;
所述根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求的步骤还包括:
在预定的所述词性多音单字词典中查找所述调整当前分词文本,将找到的所述调整当前分词文本作为所述待注音调整文本,根据所述待注音调整文本在所述词性多音单字词典中确定分词文本词性要求,并确定所述调整当前分词文本满足所述分词文本词性要求。
10.如权利要求8所述的拼音标注方法,其特征在于,所述注音调整词典还包括内容多音单字词典;
所述根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本满足与所述待注音调整文本对应的分词文本要求的步骤还包括:
在预定的所述内容多音单字词典中查找所述调整当前分词文本,将找到的所述调整当前分词文本作为所述待注音调整文本,根据所述待注音调整文本在所述内容多音单字词典中确定分词文本内容要求,并确定所述调整当前分词文本满足所述分词文本内容要求。
11.如权利要求1-10任一项所述的拼音标注方法,其特征在于,所述初始注音词典包括单字初始注音词典和词语初始注音词典;
所述利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音的步骤包括:
确定各个所述分词文本中的初始当前分词文本;
当所述初始当前分词文本的文本数量为1时,利用所述单字初始注音词典,获取所述初始当前分词文本的初始注音;
当所述初始当前分词文本的文本数量大于1且在所述词语初始注音词典中找到所述初始当前分词文本时,利用所述词语初始注音词典,获取所述初始当前分词文本的初始注音;
当所述初始当前分词文本的文本数量大于1且在所述词语初始注音词典中未找到所述初始当前分词文本时,利用所述单字初始注音词典,获取所述初始当前分词文本的各个单字文本的初始注音;
得到所述初始当前分词文本的初始注音后,更换新的初始当前分词文本,直至得到各个所述分词文本的初始注音。
12.如权利要求1-10任一项所述的拼音标注方法,其特征在于,所述对所述待标注文本进行分词和词性标记,得到各个分词文本以及各个所述分词文本的词性的步骤包括:
对所述待标注文本进行分词、词性标记和文本顺序标记,得到各个分词文本、各个所述分词文本的词性以及各个所述分词文本的文本顺序,所述文本顺序为所述分词文本在所述待标注文本中的排序。
13.如权利要求1-10任一项所述的拼音标注方法,其特征在于,所述获取待标注文本的步骤包括:
获取原始待标注文本;
确定原始待标注文本的字符长度和字符编码,当所述字符长度在预定字符长度范围内,且所述字符编码为预定字符编码时,得到所述待标注文本。
14.一种拼音标注装置,其特征在于,包括:
分词文本获取单元,适于获取待标注文本,对所述待标注文本进行分词和词性标记,得到各个分词文本以及各个所述分词文本的词性;
初始注音获取单元,适于利用与各个所述分词文本对应的预定的初始注音词典,获取各个所述分词文本的初始注音;
标注拼音获取单元,确定各个所述分词文本中的调整当前分词文本,根据预定的注音调整词典和所述调整当前分词文本,对所述调整当前分词文本的初始注音进行确定或调整,得到确定注音或调整注音,并确定新的调整当前分词文本,直至完成所述待标注文本的全部所述分词文本的初始注音确定或调整,得到各个所述分词文本的标注拼音;
待标注文本的拼音获取单元,适于根据所述待标注文本中各个所述分词文本的顺序,对所述标注拼音进行排列,得到所述待标注文本的拼音。
15.如权利要求14所述的拼音标注装置,其特征在于,所述标注拼音获取单元,适于得到各个所述分词文本的标注拼音,包括:
确定各个所述分词文本中的调整当前分词文本,当根据预定的注音调整词典确定所述调整当前分词文本中包括待注音调整文本且所述调整当前分词文本不满足与所述待注音调整文本对应的分词文本要求时,根据所述待注音调整文本在所述调整当前分词文本中的位置,确定并获取与所述调整当前分词文本直接相邻的且与所述位置对应的至少一个分词文本,得到相邻分词文本,将所述相邻分词文本与所述调整当前分词文本按照所述待标注文本中各个所述分词文本的顺序进行排列和组合,得到排列分词文本,其中所述分词文本要求包括词性要求;
当所述排列分词文本满足与所述待注音调整文本对应的分词文本要求时,根据与所述待注音调整文本和所述分词文本要求对应的注音调整规则,对所述待注音调整文本的初始注音进行调整,得到所述调整注音。
16.一种存储介质,其特征在于,所述存储介质存储有适于拼音标注的程序,以实现如权利要求1-13任一项所述的拼音标注方法。
17.一种电子设备,其特征在于,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如权利要求1-13任一项所述的拼音标注方法。
CN202011266560.3A 2020-11-13 2020-11-13 拼音标注方法、装置、电子设备及存储介质 Active CN112101025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011266560.3A CN112101025B (zh) 2020-11-13 2020-11-13 拼音标注方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011266560.3A CN112101025B (zh) 2020-11-13 2020-11-13 拼音标注方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112101025A true CN112101025A (zh) 2020-12-18
CN112101025B CN112101025B (zh) 2021-02-02

Family

ID=73784410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011266560.3A Active CN112101025B (zh) 2020-11-13 2020-11-13 拼音标注方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112101025B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287710A (ja) * 2003-03-20 2004-10-14 Fuji Xerox Co Ltd 言語処理システム
CN101482867A (zh) * 2008-01-09 2009-07-15 北大方正集团有限公司 一种自动为汉字添加拼音的方法及装置
CN103365925A (zh) * 2012-04-09 2013-10-23 高德软件有限公司 获取多音字拼音、基于拼音检索的方法及其相应装置
CN109800408A (zh) * 2017-11-16 2019-05-24 腾讯科技(深圳)有限公司 词典数据存储方法和装置、基于词典的分词方法和装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287710A (ja) * 2003-03-20 2004-10-14 Fuji Xerox Co Ltd 言語処理システム
CN101482867A (zh) * 2008-01-09 2009-07-15 北大方正集团有限公司 一种自动为汉字添加拼音的方法及装置
CN103365925A (zh) * 2012-04-09 2013-10-23 高德软件有限公司 获取多音字拼音、基于拼音检索的方法及其相应装置
CN109800408A (zh) * 2017-11-16 2019-05-24 腾讯科技(深圳)有限公司 词典数据存储方法和装置、基于词典的分词方法和装置
CN109977361A (zh) * 2019-03-01 2019-07-05 广州多益网络股份有限公司 一种基于相似词的汉语拼音标注方法、装置及存储介质

Also Published As

Publication number Publication date
CN112101025B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
WO2020119075A1 (zh) 通用文本信息提取方法、装置、计算机设备和存储介质
CN110705302B (zh) 命名实体的识别方法、电子设备及计算机存储介质
Diab Second generation AMIRA tools for Arabic processing: Fast and robust tokenization, POS tagging, and base phrase chunking
WO2022218186A1 (zh) 个性化知识图谱的生成方法、装置及计算机设备
WO2022142121A1 (zh) 摘要语句提取方法、装置、服务器及计算机可读存储介质
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
CN111104803B (zh) 语义理解处理方法、装置、设备及可读存储介质
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
WO2023045184A1 (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN111177375A (zh) 一种电子文档分类方法及装置
CN111444712B (zh) 一种关键词提取方法、终端、计算机可读存储介质
CN108664464B (zh) 一种语义相关度的确定方法及确定装置
CN110276081B (zh) 文本生成方法、装置及存储介质
CN111401034B (zh) 文本的语义分析方法、语义分析装置及终端
CN117540757A (zh) 用于自动翻译的方法、电子设备及计算机可读存储介质
US11501077B2 (en) Semantic processing method, electronic device, and non-transitory computer readable recording medium
CN112101025B (zh) 拼音标注方法、装置、电子设备及存储介质
CN109902309B (zh) 翻译方法、装置、设备和存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN117195829A (zh) 文本标注方法、文本标注装置及电子设备
US20210117920A1 (en) Patent preparation system
CN116933789A (zh) 一种语言表征模型的训练方法以及训练装置
CN112541062B (zh) 平行语料对齐方法、装置、存储介质及电子设备
US20180011833A1 (en) Syntax analyzing device, learning device, machine translation device and storage medium
CN113255374A (zh) 问答管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant