CN102929864B - 一种音字转换方法及装置 - Google Patents
一种音字转换方法及装置 Download PDFInfo
- Publication number
- CN102929864B CN102929864B CN201110223826.0A CN201110223826A CN102929864B CN 102929864 B CN102929864 B CN 102929864B CN 201110223826 A CN201110223826 A CN 201110223826A CN 102929864 B CN102929864 B CN 102929864B
- Authority
- CN
- China
- Prior art keywords
- entry
- speech
- probability
- pronunciation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种音字转换方法及装置,其中音字转换的方法包括:A.获取用户输入的读音代码序列;B.对所述读音代码序列进行划分,得到各读音节点;C.根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点;D.根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分;E.选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。通过上述方式,可以在缩减转换模型的词典规模的基础上,提高音字转换输入法的转换精度。
Description
【技术领域】
本发明涉及自然语言处理技术领域,特别涉及一种音字转换方法及装置。
【背景技术】
音字转换方法,是输入法的一种,指的是将用户通过输入设备输入的表示文字读音的代码序列,转换为实际需要的文字序列的方法。在音字转换过程中,需要通过转换模型计算与读音代码序列对应的文字序列的合理性,在现有技术中,该合理性的计算依据之一为转换模型中词与词在大规模语料中的共现概率。
例如输入的读音代码序列为“mianduixianshi”,可以转换为“面对现实”或“面对闲事”等等文字序列,在判断这些文字序列的合理性时,由于在大规模语料中统计得到“面对”与“现实”的共现概率远高于“面对”与“闲事”的共现概率,因此“面对现实”这个文字序列就比“面对闲事”这个文字序列合理。
在这种转换方法中,假设转换模型的词典中包含的词条数为N,仅以考虑词与词的二元共现为例,相应的共现概率信息的规模就达到了N2,如果词条的数目很大,就会造成输入法规模的急剧膨胀,所以,在这种方法下,为了使输入法的规模达到一个合理的程度,就必须对词典进行裁剪,而这必然导致一些信息量丢失,使得在转换过程中,不得不使用插值估计的方式来获取相应的文字序列,从而降低了输入法的转换精度。
此外,这种方式下为词典添加新的词条也比较困难,因为当添加新词时,该新词与其他词之间的共现概率信息比较难获得,如果失去了这一共现概率信息,就会导致转换的效果变差,而即使采用估计算法获取这一共现概率信息,也很难达到真实的精度。由于现有技术的音字转换方法存在添加新词困难的缺陷,从而影响了输入法的扩展性。
【发明内容】
本发明所要解决的技术问题是提供一种音字转换的方法和装置,以解决现有的音字转换方法中存在的输入法转换精度降低和扩展性较差的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种音字转换方法,包括:A.获取用户输入的读音代码序列;B.对所述读音代码序列进行划分,得到各读音节点;C.根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为:具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为:前一个或多个词类出现的条件下后一个词类相邻出现的概率;D.根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;E.选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。
根据本发明之一优选实施例,所述转换模型是通过下列方式获得的:a.为训练语料标注各词条及各词条的词性;b.确定各词条在对应词性下的词类;c.利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率;d.确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并,得到各词条的生成概率;e.根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。
根据本发明之一优选实施例,所述步骤b包括以下方式中的S1,或者,S1与S2的组合且S2的执行优先级高于S1:S1.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;S2.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。
根据本发明之一优选实施例,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。
根据本发明之一优选实施例,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。
根据本发明之一优选实施例,所述步骤C中,根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个词条与所述读音节点结合生成所述音字节点,其中N2为正整数。
根据本发明之一优选实施例,所述步骤D包括:从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转移词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率;将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。
本发明还提供了一种音字转换装置,包括:接收单元,用户获取用户输入的读音代码序列;切分单元,用于对所述读音代码序列进行划分,得到各读音节点;节点生成单元,用于根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为:具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为:前一个或多个词类出现的条件下后一个词类相邻出现的概率;计算单元,用于根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;输出单元,选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。
根据本发明之一优选实施例,所述装置进一步包括模型生成单元,所述模型生成单元包括:标注子单元,用于为训练语料标注各词条及各词条的词性;词类确定子单元,用于确定各词条在对应词性下的词类;训练子单元,用于利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率;概率合并子单元,用于确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并得到各词条的生成概率;添加单元,用于根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。
根据本发明之一优选实施例,所述词类确定子单元包括聚类子单元,或者,包括所述聚类子单元与词频统计子单元的组合且所述词频统计子单元的处理优先级高于所述聚类子单元;其中所述聚类子单元,用于根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;所述词频统计子单元,用于在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。
根据本发明之一优选实施例,所述聚类特征包括词条在所述大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征。
根据本发明之一优选实施例,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。
根据本发明之一优选实施例,所述节点生成单元根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个的词条与所述读音节点结合生成所述音字节点,其中N2为正整数。
根据本发明之一优选实施例,所述计算单元包括:查找子单元,用于从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转移词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率;得分生成子单元,用于将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。
由以上技术方案可以看出,通过将词与词之间的共现关系降维处理为词类与词类之间的共现关系,可以在缩减转换模型的词典规模的基础上,保留转换模型所有的词典信息,从而提高输入法的转换精度,同时由于词类与词类之间的共现关系信息一旦获取后相对稳定,在添加新词时只需要添加词条的生成信息而不用再额外获取词类与词类之间的共现关系信息,所以也大大提高了输入法的可扩展性。
【附图说明】
图1为本发明中音字转换方法的实施例的流程示意图;
图2为本发明中音字节点形成的各种转换结果示意图;
图3为本发明中建立转换模型的实施例的流程示意图;
图4为本发明中音字转换装置的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中音字转换方法的实施例的流程示意图。如图1所示,所述方法包括:
步骤101:获取用户输入的读音代码序列。
步骤102:对读音代码序列进行划分,得到各读音节点。
步骤103:根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述转换模型包括音字词典与转移词典。
步骤104:根据音字词典中的词条的生成概率与转移词典中词类间的转移概率计算读音代码序列对应的各文字序列转换结果的得分。
步骤105:选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。
下面对上述步骤进行具体说明。
在步骤101中,读音代码序列指的是能表示用户欲输入文字的读音符号,以中文为例,这个读音代码可以为拼音,以日文为例,这个读音代码可以为罗马字符表示的假名音。
步骤102中,对读音代码序列进行划分,就是对用键盘字符表示的读音代码序列进行所有符合语言学规则的切分,例如在中文的拼音中,声母应该与韵母组合,因此在切分时就不会出现多个声母组合的读音节点。请参考图2,图2为本发明中音字节点形成的各种转换结果示意图。如图2所示,图中的“xian”、“shizhang”、“xi”、“an”、“shi”、“zhang”、“anshi”就是对读音代码序列xianshizhang”进行各种切分后得到的读音节点。
步骤103中,转换模型是音字转换过程中依赖的模型,其包括音字词典与转移词典,音字词典中记录了各个词条、词条的读音及其相关概率,转移词典中记录了各个词类及其相关概率。请参考图3,图3为本发明中建立转换模型的实施例的流程示意图。如图3所示,建立转换模型的方法包括:步骤201:为训练语料标注各词条及各词条的词性。对训练语料标注各词条,就是对连续的文本语料,标注出分词得到的各词条及其词性。例如“我爱北京天安门”这样一个文本,经过标注后可以得到“我<代词>/爱<动词>/北京/<地名.地区>/天安门<地名.地点>”这样一个标注后的文本。在这里,当一个词是专有名词时,词性还指具体的专有名词属性。例如上面的“地名.地区”和“地名.地点”等都是具体的专有名词属性。
步骤202:确定各词条在对应词性下的词类。
本发明为了改变传统音字转换模型中由于考虑词与词的共现概率而导致的词典规模膨胀的问题,将词与词之间的关系简化为词性与词性之间的关系,但是以北大中文标注体系中的词性为例,中文的词性数量仅为四十多种,这样,如果仅采用词性与词性之间的关系来替代词与词之间的关系,那么又会使信息量损失过大,因此,在本实施例中,将通过获取各词条在对应词性下的词类,来提高词性的维度。
确定各词条在对应词性下的词类,可通过下列方式1,或方式1与方式2的组合来实现,在采用方式1与方式2的组合实现时,方式2的执行优先级高于方式1。
方式1:根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类。
聚类特征可以采用词条在大规模语料中的上下文特征。大规模语料不限于上文所说的已标注的训练语料,还可包括更大范围的未标注语料,例如各种来源的文本。
对于具有同一词性的不同词条,由于词条内涵的区别,该词语出现时,其上下文会出现一些与其内涵相关联的词。例如:“北京”和“海淀”,虽然都为“地名.地区”,但是前者内涵是“行政市”,后者内涵是“行政区”,表现在词条的外延上,即前者往往和“市”、“市长”等词共现较多,后者往往和“区”、“区政府”等词共现较多。统计词条在大规模语料中的上下文特征,然后根据这些上下文特征之间的相似度,就可以将相同词性下的不同词条,聚为若干类,从而形成相应的词类。在本实施例中,上下文特征指一定上下文范围内最频繁共现的若干个词及其次数,例如表1所示:
表1
其中“<市,18776>”表示在大规模语料中,“北京”这个词条的上下文中,“市”这个词出现了18776次。值得注意的是,上下文特征并不仅限于“一定上下文范围内最频繁共现的若干个词及其次数”这种实施方式,其他任何可以体现上下文关系的特征,都包含在本发明的范围之内。
除了可以采用词条在大规模语料中的上下文特征进行聚类以外,聚类还可以采用其他特征,例如词条的位置特征,如:将出现在某个词语附近相同位置的词条聚为一类;或词条的释义特征,如:相同释义的词条可以聚为一类;或词条的同义词关系特征,如:具有相同同义词的词条聚为一类;或词条的结构化信息特征,如:最后一个字是“车”的名词,包括“火车”、“电车”、“自行车”等都可以聚为一类。由于可以聚类的特征不能穷举,所以任何可以用作聚类的特征,都应包含在本发明的范围之内。
方式2:在大规模语料库中统计各词条在对应词性下的词频,并为词频大于设定阈值的每个词条分配一个类别作为该词条在对应词性下的词类。
以表2为例:
表2
如果设定阈值为10000,则代词中的词条“我”、“你”,动词中的词条“说”、“走”在大规模语料中出现的次数超过了设定阈值,因此可以为这些词条单独分配一个类别作为该词条在对应词性下的词类,例如词条“我”的词类为“代词.1”,“你”的词类为“代词.2”,在“代词.1”词类下只有一个对象“我”,在“代词.2”词类下只有一个对象“你”。值得注意的是,在其他的实施例中,词类也可以不在词性的概念下获取,例如,步骤201中也可以仅标注各词条而不标注各词条的词性,在步骤202中,根据各词条的聚类特征对各词条进行聚类从而得到各词条的词类,也是可行的。
步骤203:利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率。
词类间的转移概率指的是前一个或多个词类出现的条件下后一个词类相邻出现的概率。如果仅考虑二元共现,则词类间的转移概率就是前一个词类出现的条件下后一个词类相邻出现的概率,如果考虑多元共现,则词类间的转移概率就是前多个词类出现的条件下后一个词类相邻出现的概率。统计各词类间的转移概率和各词条以对应词类出现的概率,一种方法是基于马尔科夫链,根据最大似然估计直接统计概率,即:
词条以对应词类出现的概率=词条以对应词类出现的次数/该词类出现的总次数。
词类间的转移概率=n个词类相邻共现的次数/其中出现在前面的n-1个词类相邻出现的总次数,n大于等于2。
例如:“游泳”作为“名词.5”类出现了30次,“名词.5”类出现了400次,“名词.5”类与“动词.1”类前后相邻共现的次数为200,则“游泳”在“名词.5”类下的生成概率P(游泳|名词.5)=30/400,“名词.5”类到“动词.1”类的转移概率P=(动词.1|名词.5)=200/400。
上述出现的次数指的均为在训练语料中出现的次数。
除此之外,统计词条以对应词类出现的概率和词类间的转移概率还可以采用基于条件随机场模型(CRF)的机器学习工具进行特征训练。具体方法可见参考文献:Taku Kudo,Kaoru Yamamoto,and Yuji Matsumoto.(2004).Applying conditional random fields to Japanese morphological analysis.In Proc.of EMNLP 2004(下文称为参考文献1)。
步骤204:确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并,得到各词条的生成概率。
每一个词条都具有相应的读音,与之相对的,每个读音也会有相应的概率,对于只具有唯一读音的词条,其对应读音的概率就是1,但是对具有多个读音的词条,其每个读音都具有一个相应的小于1的概率值。例如下面表3所示:
表3
词 | 读音 | 概率 |
和 | he | 0.7 |
和 | huo | 0.2 |
和 | hu | 0.1 |
词条以对应读音出现的概率可以通过人工标注的方式获得,也可以通过标注读音的训练语料中统计得来。确定词条以对应读音出现的概率,主要是确定那些具有多个读音的词条在每个读音下的概率,因为对于只有一个读音的词条而言,其出现的概率就是1。
在确定词条以对应读音出现的概率以后,将词条以对应读音出现的概率与词条与对应词类出现的概率合并,就可以得到词条的生成概率。合并策略为:词条在对应词类下具有唯一读音的情况下,词条的生成概率就是词条以对应词类出现的概率,否则词条的生成概率为词条以对应读音出现的概率及词条以对应词类出现的概率相乘。词条的生成概率指的是具有相应读音的词条以对应词类出现的概率。
例如对表3所举例子中的“和”这个词条,假设其以对应词类出现的概率如表4所示:
表4
词 | 词类 | 概率 |
和 | 动词.1 | 0.2 |
和 | 连词.1 | 0.8 |
则将词条以对应读音出现的概率与词条以对应词类出现的概率合并后,可以得到如表5所示的词条生成概率:
表5
词 | 词类 | 读音 | 概率 |
和 | 动词.1 | he | 0.2*0.7=0.14 |
和 | 动词.1 | huo | 0.2*0.2=0.04 |
和 | 动词.1 | hu | 0.2*0.1=0.02 |
和 | 连词.1 | he | 0.8*1=0.8 |
由于“和”只有在动词下才可能具有多个读音,而作为连词时只有一个读音,因此在合并时,将根据语言的语法规律进行概率分配。
此外,词条的生成概率也可以是二元的,即考虑词条本身的词类与相邻词条的词类时得到的概率。例如表6:
表6
本词 | 本词类 | 后词类 | 读音 | 概率 |
和 | 动词.1 | 名词.1(棋) | he | 1 |
和 | 动词.1 | 名词.2(面) | huo | 1 |
和 | 动词.1 | 名词.3(牌、麻将等) | hu | 1 |
和 | 连词 | … | he | 1 |
表6中由于有了后词类信息,词条的生成概率在相应限制信息下就是1。后词类信息可由人工进行标注。
步骤205:根据各词条的生成概率得到音字词典,根据各词类间的转移概率得到转移词典,并将音字词典与转移词典添加到转换模型。
表5即可视为音字词典的一种结构,其包含词条、词条对应的词类和读音以及词条的生成概率。表6也可视为音字词典的一种结构,其中词条的生成概率是二元的。转移词典的示意结构可如表7所示:
表7
词类 | 词类 | 词类间转移概率 |
地名.地区.1 | 机构名.品牌.2 | 0.0017 |
…… | …… | …… |
当然,如果考虑词类的多元共现,转移词典的示意结构还可以如表8所示:
表8
前二词类 | 前一词类 | 词类 | 词类间转移概率 |
地名.地区.1 | 地名.地区.2 | 机构名.品牌.2 | 0.0018 |
…… | …… | …… | …… |
请继续参考图1与图2。由于有了转换模型,在步骤103中,查找转换模型中的音字词典,由于相同的读音可以对应不同的文字,所以在每个读音节点下面,就可以生成若干个音字节点。音字节点为读音与相应词条的组合。如图2所示,“xian先助词.8”、“xian鲜形容.5”、“xian西安名词.5”等都是音字节点。在本发明中,生成音字节点的策略为:根据读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个词条与读音节点结合生成音字节点,其中N2为正整数。
例如:“xian”这个读音能够映射的文字结果有“先”、“鲜”、“西安”、“线”等等,假设“xian”这个读音能够映射的词条有100个,不一定会生成100个音字节点,而是将这100个词条在大规模语料中出现的频率作为生成音字节点的依据,从中选出出现频率从高到低排列在前面的N2个词条生成音字节点。比如,N2为50,则将这100个词条按照出现频率的高低进行排序,然后选出排名前50的词条与“xian”结合生成50个音字节点。如果某个读音只能映射一个词条,当然也就只会在这个读音节点下生成一个音字节点。
在图2中,由不同的音字节点组合,就能得到原读音代码序列对应的文字序列转换结果。文字序列转换结果由一个以上音字节点构成,且构成该文字序列转换结果的音字节点的读音构成原读音代码序列。显然,转换结果可能有很多种,为了决定最终给用户输出哪些转换结果,就需要对这些转换结果的合理性进行评估。步骤104中,计算转换结果的得分,就是为了评估这种合理性。计算转换结果的得分,采用的方法是:从音字词典查找词条的生成概率得到文字序列转换结果的所有音字节点的生成概率,从转移词典查找词类间的转移概率得到文字序列转换结果的所有音字节点的转移概率,然后将文字序列转换结果的所有音字节点的生成概率与转移概率相乘得到文字序列转换结果的得分。
以图2中所示的加粗路径表示的转换结果为例:
P(路径1)=P(名词.5|BOS)×P(西安,xian|名词.5)×P(名词.7|名词.5)×P(市长,shizhang|名词.7)×P(EOS|名词.7)
P(路径2)=P(形容.2|BOS)×P(细,xi|形容.2)×P(动词.1|形容.2)×P(暗示,anshi|动词.1)×P(人名.1|动词.1)×P(张,zhang|人名.1)×P(EOS|人名.1)
其中,BOS与EOS表示路径的开始和结束,p(名词.5|BOS)与p(EOS|名词.7)分别表示以词类为名词.5的词开始的概率和以词类为名词.7的词结束的概率,而p(xian西安|名词.5)与p(名词.7|名词.5)分别表示在词类为名词.5的条件下出现读音为“xian”的“西安”的概率和在前一个词的词类为名词.5的条件下,下一个词的词类是名词.7的概率,其他节点的概率的含义与之类似。
假设计算的转换结果的数量为30,而步骤105中N1为20,则从这30个结果中取得分最高的前20个转换结果作为最终结果输出。
请参考图4,图4为本发明中音字转换装置的实施例的结构示意框图。如图4所示,所述装置包括:接收单元301、切分单元302、节点生成单元303、模型生成单元304、计算单元305、输出单元306。
其中接收单元301,用于获取用户输入的读音代码序列。读音代码序列指的是能表示用户欲输入文字的读音符号,以中文为例,这个读音代码可以为拼音,以日文为例,这个读音代码可以为罗马字符表示的假名音。
切分单元302,用于对读音代码序列进行划分,得到各读音节点。对读音代码序列进行划分,就是对用键盘字符表示的读音代码序列进行所有符合语言学规则的切分,例如在中文的拼音中,声母应该与韵母组合,因此在切分时就不会出现多个声母组合的读音节点。请参考图2,图2为本发明中音字节点形成的各种转换结果示意图。如图2所示,图中的“xian”、“shizhang”、“xi”、“an”、“shi”、“zhang”、“anshi”就是对读音代码序列“xianshizhang”进行各种切分后得到的读音节点。
节点生成单元303,用于根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述转换模型包括音字词典与转移词典。音字词典中记录了各个词条、词条的读音及其相关概率,转移词典中记录了各个词类及其相关概率。
转换模型是通过模型生成单元304建立的,其中模型生成单元304包括标注子单元3041、词类确定子单元3042、训练子单元3043、概率合并子单元3044和添加子单元3045。
其中标注子单元3041,用于为训练语料标注各词条及各词条的词性。对训练语料标注各词条,就是对连续的文本语料,标注出分词得到的各词条及其词性。例如“我爱北京天安门”这样一个文本,经过标注后可以得到“我<代词>/爱<动词>/北京/<地名.地区>/天安门<地名.地点>”这样一个标注后的文本。在这里,当一个词是专有名词时,词性还指具体的专有名词属性。例如上面的“地名.地区”和“地名.地点”等都是具体的专有名词属性。
词类确定子单元3042,用于确定各词条在对应词性下的词类。
词类确定单元包括以下子单元:聚类子单元30421和词频统计子单元30422且词频统计子单元30422的处理优先级高于聚类子单元30421。
其中聚类子单元30421,用于根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条聚类的类别作为各词条在对应词性下的词类。
聚类特征可以采用词条在大规模语料中的上下文特征。大规模语料不限于上文所说的已标注的训练语料,还可包括更大范围的未标注语料,例如各种来源的文本。
对于同一词性下的不同词条,由于词条内涵的区别,该词语出现时,其上下文会出现一些与其内涵相关联的词。例如:“北京”和“海淀”,虽然都为“地名.地区”,但是前者内涵是“行政市”,后者内涵是“行政区”,表现在词条的外延上,即前者往往和“市”、“市长”等词共现较多,后者往往和“区”、“区政府”等词共现较多。统计词条在大规模语料中的上下文特征,然后根据这些上下文特征之间的相似度,就可以将相同词性下的不同词条,聚为若干类,从而形成相应的词类。在本实施例中,上下文特征指一定上下文范围内最频繁共现的若干个词及其次数,但上下文特征并不仅限于“一定上下文范围内最频繁共现的若干个词及其次数”这种实施方式,其他任何可以体现上下文关系的特征,都包含在本发明的范围之内。
除了可以采用词条在大规模语料中的上下文特征进行聚类以外,聚类还可以采用其他特征,例如词条的位置特征,如:将出现在某个词语附近相同位置的词条聚为一类;或词条的释义特征,如:相同释义的词条可以聚为一类;或词条的同义词关系特征,如:具有相同同义词的词条聚为一类;或词条的结构化信息特征,如:最后一个字是“车”的名词,包括“火车”、“电车”、“自行车”等都可以聚为一类。由于可以聚类的特征不能穷举,所以任何可以用作聚类的特征,都应包含在本发明的范围之内。
词频统计子单元30422,用于在大规模语料库中统计各词条在对应词性下的词频,并为词频大于设定阈值的每个词条分配一个类别作为该词条在对应词性下的词类。
在其他实施例中,词类确定子单元3042也可以只包括聚类子单元30421而不包括词频统计子单元30422。
值得注意的是,在其他实施例中,标注子单元3041也可以不标注各词条的词性,词类获取子单元3042可仅根据各词条的聚类特征对各词条进行聚类从而得到各词条的词类,而无需在词性范围内对词条进行聚类。
训练子单元3043,用于利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率。
词类间的转移概率指的是前一个或多个词类出现的条件下后一个词类相邻出现的概率。如果仅考虑二元共现,则词类间的转移概率就是前一个词类出现的条件下后一个词类相邻出现的概率,如果考虑多元共现,则词类间的转移概率就是前多个词类出现的条件下后一个词类相邻出现的概率。统计各词类间的转移概率和各词条以对应词类出现的概率,一种方法是基于马尔科夫链,根据最大似然估计直接统计概率,即:
词条以对应词类出现的概率=词条以对应词类出现的次数/该词类出现的总次数。
词类间的转移概率=n个词类相邻共现的次数/其中出现在前面的n-1个词类相邻出现的总次数,n大于等于2。
例如:“游泳”作为“名词.5”类出现了30次,“名词.5”类出现了400次,“名词.5”类与“动词.1”类前后相邻共现的次数为200,则“游泳”在“名词.5”类下的生成概率P(游泳|名词.5)=30/400,“名词.5”类到“动词.1”类的转移概率P=(动词.1|名词.5)=200/400。
上述出现的次数指的均为在训练语料中出现的次数。
除此之外,统计词条以对应词类出现的概率和词类间的转移概率还可以采用基于条件随机场模型(CRF)的机器学习工具进行特征训练。具体方法可见参考文献1。
概率合并子单元3044,用于确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并,得到各词条的生成概率。
每一个词条都具有相应的读音,与之相对的,每个读音也会有相应的概率,对于只具有唯一读音的词条,其对应读音的概率就是1,但是对具有多个读音的词条,其每个读音都具有一个相应的小于1的概率值。例如表9所示:
表9
词 | 读音 | 概率 |
和 | he | 0.7 |
和 | huo | 0.2 |
和 | hu | 0.1 |
词条以对应读音出现的概率可以通过人工标注的方式获得,也可以通过标注读音的训练语料中统计得来。确定词条以对应读音出现的概率,主要是确定那些具有多个读音的词条在每个读音下的概率,因为对于只有一个读音的词条而言,其出现的概率就是1。
在确定词条以对应读音出现的概率以后,将词条以对应读音出现的概率与词条与对应词类出现的概率合并,就可以得到词条的生成概率。合并策略为:词条在对应词类下具有唯一读音的情况下,词条的生成概率就是词条以对应词类出现的概率,否则词条的生成概率为词条以对应读音出现的概率及词条以对应词类出现的概率相乘。词条的生成概率指的是具有相应读音的词条以对应词类出现的概率。
例如对表7所举例子中的“和”这个词条,假设其以对应词类出现的概率如表10所示:
表10
词 | 词类 | 概率 |
和 | 动词.1 | 0.2 |
和 | 连词.1 | 0.8 |
则将词条以对应读音出现的概率与词条以对应词类出现的概率合并后,可以得到如表11所示的词条生成概率:
表11
词 | 词类 | 读音 | 概率 |
和 | 动词.1 | he | 0.2*0.7=0.14 |
和 | 动词.1 | huo | 0.2*0.2=0.04 |
和 | 动词.1 | hu | 0.2*0.1=0.02 |
和 | 连词.1 | he | 0.8*1=0.8 |
由于“和”只有在动词下才可能具有多个读音,而作为连词时只有一个读音,因此在合并时,将根据语言的语法规律进行概率分配。
此外,词条的生成概率也可以是二元的,即考虑词条本身的词类与相邻词条的词类时得到的概率。例如表12:
表12
本词 | 本词类 | 后词类 | 读音 | 概率 |
和 | 动词.1 | 名词.1(棋) | he | 1 |
和 | 动词.1 | 名词.2(面) | huo | 1 |
和 | 动词.1 | 名词.3(牌、麻将等) | hu | 1 |
和 | 连词 | … | he | 1 |
表12中由于有了后词类信息,词条的生成概率在相应限制信息下就是1。后词类信息可由人工进行标注。
添加子单元3045,用于根据各词条的生成概率得到音字词典,根据各词类间的转移概率得到转移词典,并将音字词典与转移词典添加到转换模型。
表11即可视为音字词典的一种结构,其包含词条、词条对应的词类和读音以及词条的生成概率。表12也可视为音字词典的一种结构,其中词条的生成概率是二元的。转移词典的示意结构可如表13所示:
表13
词类 | 词类 | 词类间转移概率 |
地名.地区.1 | 机构名.品牌.2 | 0.0017 |
…… | …… | …… |
当然,如果考虑词类的多元共现,转移词典的示意结构还可以如表14所示:
表14
前二词类 | 前一词类 | 词类 | 词类间转移概率 |
地名.地区.1 | 地名.地区.2 | 机构名.品牌.2 | 0.0018 |
…… | …… | …… | …… |
由于相同的读音可以对应不同的文字,节点生成单元303查找转换模型中的音字词典,就可以在每个读音下面生成若干个音字节点。音字节点为读音与相应词条的组合。
如图2所示,“xian先助词.8”、“xian鲜形容.5”、“xian西安名词.5”等都是音字节点。在本发明中,生成音字节点的策略为:根据读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个词条与读音节点结合生成音字节点,其中N2为正整数。
例如:“xian”这个读音能够映射的文字结果有“先”、“鲜”、“西安”、“线”等等,假设“xian”这个读音能够映射的词条有100个,不一定会生成100个音字节点,而是将这100个词条在大规模语料中出现的频率作为生成音字节点的依据,从中选出出现频率从高到低排列在前面的N2个词条生成音字节点。比如,设定的N2为50,则将这100个词条按照出现频率的高低进行排序,然后选出排名前50的词条与“xian”结合生成50个音字节点。如果某个读音只能映射一个词条,当然也就只会在这个读音节点下生成一个音字节点。
计算单元305,用于根据音字词典中的词条的生成概率与转移词典中词类间的转移概率计算读音代码序列对应的各文字序列转换结果的得分。
由不同的音字节点组合,就能得到原读音代码序列对应的文字序列转换结果。文字序列转换结果由一个以上音字节点构成,且构成该文字序列转换结果的音字节点的读音构成原读音代码序列。显然,转换结果可能有很多种,为了决定最终给用户输出哪些转换结果,就需要对这些转换结果的合理性进行评估。计算转换结果的得分,就是为了评估这种合理性。
计算单元305包括查找子单元3051和得分计算子单元3052。其中查找子单元3051,用于从音字词典查找词条的生成概率得到文字序列转换结果的所有音字节点的生成概率,从转移词典查找词类间的转移概率得到文字序列转换结果的所有音字节点的转移概率。
得分计算子单元3052,用于将文字序列转换结果的所有音字节点的生成概率与转移概率相乘得到文字序列转换结果的得分。
以图2中所示的加粗路径表示的转换结果为例:
P(路径1)=P(名词.5|BOS)×P(西安,xian|名词.5)×P(名词.7|名词.5)×P(市长,shizhang|名词.7)×P(EOS|名词.7)
P(路径2)=P(形容.2|BOS)×P(细,xi|形容.2)×P(动词.1|形容.2)×P(暗示,anshi|动词.1)×P(人名.1|动词.1)×P(张,zhang|人名.1)×P(EOS|人名.1)
其中,BOS与EOS表示路径的开始和结束,p(名词.5|BOS)与p(EOS|名词.7)分别表示以词类为名词.5的词开始的概率和以词类为名词.7的词结束的概率,而p(xian西安|名词.5)与p(名词.7|名词.5)分别表示在词类为名词.5的条件下出现读音为“xian”的“西安”的概率和在前一个词的词类为名词.5的条件下,下一个词的词类是名词.7的概率,其他节点的概率的含义与之类似。
输出单元306,用于选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。
假设计算的转换结果的数量为30,而N1设为20,则从这30个结果中取得分最高的前20个转换结果作为最终结果输出。
值得说明的是,本发明中任何地方提到的词或词条,既包括由多字组成的词语,也包括单字成词,另外在本发明中提到的概率,既可以以一个小于1的概率值表示,也可以以一个表示数量的频率值表示。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (12)
1.一种音字转换方法,其特征在于,所述方法包括:
A.获取用户输入的读音代码序列;
B.对所述读音代码序列进行划分,得到各读音节点;
C.根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为:具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为:前一个或多个词类出现的条件下后一个词类相邻出现的概率;所述词类是根据各词条的聚类特征对各词条进行聚类得到的各词条所属聚类的类别,所述词类是在词性概念下由具有相同词性的词条聚类出的类别,或者是不在词性概念下获得的类别,所述聚类特征包括词条在大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征;
D.根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;
E.选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。
2.根据权利要求1所述的方法,其特征在于,所述转换模型是通过下列方式获得的:
a.为训练语料标注各词条及各词条的词性;
b.确定各词条在对应词性下的词类;
c.利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率;
d.确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并,得到各词条的生成概率;
e.根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。
3.根据权利要求2所述的方法,其特征在于,所述步骤b包括以下方式中的S1,或者,S1与S2的组合且S2的执行优先级高于S1:
S1.根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;
S2.在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。
4.根据权利要求2所述的方法,其特征在于,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。
5.根据权利要求1所述的方法,其特征在于,所述步骤C中,根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个词条与所述读音节点结合生成所述音字节点,其中N2为正整数。
6.根据权利要求1所述的方法,其特征在于,所述步骤D包括:
从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转移词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率;
将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。
7.一种音字转换装置,其特征在于,所述装置包括:
接收单元,用户获取用户输入的读音代码序列;
切分单元,用于对所述读音代码序列进行划分,得到各读音节点;
节点生成单元,用于根据转换模型的音字词典,在每个读音节点下生成一个或多个音字节点,所述音字节点为读音与相应词条的组合,其中所述转换模型包括音字词典与转移词典,所述音字词典包括词条的生成概率,所述转移词典包括词类间的转移概率,所述词条的生成概率为:具有相应读音的词条以对应词类出现的概率,所述词类间的转移概率为:前一个或多个词类出现的条件下后一个词类相邻出现的概率;所述词类是根据各词条的聚类特征对各词条进行聚类得到的各词条所属聚类的类别,所述词类是在词性概念下由具有相同词性的词条聚类出的类别,或者是不在词性概念下获得的类别,所述聚类特征包括词条在大规模语料中的上下文特征、词条的位置特征、词条的释义特征、词条的同义词关系特征或词条的结构化信息特征;
计算单元,用于根据所述音字词典中的词条的生成概率与所述转移词典中的词类间的转移概率计算所述读音代码序列对应的各文字序列转换结果的得分,所述文字序列转换结果由一个以上所述音字节点构成,且构成所述文字序列转换结果的音字节点的读音构成所述读音代码序列;
输出单元,选择得分排在前N1个的文字序列转换结果作为最终结果输出,N1为正整数。
8.根据权利要求7所述的装置,其特征在于,所述装置进一步包括模型生成单元,所述模型生成单元包括:
标注子单元,用于为训练语料标注各词条及各词条的词性;
词类确定子单元,用于确定各词条在对应词性下的词类;
训练子单元,用于利用标注好的训练语料统计各词类间的转移概率和各词条以对应词类出现的概率;
概率合并子单元,用于确定各词条以对应读音出现的概率,并将各词条以对应读音出现的概率与各词条以对应词类出现的概率合并得到各词条的生成概率;
添加单元,用于根据各词条的生成概率得到所述音字词典,根据各词类间的转移概率得到所述转移词典,并将所述音字词典与所述转移词典添加到所述转换模型。
9.根据权利要求8所述的装置,其特征在于,所述词类确定子单元包括聚类子单元,或者,包括所述聚类子单元与词频统计子单元的组合且所述词频统计子单元的处理优先级高于所述聚类子单元;
其中所述聚类子单元,用于根据各词条的聚类特征,对具有相同词性的词条进行聚类,并将各词条所属聚类的类别作为各词条在对应词性下的词类;
所述词频统计子单元,用于在大规模语料中统计各词条在对应词性下的词频,并为所述词频大于设定阈值的每个词条分配一个类别作为所述词频大于设定阈值的词条在对应词性下的词类。
10.根据权利要求8所述的装置,其特征在于,所述词条以对应读音出现的概率是通过从标注读音的训练语料中统计得到的。
11.根据权利要求7所述的装置,其特征在于,所述节点生成单元根据所述读音节点映射的所有词条在大规模语料中出现频率的高低顺序,选择排列在前的N2个的词条与所述读音节点结合生成所述音字节点,其中N2为正整数。
12.根据权利要求7所述的装置,其特征在于,所述计算单元包括:
查找子单元,用于从所述音字词典查找词条的生成概率得到所述文字序列转换结果的所有音字节点的生成概率,从所述转移词典查找词类间的转移概率得到所述文字序列转换结果的所有音字节点的转移概率;
得分生成子单元,用于将所述文字序列转换结果的所有音字节点的生成概率与所述文字序列转换结果的所有音字节点的转移概率相乘得到所述转换结果的得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110223826.0A CN102929864B (zh) | 2011-08-05 | 2011-08-05 | 一种音字转换方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110223826.0A CN102929864B (zh) | 2011-08-05 | 2011-08-05 | 一种音字转换方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102929864A CN102929864A (zh) | 2013-02-13 |
CN102929864B true CN102929864B (zh) | 2016-08-17 |
Family
ID=47644665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110223826.0A Active CN102929864B (zh) | 2011-08-05 | 2011-08-05 | 一种音字转换方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102929864B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182390B (zh) * | 2014-08-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 对用户信息进行个性化处理的方法及系统 |
CN109144284B (zh) * | 2017-06-15 | 2022-07-15 | 百度在线网络技术(北京)有限公司 | 信息显示方法和装置 |
CN111142681B (zh) * | 2018-11-06 | 2023-11-03 | 北京嘀嘀无限科技发展有限公司 | 一种确定汉字拼音的方法、系统、装置及存储介质 |
CN112542154B (zh) * | 2019-09-05 | 2024-03-19 | 北京地平线机器人技术研发有限公司 | 文本转换方法、装置、计算机可读存储介质及电子设备 |
CN110688483B (zh) * | 2019-09-16 | 2022-10-18 | 重庆邮电大学 | 文景转换中基于词典的名词可视性标注方法、介质及系统 |
CN111078898B (zh) * | 2019-12-27 | 2023-08-08 | 出门问问创新科技有限公司 | 一种多音字标注方法、装置以及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN102103416A (zh) * | 2009-12-17 | 2011-06-22 | 新浪网技术(中国)有限公司 | 一种汉字输入方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
KR101465770B1 (ko) * | 2007-06-25 | 2014-11-27 | 구글 인코포레이티드 | 단어 확률 결정 |
-
2011
- 2011-08-05 CN CN201110223826.0A patent/CN102929864B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN102103416A (zh) * | 2009-12-17 | 2011-06-22 | 新浪网技术(中国)有限公司 | 一种汉字输入方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102929864A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102929870B (zh) | 一种建立分词模型的方法、分词的方法及其装置 | |
CN102929864B (zh) | 一种音字转换方法及装置 | |
Khalifa et al. | A large scale corpus of Gulf Arabic | |
CN102122298B (zh) | 一种中文相似性匹配方法 | |
CN101158969B (zh) | 一种整句生成方法及装置 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
CN102214166B (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN105893444A (zh) | 情感分类方法及装置 | |
CN104794169A (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
CN103678271B (zh) | 一种文本校正方法及用户设备 | |
CN108073571B (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
Verberne | Context-sensitive spell checking based on word trigram probabilities | |
CN106569993A (zh) | 一种挖掘领域术语间上下位关系的方法及装置 | |
GB2248328A (en) | Conversion of phonetic Chinese to character Chinese | |
CN111460158B (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN105512110A (zh) | 一种基于模糊匹配与统计的错字词知识库构建方法 | |
CN110555140A (zh) | 面向口令猜测的语料乘积规则的描述、生成与检测方法 | |
CN103608805B (zh) | 辞典产生装置及方法 | |
CN115186654A (zh) | 一种公文文本摘要生成方法 | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |