CN105593845A

CN105593845A - 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法

Info

Publication number: CN105593845A
Application number: CN201480054951.5A
Authority: CN
Inventors: 池昌真
Original assignee: SYSTRAN INTERNATIONAL Co Ltd
Current assignee: SYSTRAN INTERNATIONAL Co Ltd
Priority date: 2013-10-02
Filing date: 2014-08-27
Publication date: 2016-05-18
Anticipated expiration: 2034-08-27
Also published as: WO2015050321A1; CN105593845B; JP6532088B2; KR101509727B1; WO2015050321A8; US10282413B2; US20160217122A1; JP2016538666A

Abstract

本发明公开基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法。语素分析装置包括知识数据库和分析器。知识数据库储存有在按语言的语素分析中使用的多个知识信息，包括：语素词典，储存与正常表达对应的语素信息；排列语料库，储存与破坏性表达对应的正常表达信息，其中破坏性表达是拼写错误或者没有规范化和标准化的表达。分析器对所输入的语节使用所述知识数据库进行语素分析并输出分析结果，当在所述语素词典中不存在输入语节的语素时，对在所述输入语节中包含的破坏性表达使用所述排列语料库查找与所述破坏性表达对应的正常表达并进行语素分析。

Description

基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法

技术领域

本发明涉及一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法。

背景技术

最近，博客、特别是以Facebook和推特(Twitter)为首的社交平台、Kakaotalk等移动短信不仅在电脑，在智能手机上也已习以为常，并且其使用呈现出日益增加的趋势。

但在这种短信的使用过程中，泛滥着包含不符合拼写规定的错误的破坏性表达。在此，破坏性表达是指拼写错误或者没有规范化和标准化的表达，包含这种破坏性表达的句子称为破坏性句子。这种破坏性句子为因互联网的活性化和智能手机的普及而产生的新的语言使用范式。

破坏性句子虽然包含着作为非规范表达的破坏性表达，但不影响传递句子的含义。

另外，在机器翻译等的自然语言信息处理、检索、数据挖掘等中使用的语素分析中，其操作对象为不包含破坏性表达的正常句子。即，以往的语素分析中使用语素词典，该语素词典中储存有在语素分析中将要使用的语素知识或者语素信息。然而，如上所述的破坏性句子中所包含的已破坏的语素在其特性上不可能被收录于规范的语素词典中，并且将单纯破坏的语素加入语素词典的方式上也有局限性，因此具有对包含破坏性表达的破坏性句子难以进行语素分析的问题。

发明内容

本发明所要解决的技术问题是提供一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法，该生成装置及方法、该分析装置及分析方法能够对包含破坏性表达的破坏性句子进行准确的语素分析。

根据本发明的一个特征的排列语料库的生成方法，包括步骤：构建双语语料库，所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对，其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达；及对所述双语语料库进行基于自学的排列，从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。

在此，所述双语语料库的构建步骤包括：通过网络收集多个破坏性句子；利用查询对包含在被收集的破坏性句子中的破坏性表达进行网络检索，以判断该破坏性句子的普遍性；当判断为被收集的破坏性句子具有普遍性时，生成与该破坏性句子对应的正常句子；及将所生成的正常句子和与该正常句子对应的破坏性句子组成为一对，以构建所述双语语料库。

此外，本发明的特征在于，在所述普遍性的判断步骤中，以利用所述查询的检索结果的量为基准，当超过基准量时，判断为该破坏性表达具有普遍性，所述普遍性的判断通过利用多个门户网站的网络检索自动运行。

此外，生成所述排列语料库的步骤包括：以随机或者初始化方法学，在所述双语语料库给出的字符串中设定子字符串对(sub-stringpair)，并初始化关联概率；根据字符串的匹配及该匹配概率值，进行破坏性表达和正常表达之间的匹配，以使破坏性句子和正常句子之间能够最匹配；重新计算新排列的各子字符串对之间的概率；及满足自学停止条件为止反复执行所述匹配步骤及所述计算步骤，当满足所述自学停止条件时，将最终输出的破坏性表达、正常表达及关联概率储存在所述排列语料库中，其中所述关联概率为所述破坏性表达和正常表达的排列概率值。

此外，本发明的特征在于，为了生成所述排列语料库，使用期望最大化(EM，Expectation-Maximization)算法，以便在自学基础上求出排列并且设定排列的概率值，其中所述自学是为了生成所述排列语料库而进行的。

根据本发明的另一特征的排列语料库的生成装置，包括：双语语料库构建部，用于构建双语语料库，所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对，其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达；及自学部，对通过所述双语语料库构建部构建的双语语料库进行基于自学的排列，从而生成由破坏性表达及与该破坏性表达的正常表达排列而成的排列语料库。

在此，所述自学部包括：双语语料库，由所述双语语料库构建部构建；及自学排列部，对所述双语语料库使用自学方法学习破坏性表达和正常表达的单音节、多音节或者单词之间的最佳排列概率值，从而生成所述排列语料库。

此外，所述双语语料库构建部包括：破坏性句子收集器，通过网络收集多个破坏性句子；普遍性判断器，利用查询对通过所述破坏性句子收集器收集的破坏性句子中所包含的破坏性表达进行网络检索，并判断该破坏性句子的普遍性；正常句子生成器，当判断为被收集的破坏性句子具有普遍性时，生成与该破坏性句子对应的正常句子；及构建器，将通过所述正常句子生成器生成的正常句子和与该正常句子对应的破坏性句子组成为一对，以构建所述双语语料库。

此外，所述自学排列部包括：初始化器，以随机或者初始化方法学，在所述双语语料库给出的字符串中设定子字符串对(sub-stringpair)，并初始化关联概率；E-步骤处理器，根据字符串的匹配及该匹配概率值，进行破坏性表达和正常表达之间的匹配，以使破坏性句子和正常句子之间能够最匹配；M-步骤处理器，重新计算新排列的各子字符串对之间的概率；及控制器，将所述双语语料库中构建的破坏性句子和正常句子的字符串向所述初始化器输入，在所述M-步骤处理器的概率计算后，满足自学的停止条件为止控制所述E-步骤处理器及M-步骤处理器进行反复操作，当满足所述自学停止条件时生成用于储存最终输出的破坏性表达、正常表达及关联概率的所述排列语料库。

根据本发明的另一特征的语素分析装置，包括：知识数据库，储存有在按语言的语素分析中使用的多个知识信息，并且包括语素词典和排列语料库，所述语素词典储存与正常表达对应的语素信息，所述排列语料库储存与破坏性表达对应的正常表达信息，其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达；及分析器，使用所述知识数据库，对所输入的语节进行语素分析并输出分析结果，当所述语素词典中不存在与输入语节对应的语素时，对所述输入语节中包含的破坏性表达，使用所述排列语料库查找与所述破坏性表达对应的正常表达并进行语素分析。

在此，所述知识数据库进一步包括储存按语素的连接信息的已分析词典，所述分析器包括：语素分割部，使用所述语素词典分割构成所述输入语节的语素，当所述语素词典中不存在构成所述输入语节的语素时，使用所述排列语料库并且利用对应的正常表达来进行语素分割；连接信息核实部，使用所述已分析词典，对通过所述语素分割部分割的语素提取可组合的语素；及原型恢复部，对通过所述连接信息核实部提取的语素进行原型恢复，并将原型恢复后的语素作为语素分析结果来输出。

此外，所述语素分割部包括：候补群生成器，将所述输入语节分割为语素，以生成语素候补；正常表达核实器，对所述候补群生成器所生成的语素候补，使用所述语素词典核实是否存在该语素候补；破坏性表达核实器，当通过所述正常表达核实器判断为在所述语素词典中不存在语素候补时，对该语素候补，使用所述排列语料库核实是否存在所述输入语节的破坏性表达；分割处理器，当通过所述正常表达核实器判断为在所述语素词典中存在语素候补时，从输入语节中分割出该语素候补，以进行语素分割处理；及控制器，通过控制所述候补群生成器、所述正常表达核实器、所述破坏性表达核实器及所述分割处理器来进行对所述输入语节的语素分割，当通过所述正常表达核实器判断为在所述语素词典中不存在所述候补群生成器所生成的语素候补时，控制所述破坏性表达核实器查找对应的正常表达后向所述候补群生成器重新输入该正常表达。

此外，本发明的特征在于，所述排列语料库为通过对双语语料库进行基于自学的排列，从而由破坏性表达及与该破坏性表达对应的正常表达排列而成的语料库，其中所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子构成的句子对。

此外，本发明的特征在于，所述排列语料库中包括关联概率，所述关联概率为破坏性表达和与该破坏性表达对应的正常表达之间的排列概率值。

此外，本发明的特征在于，在语素分析中，在通过所述语素词典判断是否存在语素时，使用所述关联概率，以相应的各字符串为语素的概率来进行数值化来表达。

此外，本发明的特征在于，通过期望最大化(EM，Expectation-Maximization)算法来生成所述排列语料库。

根据本发明的另一特征的语素分析方法，包括步骤：将所输入的语节分割为语素，以生成语素候补；判断语素候补是否存在于语素词典，其中所述语素词典为储存与正常表达对应的语素信息的词典；当语素候补存在于所述语素词典中时，进行该语素分析；当语素候补不存在于所述语素词典中时，判断包含在所输入的所述语节中的破坏性表达是否存在于排列语料库中，其中，所述破坏性表达是拼写错误或者没有规范化和标准化的表达，所述排列语料库为储存与破坏性表达对应的正常表达信息的语料库；及当破坏性表达存在于所述排列语料库中时，查找与该破坏性表达对应的正常表达并进行语素分析。

在此，进行所述语素分析的步骤包括：

使用储存按语素的连接信息的已分析词典，对语素提取可组合的语素；及对提取的语素进行原型恢复，并将原型恢复后的语素作为语素分析结果来输出。

此外，在进行判断所述语素候补是否存在于语素词典中的步骤之前，进一步包括：生成所述排列语料库的步骤。

此外，所述生成排列语料库的步骤包括：构建双语语料库，所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对；及对所述双语语料库进行基于自学的排列，从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。

通过本发明，能够对包含破坏性表达的破坏性句子进行准确的语素分析。

此外，通过将破坏性表达和正常表达的排列信息作为辅助语素词典来使用，具有如下的效果：常见的语素分析器不仅能够分析破坏性句子的语素，还能实现将破坏性表达转换成正常表达的功能。

此外，通过破坏性表达和正常表达的排列信息及基于自学的排列，将破坏性表达和正常表达的各种关系数值化，从而能够应对各种类型的破坏。

附图说明

图1为示意地表示常见的语素分析装置的方块图。

图2为常见的语素分析方法的流程图。

图3为本发明实施例的语素分析装置的结构方块图。

图4为在图3中表示的语素分割部的具体结构方块图。

图5为用于生成在图3中表示的破坏性表达-正常表达排列语料库的装置的结构方块图。

图6为在图5中表示的双语语料库构建部的结构方块图。

图7为本发明实施例的语素分析方法的流程图。

图8为示意地表示在多种语言中通用的通用语素分析装置结构的图。

图9为在图8中表示的语素分析装置中应用本发明实施例的破坏性表达-正常表达排列语料库的例子的图。

具体实施方式

下面，参照附图对本发明的实施例进行详细说明，以便在本发明所属技术领域的技术人员能够容易实施。但本发明并不局限于在此说明的实施例，可用多种形式实现本发明。此外，为了清楚地说明本发明，在附图中省略了与说明无关的部分，而且在通篇说明书中对相似的部分使用了相同的附图标记。

在整篇说明书中，当提到某部分“包括”某结构要素时，只要没有特别相反的记载，这意味着不排除其他结构要素，而是可进一步包括其他结构要素。此外，在说明书中记载的“...部”、“...器”、“模块”等用语意味着处理至少一个功能或者动作的单位，其可通过硬件、软件或硬件和软件的结合来实现。

首先，对常见的语素分析装置进行说明。

图1为示意地表示常见的语素分析装置的方块图。

参照图1，在常见的语素分析装置10中，语素分割器13参照词典数据库11中的语素词典11-1，对所输入的语节的所有可能的语素进行分割；连接信息核实器15参照词典数据库11中的已分析词典11-3，对通过语素分割器13分割的语素提取可组合的语素，并将其作为最终语素分析结果来输出。

图2为常见的语素分析方法的流程图。

参照图2，语素分割器13将输入语节分割为语素而生成语素候补(S10)，并使用语素词典11-1对所生成的语素候补进行核实(S20)，当语素候补存在于语素词典11-1中时，连接信息核实器15核实连接信息并输出最终分析结果(S30)。

但在此时，在所述步骤S20中若语素候补不存在于语素词典11-1中，则将所述语素候补识别为未登记在语素词典11-1中的单词(Out-ofdictionaryword或者Out-of-Vocabulary(OOV))或者识别为无效的语素，并且处理成语素分析失败(S40)。

本发明的实施例所相对的破坏性表达在上述常见的语素分析装置10中会被识别为未登记的单词或者无效的语素。

下面，对本发明的实施例所相对的破坏性表达进行说明。

在韩语短信的使用中，泛滥着包含拼写错误的韩语破坏性表达，此外因网民尤其是小学生之间新创造并流行的“外星语”的日常使用，导致韩语的破坏现象，这种现象严重到引起学者们担忧的程度。

下面，对所述的韩语破坏性句子的破坏类型进行说明。

(1)拼写错误

很多破坏性句子包含拼写错误。拼写错误为不知道正确的拼法而犯的错误或者忽视正确的拼法而犯的错误。例如有将表达为将表达为将表达为或者将表达为的破坏性表达。这种错误的特点是按照语音来标注，有时通过按照语音来标注，从而作为表现出新的语言色彩的手段来使用。

另一种拼写错误为因打字错误产生的错误。尤其像智能手机，在移动过程中在相对小的屏幕上输入文字时会出现频繁的打字错误。这些错误的特点是输入与需要打字的键相邻的键。例如，被错误输入为这是将错误打字为的情况，此外被输入为这是将错误打字为的情况。尤其是，和和和以及和经常以打字错误彼此输入的概率较高。

(2)新词

新词中的一种是新缩写词。例如，是的缩写词，是的缩写词，是的缩写词，是的缩写词，是的缩写词，这种新缩写词在网民之间通用。

作为另一种新词，如将写为加一个来传递更为机灵可爱的感受。

虽然不属于上述两种类型，但挑战以往的基于正常句子的自然语言处理系统的另一个问题是外语音译的各种版本的通用。例如，与通用，与通用等等。

因外语和韩语发音有区别，难以实现一对一的音译，因此会存在如上的各种音译版本。此外，在这种情况下不仅难以设定音译标准，而且即使设定了标准，在现实生活中不被遵守的可能性更高。

如此，当通过所述常见的语素分析装置10对所述包含破坏性表达的破坏性句子进行语素分析时，因在语素词典11-1中不存在相应的语素，不能实现语素分析，因此不能顺利进行以往的自然语言处理和机器翻译等。

下面，对用于解决所述问题的本发明的实施例进行说明。

图3为本发明实施例的语素分析装置的结构方块图。

如图3所示，本发明实施例的语素分析装置100包括词典数据库(DB)110、语素分割部120、连接信息核实部130及原型恢复部140。

词典数据库110储存有在对输入语节进行语素分析时使用的各种词典信息。这种词典数据库110包括语素词典111、破坏性表达-正常表达排列语料库113和已分析词典115。所述语素词典111在进行语素分析时使用；所述破坏性表达-正常表达排列语料库113储存破坏性表达、与该破坏性表达对应的正常表达以及将破坏性表达和正常表达的关联性数值化后的值即关联概率，并且在进行语素分析时使用；已分析词典115用于进行连接信息的核实，并且在进行原型恢复时使用。此外，还可储存在按语言进行语素分析时使用的各种形式的词典信息。在此，破坏性表达-正常表达排列语料库(corpus)113则通过构建双语语料库，并对所构建的双语语料库的各句子中的破坏性表达和正常表达的最佳排列进行自学来生成，其中，所述双语语料库中包括含有普遍使用的破坏性表达的破坏性句子和与之对应的正常句子。对此，将在后面进行具体说明。另外，在语言处理中使用的语料库(corpus)和语素分析的含义为众所周知的内容，因此在此省略具体说明。

语素分割部120参照词典数据库110的语素词典111和破坏性表达-正常表达排列语料库113来分割构成所输入语节的所有可能的语素。此时，当从输入语节中分割的语素不存在于语素词典111中，但存在于破坏性表达-正常表达排列语料库113中时，语素分割部120使用与该语素对应的正常表达来进行语素分割。

连接信息核实部130参照词典数据库110的已分析词典115，对通过语素分割器120分割的语素提取可组合的语素。

原型恢复部140对通过连接信息核实部130提取的语素进行原型恢复，并将原型恢复后的语素作为语素分析结果来输出。

图4为在图3中表示的语素分割部120的具体结构方块图。

如图4所示，语素分割部120包括候补群生成器121、正常表达核实器122、破坏性表达核实器123、分割处理器124及控制器125。

候补群生成器121将输入语节分割为语素，以生成语素候补。

正常表达核实器122参照语素词典111对候补群生成器121所生成的语素候补进行核实，以核实是否存在该语素候补。

当通过正常表达核实器122判断为在语素词典111中不存在语素候补时，破坏性表达核实器123参照破坏性表达-正常表达排列语料库113，对输入语节的破坏性表达进行核实，以核实是否存在与该破坏性表达对应的正常表达。

当通过正常表达核实器122判断为在语素词典111中存在语素候补时，分割处理器124从输入语节中分割出该语素候补，以进行语素分割处理。

控制器125通过控制候补群生成器121、正常表达核实器122、破坏性表达核实器123及分割处理器124来将输入语节分割处理为语素，并且将最终分割处理的语素向连接信息核实部130传递。尤其是，当通过破坏性表达核实器123核实为存在与破坏性表达对应的正常表达时，控制器125控制候补群生成器121使用该正常表达重新生成语素候补，并且控制正常表达核实器122对所生成的语素候补进行核实，以核实是否存在语素候补。

接下来，对用于生成在图3中表示的破坏性表达-正常表达排列语料库113的内容进行说明。

图5为用于生成在图3中表示的破坏性表达-正常表达排列语料库113的装置200的结构方块图。

如图5所示，生成破坏性表达-正常表达排列语料库113的装置200包括双语语料库构建部210及自学部220。

双语语料库构建部210收集包含普遍使用的破坏性表达的破坏性句子后，生成与破坏性句子对应的正常句子，构建破坏性句子-正常句子双语语料库221，所述破坏性句子-正常句子双语语料库221储存破坏性句子和正常句子对。

自学部220包括自学排列部222和通过双语语料库构建部210构建的破坏性句子-正常句子双语语料库221，所述自学排列部222对该破坏性句子-正常句子双语语料库221，使用机器自学方法学习破坏性表达和正常表达的单音节、多音节或单词之间的最佳排列概率值，生成破坏性表达-正常表达排列语料库113。

这种自学排列部222包括初始化器2221、E(Expectation，期望)-步骤处理器2222、M(Maximization，最大化)-步骤处理器2223及控制器2224。

初始化器2221以随机或者初始化方法学，在所述双语语料库221中指定的字符串中设定子字符串对(sub-stringpair)，并初始化关联概率。

E-步骤处理器2222进行解码，并且根据字符串的匹配及该匹配概率值，进行破坏性表达和正常表达之间的匹配，以使破坏性句子和正常句子之间能够最匹配。

M-步骤处理器2223进行概率计算，重新计算新排列的各子字符串对之间的概率。

控制器2224将所述双语语料库221所构建的破坏性句子和正常句子的字符串向所述初始化器2221输入，在所述M-步骤处理器2223的概率计算后，满足自学停止条件为止控制所述E-步骤处理器2222及M-步骤处理器2223进行反复操作(iteration)，当满足所述停止条件时，将最终输出的字符串、即由破坏性表达、正常表达及关联概率来构成的结果储存在破坏性表达-正常表达排列语料库113中。

对于所述的E-步骤处理器2222和M-步骤处理器2223分别进行的E-步骤处理和M-步骤处理，将在后面进行具体说明。

接下来，对图5中表示的双语语料库构建部210构建破坏性句子-正常句子双语语料库221的内容进行说明。

图6为在图5中表示的双语语料库构建部210的结构方块图。

如图6所示，双语语料库构建部210包括破坏性句子收集器211、普遍性判断器212、正常句子生成器213及构建器214。

破坏性句子收集器211通过移动SMS(ShortMessageService)、Kakaotalk短信及互联网推特等来收集一定量的破坏性句子。作为这种破坏性句子，例如可收集100万个破坏性句子使用。此外，破坏性句子可通过网络来收集，或者可将操作员收集到的破坏性句子通过输入手段输入来收集。

普遍性判断器212使用查询对包含在通过所述破坏性句子收集器211收集的破坏性句子中的破坏性表达进行网络检索，并且以这种查询结果的量为基准判断是否为普遍使用的破坏性表达，从而判断该破坏性句子的普遍性。这种破坏性表达的普遍性判断，可通过naver、daum或者谷歌等的网页检索自动运行。

正常句子生成器213生成与通过普遍性判断器212判断为具有普遍性的破坏性表达对应的正常表达。对于这种正常表达的生成，可通过网页检索自动进行，也可由操作员直接进行。

构建器214将通过正常句子生成器213生成的正常句子与对应所述正常句子的破坏性句子一起组成为一对，以构建破坏性句子-正常句子双语语料库221。

下面，对图5表示的自学排列部222对破坏性句子-正常句子双语语料库221进行自学排列而生成破坏性表达-正常表达排列语料库113的方法进行具体说明。

首先，本发明实施例的破坏性句子和正常句子的排列使用如下方法：该方法为，根据机器自学方法进行自学而求出整个语料库的值最高的排列，并且设定排列概率值。此时，作为求出最佳的排列并且设定排列概率值的方法，在本发明的实施例中使用EM(Expectation-Maximization)算法，但也可通过其他基于自学及半自学的不同的方法来进行。

首先，在本发明的实施例中假设表示字符串u_i，u_i+1，...，u_j，表示v_i，v_i+1，...，v_m。

为了利用EM算法进行排列操作，需要如下的步骤，即查找与破坏性表达最匹配的正常表达字符串的解码步骤(E-步骤)和学习各字符串之间概率的步骤(M-步骤)。这种过程通过如下的三个步骤来进行。

1)初始化步骤(step-1)

在给出的破坏性字符串中，以随机或者其他初始化方法学来设定关联子字符串对，并且将关联性概率值初始化为0。即，将任一个破坏性字符串和正常字符串的排列概率值设定为

2)期待(Expectation)步骤(step-2)

该步骤为在输入的破坏性句子和正常句子中求出破坏性字符串和正常字符串对的步骤。

在该步骤中，根据目前的概率值，通过动态编程解码方法从给出的字符串对和中分别求出对应的子字符串对。

具体的解码过程如下。

对于破坏性表达字符串和正常表达字符串S(i，j)意味着直至破坏性表达字符串和正常表达字符串为止的排列计分。此时，求出破坏性表达和正常表达的对应的子字符串对的过程通过下面的子步骤1～3来进行。

<子步骤1>

S(O，O)＝O

该步骤为初始化步骤，将不包含任何字符串的S(O，O)的值设定为0。

<子步骤2>

S (i, j) = \max_{h, k} [S (i - h, j - k) + \log P (V_{j - k}^{m} | U_{i - h}^{n})], 0 \leq i \leq n, 0 \leq j \leq m

直至破坏性表达字符串和正常表达字符串为止的排列计分S(i，j)为直至破坏性表达字符串和正常表达字符串为止的计分S(i-h，j-k)和直至破坏性表达字符串和正常表达字符串为止的排列加权值之和的最大值(max)。

在此，为和的排列概率的对数(log)值，为EM算法中的所述step-1步骤和将在后面描述的step-3步骤中计算的值。

<子步骤3>

根据上述子步骤2，对破坏性表达字符串从1至n，对正常表达字符串从1至m依次计算得到的排列计分S(n，m)为直至破坏性表达字符串和正常表达字符串为止的最高排列值。

3)最大化(Maximization)步骤(step-3)

该步骤为求出在上述step-2步骤中排列的破坏性表达字符串和正常表达字符串对的统计概率值的步骤，对排列成最高值的各个子字符串对，通过回溯(back-tracking)方法查找与破坏性表达字符串对应的正常表达字符串。

具体地，对step-2步骤的各个子字符串对进行计数后,根据推算在当前时间点上对应的字符串的概率值。在此，表示在整个双语语料库中和一起出现的次数，表示在整个双语语料库中出现的次数。

在上述step-3步骤以后，当不满足结束条件时，反复操作上述step-2步骤和step-3步骤，直至满足结束条件。此时反映前一个step-3的结果而进行反复操作。

当满足上述结束条件，并且完成破坏性表达和正常表达的排列时，将该破坏性表达和正常表达以及这两者之间的关联概率储存在破坏性表达-正常表达排列语料库113中。

例如，当在破坏性句子-正常句子双语语料库221中记载的破坏性句子为与之对应记载的正常句子为时，可通过上述过程，在破坏性表达-正常表达排列语料库113中生成并储存及等。此时，在破坏性表达-正常表达排列语料库113中记载的形式为“破坏性表达::正常表达::关联概率”。在此，关联概率可为在上述step-1及step-3中求出的破坏性表达和正常表达的排列概率值。

下面，参照图7对本发明实施例的语素分析方法进行说明。

图7为本发明实施例的语素分析方法的流程图。

在说明之前，首先假设如下的状态：通过装置200的双语语料库构建部210构建破坏性句子-正常句子双语语料库221后，对所构建的破坏性句子-正常句子双语语料库221，自学部220进行基于自学的最佳排列而预先生成了破坏性表达-正常表达排列语料库113。

参照图7，当输入用于语素分析的语节时(S100)，语素分割部120将输入语节分割为语素，以生成语素候补(S110)。

之后，语素分割部120对所生成的语素候补核实语素词典111(S120)，当在语素词典111中存在该语素候补时，向连接信息核实部130传递，以便核实对该语素的连接信息(S130)。

在如此核实连接信息后，原型恢复部140对该语素进行原型恢复(S140)，并且输出最终分析结果。

但在此时，当输入语节属于破坏性表达时，在上述步骤S120中语素候补不存在于语素词典111中，因此语素分割部120对该语素候补核实破坏性表达-正常表达排列语料库113(S150)。

若输入语节的破坏性表达通过前一次基于自学的最佳排列存在于破坏性表达-正常表达排列语料库113中，则语素分割部120确认与该破坏性表达对应的正常表达之后(S160)，对所确认的正常表达，从上述生成语素候补的步骤(S110)开始反复进行相关步骤。此时，由于对所确认的正常表达所生成的语素候补已存在于在语素词典111中，因此在核实所述语素词典111的步骤中核实为该语素已存在，并且继续进行后续步骤S130和S140，从而能够输出最终分析结果。

另外，当输入语节为破坏性表达，但未被通过如上所述的基于自学的自学排列生成在破坏性表达-正常表达排列语料库113中，或者属于其他的错误语节时，在所述步骤S150中，由于该语节不存在于破坏性表达-正常表达排列语料库113中，因此将该语节识别为在语素词典111中没有登记的单词(Out-ofdictionaryword或者Out-of-Vocabulary(OOV))或者识别为无效的语素，并且处理成语素分析失败(S170)。

如此，在以往的语素分析中，对包含破坏性表达的破坏性句子进行语素分析时，破坏性表达会因语素词典中没有相应语素为由被判断为OOV单词，并且被作出错误识别。但在本发明的实施例中，对破坏性表达，通过基于自学的最佳排列，以破坏性表达-正常表达排列语料库113的形式构建与破坏性表达对应的正常表达，因此即使在语素词典111中没有这些破坏性表达，也能通过对破坏性表达-正常表达排列语料库113进行破坏性表达的核实来查找对应的正常表达，并且进行准确的语素分析。

另外，在本发明的实施例中，在为了恢复成与破坏性表达对应的正常表达而构建破坏性表达-正常表达排列语料库113时，通过自学破坏性句子中的破坏性表达和正常表达的最佳排列而求出概率值，并将该概率值作为对破坏性表达和正常表达的关联概率来提供，从而能够将破坏性表达的多样性数值化。即在语素分析中，当通过语素词典111判断是否存在语素时，以各字符串为语素的概率进行数值化来表现。例如，将对语素的存在与否的判断，改为由0(无)和1(有)之间的数值来表现，从而能够提供用于解决语素分析中含糊性问题的数值化信息。

另外，在上述内容中对韩语的语素分析进行了说明，但在英语等其他语言中也像韩语那样频繁使用破坏性表达，并且在包含破坏性表达的破坏性句子的处理中，采用以往的基于正常句子的语言处理方法显然有局限性。例如，如图8所示，在常见的语素分析装置的情况下，用于进行语素分析的语素分析器300参照在语素分析中所要参照的知识400，对该语言进行语素分析。此时，作为在语素分析中所要参照的知识400例如包括语素词典。

因语言和语言之间的形态区别，在按语言的语素分析中，具体的分析过程及各分析过程中所需要的知识有可能彼此不同。例如，在韩语的情况下，如上述图1所示，可分为语素分割、连接信息核实及原型恢复等的结构要素或者过程，并且还能如语素词典11-1，将参考知识400具体化。

因此，当参照对韩语所进行的如上所述的内容，对英语等其他语言也进行对应的操作时，如图9所示，可在构建破坏性句子和正常句子的双语语料库之后，对所构建的破坏性句子和正常句子的双语语料库进行基于自学的最佳排列，从而生成并应用破坏性表达-正常表达排列语料库620，并且对语素词典610中不存在的破坏性表达，使语素分析器500核实破坏性表达-正常表达排列语料库620来查找与破坏性表达对应的正常表达，并进行正常的语素分析。

上面对本发明的实施例进行了详细说明，但本发明的权利范围并不局限于此，本领域技术人员在所附的权利要求书中定义的本发明基本概念的基础上所进行的各种变形及改良形式也属于本发明的保护范围。

Claims

1.一种排列语料库的生成方法，包括步骤：

构建双语语料库，所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对，其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达；及

对所述双语语料库进行基于自学的排列，从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。

2.根据权利要求1所述的排列语料库的生成方法，其中，所述双语语料库的构建步骤包括：

通过网络收集多个破坏性句子；

利用查询对包含在被收集的破坏性句子中的破坏性表达进行网络检索，以判断该破坏性句子的普遍性；

当判断为被收集的破坏性句子具有普遍性时，生成与该破坏性句子对应的正常句子；及

将所生成的正常句子和与该正常句子对应的破坏性句子组成为一对，以构建所述双语语料库。

3.根据权利要求2所述的排列语料库的生成方法，其特征在于，

在所述普遍性的判断步骤中，

以利用所述查询的检索结果的量为基准，当超过基准量时，判断为该破坏性表达具有普遍性，

所述普遍性的判断通过利用多个门户网站的网络检索自动运行。

4.根据权利要求1所述的排列语料库的生成方法，其中，

生成所述排列语料库的步骤包括：

以随机或者初始化方法学，在所述双语语料库给出的字符串中设定子字符串对，并初始化关联概率；

根据字符串的匹配及该匹配的概率值，进行破坏性表达和正常表达之间的匹配，以使破坏性句子和正常句子之间能够最匹配；

重新计算新排列的各子字符串对之间的概率；及

满足自学停止条件为止反复执行所述匹配步骤及所述计算步骤，当满足所述自学停止条件时，将最终输出的破坏性表达、正常表达及关联概率储存在所述排列语料库中，其中所述关联概率为所述破坏性表达和正常表达的排列概率值。

5.根据权利要求1所述的排列语料库的生成方法，其特征在于，

为了生成所述排列语料库，使用期望最大化算法，以便在自学基础上求出排列并且设定排列概率值。

6.一种排列语料库的生成装置，包括：

双语语料库构建部，用于构建双语语料库，所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对，其中，所述破坏性表达是拼写错误或者没有规范化和标准化的表达；及

自学部，对通过所述双语语料库构建部构建的双语语料库进行基于自学的排列，从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。

7.根据权利要求6所述的排列语料库的生成装置，其特征在于，

所述自学部包括：

双语语料库，由所述双语语料库构建部构建；及

自学排列部，对所述双语语料库使用自学方法学习破坏性表达和正常表达的单音节、多音节或者单词之间的最佳排列概率值，从而生成所述排列语料库。

8.根据权利要求6所述的排列语料库的生成装置，其特征在于，

所述双语语料库构建部包括：

破坏性句子收集器，通过网络收集多个破坏性句子；

普遍性判断器，利用查询对包含在通过所述破坏性句子收集器收集的破坏性句子中的破坏性表达进行网络检索，并判断该破坏性句子的普遍性；

正常句子生成器，当判断为被收集的破坏性句子具有普遍性时，生成与该破坏性句子对应的正常句子；及

构建器，将通过所述正常句子生成器生成的正常句子和与该正常句子对应的破坏性句子组成为一对，以构建所述双语语料库。

9.根据权利要求7所述的排列语料库的生成装置，其特征在于，

所述自学排列部包括：

初始化器，以随机或者初始化方法学，在所述双语语料库给出的字符串中设定子字符串对，并初始化关联概率；

E-步骤处理器，根据字符串的匹配及该匹配概率值，进行破坏性表达和正常表达之间的匹配，以使破坏性句子和正常句子之间能够最匹配；

M-步骤处理器，重新计算新排列的各子字符串对之间的概率；及

控制器，将所述双语语料库中构建的破坏性句子和正常句子的字符串向所述初始化器输入，在所述M-步骤处理器的概率计算后，满足自学停止条件为止控制所述E-步骤处理器及M-步骤处理器进行反复操作，当满足所述自学停止条件时生成储存最终输出的破坏性表达、正常表达及关联概率的所述排列语料库。

10.一种语素分析装置，包括：

知识数据库，储存有在按语言的语素分析中使用的多个知识信息，并且包括语素词典和排列语料库，所述语素词典储存与正常表达对应的语素信息，所述排列语料库储存与破坏性表达对应的正常表达信息，其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达；及

分析器，使用所述知识数据库，对所输入的语节进行语素分析并输出分析结果，当所述语素词典中不存在与输入语节对应的语素时，对所述输入语节中包含的破坏性表达，使用所述排列语料库查找与所述破坏性表达对应的正常表达并进行语素分析。

11.根据权利要求10所述的语素分析装置，其特征在于，

所述知识数据库进一步包括储存按语素的连接信息的已分析词典，

所述分析器包括：

语素分割部，使用所述语素词典分割构成所述输入语节的语素，当所述语素词典中不存在构成所述输入语节的语素时，使用所述排列语料库并且利用对应的正常表达来进行语素分割；

连接信息核实部，使用所述已分析词典，对通过所述语素分割部分割的语素提取可组合的语素；及

原型恢复部，对通过所述连接信息核实部提取的语素进行原型恢复，并将原型恢复后的语素作为语素分析结果来输出。

12.根据权利要求11所述的语素分析装置，其特征在于，

所述语素分割部包括：

候补群生成器，将所述输入语节分割为语素，以生成语素候补；

正常表达核实器，对所述候补群生成器所生成的语素候补，使用所述语素词典核实是否存在该语素候补；

破坏性表达核实器，当通过所述正常表达核实器判断为在所述语素词典中不存在语素候补时，对该语素候补，使用所述排列语料库核实是否存在所述输入语节的破坏性表达；

分割处理器，当通过所述正常表达核实器判断为在所述语素词典中存在语素候补时，从输入语节中分割出该语素候补，以进行语素分割处理；及

控制器，通过控制所述候补群生成器、所述正常表达核实器、所述破坏性表达核实器及所述分割处理器来进行对所述输入语节的语素分割，当通过所述正常表达核实器判断为在所述语素词典中不存在所述候补群生成器所生成的语素候补时，控制所述破坏性表达核实器查找对应的正常表达后向所述候补群生成器重新输入该正常表达。

13.根据权利要求10所述的语素分析装置，其特征在于，

所述排列语料库为通过对双语语料库进行基于自学的排列，从而由破坏性表达及与该破坏性表达对应的正常表达排列而成的语料库，其中所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对。

14.根据权利要求13所述的语素分析装置，其特征在于，

在所述排列语料库中包含关联概率，所述关联概率为破坏性表达和与该破坏性表达对应的正常表达之间的排列概率值。

15.根据权利要求14所述的语素分析装置，其特征在于，

在语素分析中，在通过所述语素词典判断是否存在语素时，使用所述关联概率，以相应的各字符串为语素的概率来进行数值化来表达。

16.根据权利要求13所述的语素分析装置，其特征在于，

通过期望最大化算法来生成所述排列语料库。

17.一种语素分析方法，包括步骤：

将所输入的语节分割为语素，以生成语素候补；

判断语素候补是否存在于语素词典中，其中所述语素词典为储存与正常表达对应的语素信息的词典；

当语素候补存在于所述语素词典中时，进行该语素分析；

当语素候补不存在于所述语素词典中时，判断包含在所输入的所述语节中的破坏性表达是否存在于排列语料库中，其中，所述破坏性表达是拼写错误或者没有规范化和标准化的表达，所述排列语料库是储存与破坏性表达对应的正常表达信息的语料库；及

当破坏性表达存在于所述排列语料库中时，查找与该破坏性表达对应的正常表达并进行语素分析。

18.根据权利要求17所述的语素分析方法，其中，

进行所述语素分析的步骤包括：

使用储存按语素的连接信息的已分析词典，对语素提取可组合的语素；及

对所提取的语素进行原型恢复，并将原型恢复后的语素作为语素分析结果来输出。

19.根据权利要求17所述的语素分析方法，其特征在于，

在进行判断所述语素候补是否存在于语素词典中的步骤之前，进一步包括生成所述排列语料库的步骤。

20.根据权利要求19所述的语素分析方法，其特征在于，

所述生成排列语料库的步骤包括：

构建双语语料库，所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对；及