CN105593845A - 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 - Google Patents

基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 Download PDF

Info

Publication number
CN105593845A
CN105593845A CN201480054951.5A CN201480054951A CN105593845A CN 105593845 A CN105593845 A CN 105593845A CN 201480054951 A CN201480054951 A CN 201480054951A CN 105593845 A CN105593845 A CN 105593845A
Authority
CN
China
Prior art keywords
morpheme
destructive
sentence
expression
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480054951.5A
Other languages
English (en)
Other versions
CN105593845B (zh
Inventor
池昌真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SYSTRAN INTERNATIONAL Co Ltd
Original Assignee
SYSTRAN INTERNATIONAL Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SYSTRAN INTERNATIONAL Co Ltd filed Critical SYSTRAN INTERNATIONAL Co Ltd
Publication of CN105593845A publication Critical patent/CN105593845A/zh
Application granted granted Critical
Publication of CN105593845B publication Critical patent/CN105593845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法。语素分析装置包括知识数据库和分析器。知识数据库储存有在按语言的语素分析中使用的多个知识信息,包括:语素词典,储存与正常表达对应的语素信息;排列语料库,储存与破坏性表达对应的正常表达信息,其中破坏性表达是拼写错误或者没有规范化和标准化的表达。分析器对所输入的语节使用所述知识数据库进行语素分析并输出分析结果,当在所述语素词典中不存在输入语节的语素时,对在所述输入语节中包含的破坏性表达使用所述排列语料库查找与所述破坏性表达对应的正常表达并进行语素分析。

Description

基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法
技术领域
本发明涉及一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法。
背景技术
最近,博客、特别是以Facebook和推特(Twitter)为首的社交平台、Kakaotalk等移动短信不仅在电脑,在智能手机上也已习以为常,并且其使用呈现出日益增加的趋势。
但在这种短信的使用过程中,泛滥着包含不符合拼写规定的错误的破坏性表达。在此,破坏性表达是指拼写错误或者没有规范化和标准化的表达,包含这种破坏性表达的句子称为破坏性句子。这种破坏性句子为因互联网的活性化和智能手机的普及而产生的新的语言使用范式。
破坏性句子虽然包含着作为非规范表达的破坏性表达,但不影响传递句子的含义。
另外,在机器翻译等的自然语言信息处理、检索、数据挖掘等中使用的语素分析中,其操作对象为不包含破坏性表达的正常句子。即,以往的语素分析中使用语素词典,该语素词典中储存有在语素分析中将要使用的语素知识或者语素信息。然而,如上所述的破坏性句子中所包含的已破坏的语素在其特性上不可能被收录于规范的语素词典中,并且将单纯破坏的语素加入语素词典的方式上也有局限性,因此具有对包含破坏性表达的破坏性句子难以进行语素分析的问题。
发明内容
本发明所要解决的技术问题是提供一种基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法,该生成装置及方法、该分析装置及分析方法能够对包含破坏性表达的破坏性句子进行准确的语素分析。
根据本发明的一个特征的排列语料库的生成方法,包括步骤:构建双语语料库,所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及对所述双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。
在此,所述双语语料库的构建步骤包括:通过网络收集多个破坏性句子;利用查询对包含在被收集的破坏性句子中的破坏性表达进行网络检索,以判断该破坏性句子的普遍性;当判断为被收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及将所生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构建所述双语语料库。
此外,本发明的特征在于,在所述普遍性的判断步骤中,以利用所述查询的检索结果的量为基准,当超过基准量时,判断为该破坏性表达具有普遍性,所述普遍性的判断通过利用多个门户网站的网络检索自动运行。
此外,生成所述排列语料库的步骤包括:以随机或者初始化方法学,在所述双语语料库给出的字符串中设定子字符串对(sub-stringpair),并初始化关联概率;根据字符串的匹配及该匹配概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常句子之间能够最匹配;重新计算新排列的各子字符串对之间的概率;及满足自学停止条件为止反复执行所述匹配步骤及所述计算步骤,当满足所述自学停止条件时,将最终输出的破坏性表达、正常表达及关联概率储存在所述排列语料库中,其中所述关联概率为所述破坏性表达和正常表达的排列概率值。
此外,本发明的特征在于,为了生成所述排列语料库,使用期望最大化(EM,Expectation-Maximization)算法,以便在自学基础上求出排列并且设定排列的概率值,其中所述自学是为了生成所述排列语料库而进行的。
根据本发明的另一特征的排列语料库的生成装置,包括:双语语料库构建部,用于构建双语语料库,所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及自学部,对通过所述双语语料库构建部构建的双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达的正常表达排列而成的排列语料库。
在此,所述自学部包括:双语语料库,由所述双语语料库构建部构建;及自学排列部,对所述双语语料库使用自学方法学习破坏性表达和正常表达的单音节、多音节或者单词之间的最佳排列概率值,从而生成所述排列语料库。
此外,所述双语语料库构建部包括:破坏性句子收集器,通过网络收集多个破坏性句子;普遍性判断器,利用查询对通过所述破坏性句子收集器收集的破坏性句子中所包含的破坏性表达进行网络检索,并判断该破坏性句子的普遍性;正常句子生成器,当判断为被收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及构建器,将通过所述正常句子生成器生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构建所述双语语料库。
此外,所述自学排列部包括:初始化器,以随机或者初始化方法学,在所述双语语料库给出的字符串中设定子字符串对(sub-stringpair),并初始化关联概率;E-步骤处理器,根据字符串的匹配及该匹配概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常句子之间能够最匹配;M-步骤处理器,重新计算新排列的各子字符串对之间的概率;及控制器,将所述双语语料库中构建的破坏性句子和正常句子的字符串向所述初始化器输入,在所述M-步骤处理器的概率计算后,满足自学的停止条件为止控制所述E-步骤处理器及M-步骤处理器进行反复操作,当满足所述自学停止条件时生成用于储存最终输出的破坏性表达、正常表达及关联概率的所述排列语料库。
根据本发明的另一特征的语素分析装置,包括:知识数据库,储存有在按语言的语素分析中使用的多个知识信息,并且包括语素词典和排列语料库,所述语素词典储存与正常表达对应的语素信息,所述排列语料库储存与破坏性表达对应的正常表达信息,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及分析器,使用所述知识数据库,对所输入的语节进行语素分析并输出分析结果,当所述语素词典中不存在与输入语节对应的语素时,对所述输入语节中包含的破坏性表达,使用所述排列语料库查找与所述破坏性表达对应的正常表达并进行语素分析。
在此,所述知识数据库进一步包括储存按语素的连接信息的已分析词典,所述分析器包括:语素分割部,使用所述语素词典分割构成所述输入语节的语素,当所述语素词典中不存在构成所述输入语节的语素时,使用所述排列语料库并且利用对应的正常表达来进行语素分割;连接信息核实部,使用所述已分析词典,对通过所述语素分割部分割的语素提取可组合的语素;及原型恢复部,对通过所述连接信息核实部提取的语素进行原型恢复,并将原型恢复后的语素作为语素分析结果来输出。
此外,所述语素分割部包括:候补群生成器,将所述输入语节分割为语素,以生成语素候补;正常表达核实器,对所述候补群生成器所生成的语素候补,使用所述语素词典核实是否存在该语素候补;破坏性表达核实器,当通过所述正常表达核实器判断为在所述语素词典中不存在语素候补时,对该语素候补,使用所述排列语料库核实是否存在所述输入语节的破坏性表达;分割处理器,当通过所述正常表达核实器判断为在所述语素词典中存在语素候补时,从输入语节中分割出该语素候补,以进行语素分割处理;及控制器,通过控制所述候补群生成器、所述正常表达核实器、所述破坏性表达核实器及所述分割处理器来进行对所述输入语节的语素分割,当通过所述正常表达核实器判断为在所述语素词典中不存在所述候补群生成器所生成的语素候补时,控制所述破坏性表达核实器查找对应的正常表达后向所述候补群生成器重新输入该正常表达。
此外,本发明的特征在于,所述排列语料库为通过对双语语料库进行基于自学的排列,从而由破坏性表达及与该破坏性表达对应的正常表达排列而成的语料库,其中所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子构成的句子对。
此外,本发明的特征在于,所述排列语料库中包括关联概率,所述关联概率为破坏性表达和与该破坏性表达对应的正常表达之间的排列概率值。
此外,本发明的特征在于,在语素分析中,在通过所述语素词典判断是否存在语素时,使用所述关联概率,以相应的各字符串为语素的概率来进行数值化来表达。
此外,本发明的特征在于,通过期望最大化(EM,Expectation-Maximization)算法来生成所述排列语料库。
根据本发明的另一特征的语素分析方法,包括步骤:将所输入的语节分割为语素,以生成语素候补;判断语素候补是否存在于语素词典,其中所述语素词典为储存与正常表达对应的语素信息的词典;当语素候补存在于所述语素词典中时,进行该语素分析;当语素候补不存在于所述语素词典中时,判断包含在所输入的所述语节中的破坏性表达是否存在于排列语料库中,其中,所述破坏性表达是拼写错误或者没有规范化和标准化的表达,所述排列语料库为储存与破坏性表达对应的正常表达信息的语料库;及当破坏性表达存在于所述排列语料库中时,查找与该破坏性表达对应的正常表达并进行语素分析。
在此,进行所述语素分析的步骤包括:
使用储存按语素的连接信息的已分析词典,对语素提取可组合的语素;及对提取的语素进行原型恢复,并将原型恢复后的语素作为语素分析结果来输出。
此外,在进行判断所述语素候补是否存在于语素词典中的步骤之前,进一步包括:生成所述排列语料库的步骤。
此外,所述生成排列语料库的步骤包括:构建双语语料库,所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对;及对所述双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。
通过本发明,能够对包含破坏性表达的破坏性句子进行准确的语素分析。
此外,通过将破坏性表达和正常表达的排列信息作为辅助语素词典来使用,具有如下的效果:常见的语素分析器不仅能够分析破坏性句子的语素,还能实现将破坏性表达转换成正常表达的功能。
此外,通过破坏性表达和正常表达的排列信息及基于自学的排列,将破坏性表达和正常表达的各种关系数值化,从而能够应对各种类型的破坏。
附图说明
图1为示意地表示常见的语素分析装置的方块图。
图2为常见的语素分析方法的流程图。
图3为本发明实施例的语素分析装置的结构方块图。
图4为在图3中表示的语素分割部的具体结构方块图。
图5为用于生成在图3中表示的破坏性表达-正常表达排列语料库的装置的结构方块图。
图6为在图5中表示的双语语料库构建部的结构方块图。
图7为本发明实施例的语素分析方法的流程图。
图8为示意地表示在多种语言中通用的通用语素分析装置结构的图。
图9为在图8中表示的语素分析装置中应用本发明实施例的破坏性表达-正常表达排列语料库的例子的图。
具体实施方式
下面,参照附图对本发明的实施例进行详细说明,以便在本发明所属技术领域的技术人员能够容易实施。但本发明并不局限于在此说明的实施例,可用多种形式实现本发明。此外,为了清楚地说明本发明,在附图中省略了与说明无关的部分,而且在通篇说明书中对相似的部分使用了相同的附图标记。
在整篇说明书中,当提到某部分“包括”某结构要素时,只要没有特别相反的记载,这意味着不排除其他结构要素,而是可进一步包括其他结构要素。此外,在说明书中记载的“...部”、“...器”、“模块”等用语意味着处理至少一个功能或者动作的单位,其可通过硬件、软件或硬件和软件的结合来实现。
首先,对常见的语素分析装置进行说明。
图1为示意地表示常见的语素分析装置的方块图。
参照图1,在常见的语素分析装置10中,语素分割器13参照词典数据库11中的语素词典11-1,对所输入的语节的所有可能的语素进行分割;连接信息核实器15参照词典数据库11中的已分析词典11-3,对通过语素分割器13分割的语素提取可组合的语素,并将其作为最终语素分析结果来输出。
图2为常见的语素分析方法的流程图。
参照图2,语素分割器13将输入语节分割为语素而生成语素候补(S10),并使用语素词典11-1对所生成的语素候补进行核实(S20),当语素候补存在于语素词典11-1中时,连接信息核实器15核实连接信息并输出最终分析结果(S30)。
但在此时,在所述步骤S20中若语素候补不存在于语素词典11-1中,则将所述语素候补识别为未登记在语素词典11-1中的单词(Out-ofdictionaryword或者Out-of-Vocabulary(OOV))或者识别为无效的语素,并且处理成语素分析失败(S40)。
本发明的实施例所相对的破坏性表达在上述常见的语素分析装置10中会被识别为未登记的单词或者无效的语素。
下面,对本发明的实施例所相对的破坏性表达进行说明。
在韩语短信的使用中,泛滥着包含拼写错误的韩语破坏性表达,此外因网民尤其是小学生之间新创造并流行的“外星语”的日常使用,导致韩语的破坏现象,这种现象严重到引起学者们担忧的程度。
下面,对所述的韩语破坏性句子的破坏类型进行说明。
(1)拼写错误
很多破坏性句子包含拼写错误。拼写错误为不知道正确的拼法而犯的错误或者忽视正确的拼法而犯的错误。例如有将表达为表达为表达为或者将表达为的破坏性表达。这种错误的特点是按照语音来标注,有时通过按照语音来标注,从而作为表现出新的语言色彩的手段来使用。
另一种拼写错误为因打字错误产生的错误。尤其像智能手机,在移动过程中在相对小的屏幕上输入文字时会出现频繁的打字错误。这些错误的特点是输入与需要打字的键相邻的键。例如,被错误输入为这是将错误打字为的情况,此外被输入为这是将错误打字为的情况。尤其是,以及经常以打字错误彼此输入的概率较高。
(2)新词
新词中的一种是新缩写词。例如,的缩写词,的缩写词,的缩写词,的缩写词,的缩写词,这种新缩写词在网民之间通用。
作为另一种新词,如将写为加一个来传递更为机灵可爱的感受。
虽然不属于上述两种类型,但挑战以往的基于正常句子的自然语言处理系统的另一个问题是外语音译的各种版本的通用。例如,通用,通用等等。
因外语和韩语发音有区别,难以实现一对一的音译,因此会存在如上的各种音译版本。此外,在这种情况下不仅难以设定音译标准,而且即使设定了标准,在现实生活中不被遵守的可能性更高。
如此,当通过所述常见的语素分析装置10对所述包含破坏性表达的破坏性句子进行语素分析时,因在语素词典11-1中不存在相应的语素,不能实现语素分析,因此不能顺利进行以往的自然语言处理和机器翻译等。
下面,对用于解决所述问题的本发明的实施例进行说明。
图3为本发明实施例的语素分析装置的结构方块图。
如图3所示,本发明实施例的语素分析装置100包括词典数据库(DB)110、语素分割部120、连接信息核实部130及原型恢复部140。
词典数据库110储存有在对输入语节进行语素分析时使用的各种词典信息。这种词典数据库110包括语素词典111、破坏性表达-正常表达排列语料库113和已分析词典115。所述语素词典111在进行语素分析时使用;所述破坏性表达-正常表达排列语料库113储存破坏性表达、与该破坏性表达对应的正常表达以及将破坏性表达和正常表达的关联性数值化后的值即关联概率,并且在进行语素分析时使用;已分析词典115用于进行连接信息的核实,并且在进行原型恢复时使用。此外,还可储存在按语言进行语素分析时使用的各种形式的词典信息。在此,破坏性表达-正常表达排列语料库(corpus)113则通过构建双语语料库,并对所构建的双语语料库的各句子中的破坏性表达和正常表达的最佳排列进行自学来生成,其中,所述双语语料库中包括含有普遍使用的破坏性表达的破坏性句子和与之对应的正常句子。对此,将在后面进行具体说明。另外,在语言处理中使用的语料库(corpus)和语素分析的含义为众所周知的内容,因此在此省略具体说明。
语素分割部120参照词典数据库110的语素词典111和破坏性表达-正常表达排列语料库113来分割构成所输入语节的所有可能的语素。此时,当从输入语节中分割的语素不存在于语素词典111中,但存在于破坏性表达-正常表达排列语料库113中时,语素分割部120使用与该语素对应的正常表达来进行语素分割。
连接信息核实部130参照词典数据库110的已分析词典115,对通过语素分割器120分割的语素提取可组合的语素。
原型恢复部140对通过连接信息核实部130提取的语素进行原型恢复,并将原型恢复后的语素作为语素分析结果来输出。
图4为在图3中表示的语素分割部120的具体结构方块图。
如图4所示,语素分割部120包括候补群生成器121、正常表达核实器122、破坏性表达核实器123、分割处理器124及控制器125。
候补群生成器121将输入语节分割为语素,以生成语素候补。
正常表达核实器122参照语素词典111对候补群生成器121所生成的语素候补进行核实,以核实是否存在该语素候补。
当通过正常表达核实器122判断为在语素词典111中不存在语素候补时,破坏性表达核实器123参照破坏性表达-正常表达排列语料库113,对输入语节的破坏性表达进行核实,以核实是否存在与该破坏性表达对应的正常表达。
当通过正常表达核实器122判断为在语素词典111中存在语素候补时,分割处理器124从输入语节中分割出该语素候补,以进行语素分割处理。
控制器125通过控制候补群生成器121、正常表达核实器122、破坏性表达核实器123及分割处理器124来将输入语节分割处理为语素,并且将最终分割处理的语素向连接信息核实部130传递。尤其是,当通过破坏性表达核实器123核实为存在与破坏性表达对应的正常表达时,控制器125控制候补群生成器121使用该正常表达重新生成语素候补,并且控制正常表达核实器122对所生成的语素候补进行核实,以核实是否存在语素候补。
接下来,对用于生成在图3中表示的破坏性表达-正常表达排列语料库113的内容进行说明。
图5为用于生成在图3中表示的破坏性表达-正常表达排列语料库113的装置200的结构方块图。
如图5所示,生成破坏性表达-正常表达排列语料库113的装置200包括双语语料库构建部210及自学部220。
双语语料库构建部210收集包含普遍使用的破坏性表达的破坏性句子后,生成与破坏性句子对应的正常句子,构建破坏性句子-正常句子双语语料库221,所述破坏性句子-正常句子双语语料库221储存破坏性句子和正常句子对。
自学部220包括自学排列部222和通过双语语料库构建部210构建的破坏性句子-正常句子双语语料库221,所述自学排列部222对该破坏性句子-正常句子双语语料库221,使用机器自学方法学习破坏性表达和正常表达的单音节、多音节或单词之间的最佳排列概率值,生成破坏性表达-正常表达排列语料库113。
这种自学排列部222包括初始化器2221、E(Expectation,期望)-步骤处理器2222、M(Maximization,最大化)-步骤处理器2223及控制器2224。
初始化器2221以随机或者初始化方法学,在所述双语语料库221中指定的字符串中设定子字符串对(sub-stringpair),并初始化关联概率。
E-步骤处理器2222进行解码,并且根据字符串的匹配及该匹配概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常句子之间能够最匹配。
M-步骤处理器2223进行概率计算,重新计算新排列的各子字符串对之间的概率。
控制器2224将所述双语语料库221所构建的破坏性句子和正常句子的字符串向所述初始化器2221输入,在所述M-步骤处理器2223的概率计算后,满足自学停止条件为止控制所述E-步骤处理器2222及M-步骤处理器2223进行反复操作(iteration),当满足所述停止条件时,将最终输出的字符串、即由破坏性表达、正常表达及关联概率来构成的结果储存在破坏性表达-正常表达排列语料库113中。
对于所述的E-步骤处理器2222和M-步骤处理器2223分别进行的E-步骤处理和M-步骤处理,将在后面进行具体说明。
接下来,对图5中表示的双语语料库构建部210构建破坏性句子-正常句子双语语料库221的内容进行说明。
图6为在图5中表示的双语语料库构建部210的结构方块图。
如图6所示,双语语料库构建部210包括破坏性句子收集器211、普遍性判断器212、正常句子生成器213及构建器214。
破坏性句子收集器211通过移动SMS(ShortMessageService)、Kakaotalk短信及互联网推特等来收集一定量的破坏性句子。作为这种破坏性句子,例如可收集100万个破坏性句子使用。此外,破坏性句子可通过网络来收集,或者可将操作员收集到的破坏性句子通过输入手段输入来收集。
普遍性判断器212使用查询对包含在通过所述破坏性句子收集器211收集的破坏性句子中的破坏性表达进行网络检索,并且以这种查询结果的量为基准判断是否为普遍使用的破坏性表达,从而判断该破坏性句子的普遍性。这种破坏性表达的普遍性判断,可通过naver、daum或者谷歌等的网页检索自动运行。
正常句子生成器213生成与通过普遍性判断器212判断为具有普遍性的破坏性表达对应的正常表达。对于这种正常表达的生成,可通过网页检索自动进行,也可由操作员直接进行。
构建器214将通过正常句子生成器213生成的正常句子与对应所述正常句子的破坏性句子一起组成为一对,以构建破坏性句子-正常句子双语语料库221。
下面,对图5表示的自学排列部222对破坏性句子-正常句子双语语料库221进行自学排列而生成破坏性表达-正常表达排列语料库113的方法进行具体说明。
首先,本发明实施例的破坏性句子和正常句子的排列使用如下方法:该方法为,根据机器自学方法进行自学而求出整个语料库的值最高的排列,并且设定排列概率值。此时,作为求出最佳的排列并且设定排列概率值的方法,在本发明的实施例中使用EM(Expectation-Maximization)算法,但也可通过其他基于自学及半自学的不同的方法来进行。
首先,在本发明的实施例中假设表示字符串ui,ui+1,...,uj表示vi,vi+1,...,vm
为了利用EM算法进行排列操作,需要如下的步骤,即查找与破坏性表达最匹配的正常表达字符串的解码步骤(E-步骤)和学习各字符串之间概率的步骤(M-步骤)。这种过程通过如下的三个步骤来进行。
1)初始化步骤(step-1)
在给出的破坏性字符串中,以随机或者其他初始化方法学来设定关联子字符串对,并且将关联性概率值初始化为0。即,将任一个破坏性字符串和正常字符串的排列概率值设定为
2)期待(Expectation)步骤(step-2)
该步骤为在输入的破坏性句子和正常句子中求出破坏性字符串和正常字符串对的步骤。
在该步骤中,根据目前的概率值,通过动态编程解码方法从给出的字符串对中分别求出对应的子字符串对。
具体的解码过程如下。
对于破坏性表达字符串和正常表达字符串S(i,j)意味着直至破坏性表达字符串和正常表达字符串为止的排列计分。此时,求出破坏性表达和正常表达的对应的子字符串对的过程通过下面的子步骤1~3来进行。
<子步骤1>
S(O,O)=O
该步骤为初始化步骤,将不包含任何字符串的S(O,O)的值设定为0。
<子步骤2>
S ( i , j ) = max h , k &lsqb; S ( i - h , j - k ) + log P ( V j - k m | U i - h n ) &rsqb; , 0 &le; i &le; n , 0 &le; j &le; m
直至破坏性表达字符串和正常表达字符串为止的排列计分S(i,j)为直至破坏性表达字符串和正常表达字符串为止的计分S(i-h,j-k)和直至破坏性表达字符串和正常表达字符串为止的排列加权值之和的最大值(max)。
在此,的排列概率的对数(log)值,为EM算法中的所述step-1步骤和将在后面描述的step-3步骤中计算的值。
<子步骤3>
根据上述子步骤2,对破坏性表达字符串从1至n,对正常表达字符串从1至m依次计算得到的排列计分S(n,m)为直至破坏性表达字符串和正常表达字符串为止的最高排列值。
3)最大化(Maximization)步骤(step-3)
该步骤为求出在上述step-2步骤中排列的破坏性表达字符串和正常表达字符串对的统计概率值的步骤,对排列成最高值的各个子字符串对,通过回溯(back-tracking)方法查找与破坏性表达字符串对应的正常表达字符串。
具体地,对step-2步骤的各个子字符串对进行计数后,根据推算在当前时间点上对应的字符串的概率值。在此,表示在整个双语语料库中一起出现的次数,表示在整个双语语料库中出现的次数。
在上述step-3步骤以后,当不满足结束条件时,反复操作上述step-2步骤和step-3步骤,直至满足结束条件。此时反映前一个step-3的结果而进行反复操作。
当满足上述结束条件,并且完成破坏性表达和正常表达的排列时,将该破坏性表达和正常表达以及这两者之间的关联概率储存在破坏性表达-正常表达排列语料库113中。
例如,当在破坏性句子-正常句子双语语料库221中记载的破坏性句子为 与之对应记载的正常句子为时,可通过上述过程,在破坏性表达-正常表达排列语料库113中生成并储存 等。此时,在破坏性表达-正常表达排列语料库113中记载的形式为“破坏性表达::正常表达::关联概率”。在此,关联概率可为在上述step-1及step-3中求出的破坏性表达和正常表达的排列概率值。
下面,参照图7对本发明实施例的语素分析方法进行说明。
图7为本发明实施例的语素分析方法的流程图。
在说明之前,首先假设如下的状态:通过装置200的双语语料库构建部210构建破坏性句子-正常句子双语语料库221后,对所构建的破坏性句子-正常句子双语语料库221,自学部220进行基于自学的最佳排列而预先生成了破坏性表达-正常表达排列语料库113。
参照图7,当输入用于语素分析的语节时(S100),语素分割部120将输入语节分割为语素,以生成语素候补(S110)。
之后,语素分割部120对所生成的语素候补核实语素词典111(S120),当在语素词典111中存在该语素候补时,向连接信息核实部130传递,以便核实对该语素的连接信息(S130)。
在如此核实连接信息后,原型恢复部140对该语素进行原型恢复(S140),并且输出最终分析结果。
但在此时,当输入语节属于破坏性表达时,在上述步骤S120中语素候补不存在于语素词典111中,因此语素分割部120对该语素候补核实破坏性表达-正常表达排列语料库113(S150)。
若输入语节的破坏性表达通过前一次基于自学的最佳排列存在于破坏性表达-正常表达排列语料库113中,则语素分割部120确认与该破坏性表达对应的正常表达之后(S160),对所确认的正常表达,从上述生成语素候补的步骤(S110)开始反复进行相关步骤。此时,由于对所确认的正常表达所生成的语素候补已存在于在语素词典111中,因此在核实所述语素词典111的步骤中核实为该语素已存在,并且继续进行后续步骤S130和S140,从而能够输出最终分析结果。
另外,当输入语节为破坏性表达,但未被通过如上所述的基于自学的自学排列生成在破坏性表达-正常表达排列语料库113中,或者属于其他的错误语节时,在所述步骤S150中,由于该语节不存在于破坏性表达-正常表达排列语料库113中,因此将该语节识别为在语素词典111中没有登记的单词(Out-ofdictionaryword或者Out-of-Vocabulary(OOV))或者识别为无效的语素,并且处理成语素分析失败(S170)。
如此,在以往的语素分析中,对包含破坏性表达的破坏性句子进行语素分析时,破坏性表达会因语素词典中没有相应语素为由被判断为OOV单词,并且被作出错误识别。但在本发明的实施例中,对破坏性表达,通过基于自学的最佳排列,以破坏性表达-正常表达排列语料库113的形式构建与破坏性表达对应的正常表达,因此即使在语素词典111中没有这些破坏性表达,也能通过对破坏性表达-正常表达排列语料库113进行破坏性表达的核实来查找对应的正常表达,并且进行准确的语素分析。
另外,在本发明的实施例中,在为了恢复成与破坏性表达对应的正常表达而构建破坏性表达-正常表达排列语料库113时,通过自学破坏性句子中的破坏性表达和正常表达的最佳排列而求出概率值,并将该概率值作为对破坏性表达和正常表达的关联概率来提供,从而能够将破坏性表达的多样性数值化。即在语素分析中,当通过语素词典111判断是否存在语素时,以各字符串为语素的概率进行数值化来表现。例如,将对语素的存在与否的判断,改为由0(无)和1(有)之间的数值来表现,从而能够提供用于解决语素分析中含糊性问题的数值化信息。
另外,在上述内容中对韩语的语素分析进行了说明,但在英语等其他语言中也像韩语那样频繁使用破坏性表达,并且在包含破坏性表达的破坏性句子的处理中,采用以往的基于正常句子的语言处理方法显然有局限性。例如,如图8所示,在常见的语素分析装置的情况下,用于进行语素分析的语素分析器300参照在语素分析中所要参照的知识400,对该语言进行语素分析。此时,作为在语素分析中所要参照的知识400例如包括语素词典。
因语言和语言之间的形态区别,在按语言的语素分析中,具体的分析过程及各分析过程中所需要的知识有可能彼此不同。例如,在韩语的情况下,如上述图1所示,可分为语素分割、连接信息核实及原型恢复等的结构要素或者过程,并且还能如语素词典11-1,将参考知识400具体化。
因此,当参照对韩语所进行的如上所述的内容,对英语等其他语言也进行对应的操作时,如图9所示,可在构建破坏性句子和正常句子的双语语料库之后,对所构建的破坏性句子和正常句子的双语语料库进行基于自学的最佳排列,从而生成并应用破坏性表达-正常表达排列语料库620,并且对语素词典610中不存在的破坏性表达,使语素分析器500核实破坏性表达-正常表达排列语料库620来查找与破坏性表达对应的正常表达,并进行正常的语素分析。
上面对本发明的实施例进行了详细说明,但本发明的权利范围并不局限于此,本领域技术人员在所附的权利要求书中定义的本发明基本概念的基础上所进行的各种变形及改良形式也属于本发明的保护范围。

Claims (20)

1.一种排列语料库的生成方法,包括步骤:
构建双语语料库,所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及
对所述双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。
2.根据权利要求1所述的排列语料库的生成方法,其中,所述双语语料库的构建步骤包括:
通过网络收集多个破坏性句子;
利用查询对包含在被收集的破坏性句子中的破坏性表达进行网络检索,以判断该破坏性句子的普遍性;
当判断为被收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及
将所生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构建所述双语语料库。
3.根据权利要求2所述的排列语料库的生成方法,其特征在于,
在所述普遍性的判断步骤中,
以利用所述查询的检索结果的量为基准,当超过基准量时,判断为该破坏性表达具有普遍性,
所述普遍性的判断通过利用多个门户网站的网络检索自动运行。
4.根据权利要求1所述的排列语料库的生成方法,其中,
生成所述排列语料库的步骤包括:
以随机或者初始化方法学,在所述双语语料库给出的字符串中设定子字符串对,并初始化关联概率;
根据字符串的匹配及该匹配的概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常句子之间能够最匹配;
重新计算新排列的各子字符串对之间的概率;及
满足自学停止条件为止反复执行所述匹配步骤及所述计算步骤,当满足所述自学停止条件时,将最终输出的破坏性表达、正常表达及关联概率储存在所述排列语料库中,其中所述关联概率为所述破坏性表达和正常表达的排列概率值。
5.根据权利要求1所述的排列语料库的生成方法,其特征在于,
为了生成所述排列语料库,使用期望最大化算法,以便在自学基础上求出排列并且设定排列概率值。
6.一种排列语料库的生成装置,包括:
双语语料库构建部,用于构建双语语料库,所述双语语料库储存由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对,其中,所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及
自学部,对通过所述双语语料库构建部构建的双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。
7.根据权利要求6所述的排列语料库的生成装置,其特征在于,
所述自学部包括:
双语语料库,由所述双语语料库构建部构建;及
自学排列部,对所述双语语料库使用自学方法学习破坏性表达和正常表达的单音节、多音节或者单词之间的最佳排列概率值,从而生成所述排列语料库。
8.根据权利要求6所述的排列语料库的生成装置,其特征在于,
所述双语语料库构建部包括:
破坏性句子收集器,通过网络收集多个破坏性句子;
普遍性判断器,利用查询对包含在通过所述破坏性句子收集器收集的破坏性句子中的破坏性表达进行网络检索,并判断该破坏性句子的普遍性;
正常句子生成器,当判断为被收集的破坏性句子具有普遍性时,生成与该破坏性句子对应的正常句子;及
构建器,将通过所述正常句子生成器生成的正常句子和与该正常句子对应的破坏性句子组成为一对,以构建所述双语语料库。
9.根据权利要求7所述的排列语料库的生成装置,其特征在于,
所述自学排列部包括:
初始化器,以随机或者初始化方法学,在所述双语语料库给出的字符串中设定子字符串对,并初始化关联概率;
E-步骤处理器,根据字符串的匹配及该匹配概率值,进行破坏性表达和正常表达之间的匹配,以使破坏性句子和正常句子之间能够最匹配;
M-步骤处理器,重新计算新排列的各子字符串对之间的概率;及
控制器,将所述双语语料库中构建的破坏性句子和正常句子的字符串向所述初始化器输入,在所述M-步骤处理器的概率计算后,满足自学停止条件为止控制所述E-步骤处理器及M-步骤处理器进行反复操作,当满足所述自学停止条件时生成储存最终输出的破坏性表达、正常表达及关联概率的所述排列语料库。
10.一种语素分析装置,包括:
知识数据库,储存有在按语言的语素分析中使用的多个知识信息,并且包括语素词典和排列语料库,所述语素词典储存与正常表达对应的语素信息,所述排列语料库储存与破坏性表达对应的正常表达信息,其中所述破坏性表达是拼写错误或者没有规范化和标准化的表达;及
分析器,使用所述知识数据库,对所输入的语节进行语素分析并输出分析结果,当所述语素词典中不存在与输入语节对应的语素时,对所述输入语节中包含的破坏性表达,使用所述排列语料库查找与所述破坏性表达对应的正常表达并进行语素分析。
11.根据权利要求10所述的语素分析装置,其特征在于,
所述知识数据库进一步包括储存按语素的连接信息的已分析词典,
所述分析器包括:
语素分割部,使用所述语素词典分割构成所述输入语节的语素,当所述语素词典中不存在构成所述输入语节的语素时,使用所述排列语料库并且利用对应的正常表达来进行语素分割;
连接信息核实部,使用所述已分析词典,对通过所述语素分割部分割的语素提取可组合的语素;及
原型恢复部,对通过所述连接信息核实部提取的语素进行原型恢复,并将原型恢复后的语素作为语素分析结果来输出。
12.根据权利要求11所述的语素分析装置,其特征在于,
所述语素分割部包括:
候补群生成器,将所述输入语节分割为语素,以生成语素候补;
正常表达核实器,对所述候补群生成器所生成的语素候补,使用所述语素词典核实是否存在该语素候补;
破坏性表达核实器,当通过所述正常表达核实器判断为在所述语素词典中不存在语素候补时,对该语素候补,使用所述排列语料库核实是否存在所述输入语节的破坏性表达;
分割处理器,当通过所述正常表达核实器判断为在所述语素词典中存在语素候补时,从输入语节中分割出该语素候补,以进行语素分割处理;及
控制器,通过控制所述候补群生成器、所述正常表达核实器、所述破坏性表达核实器及所述分割处理器来进行对所述输入语节的语素分割,当通过所述正常表达核实器判断为在所述语素词典中不存在所述候补群生成器所生成的语素候补时,控制所述破坏性表达核实器查找对应的正常表达后向所述候补群生成器重新输入该正常表达。
13.根据权利要求10所述的语素分析装置,其特征在于,
所述排列语料库为通过对双语语料库进行基于自学的排列,从而由破坏性表达及与该破坏性表达对应的正常表达排列而成的语料库,其中所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对。
14.根据权利要求13所述的语素分析装置,其特征在于,
在所述排列语料库中包含关联概率,所述关联概率为破坏性表达和与该破坏性表达对应的正常表达之间的排列概率值。
15.根据权利要求14所述的语素分析装置,其特征在于,
在语素分析中,在通过所述语素词典判断是否存在语素时,使用所述关联概率,以相应的各字符串为语素的概率来进行数值化来表达。
16.根据权利要求13所述的语素分析装置,其特征在于,
通过期望最大化算法来生成所述排列语料库。
17.一种语素分析方法,包括步骤:
将所输入的语节分割为语素,以生成语素候补;
判断语素候补是否存在于语素词典中,其中所述语素词典为储存与正常表达对应的语素信息的词典;
当语素候补存在于所述语素词典中时,进行该语素分析;
当语素候补不存在于所述语素词典中时,判断包含在所输入的所述语节中的破坏性表达是否存在于排列语料库中,其中,所述破坏性表达是拼写错误或者没有规范化和标准化的表达,所述排列语料库是储存与破坏性表达对应的正常表达信息的语料库;及
当破坏性表达存在于所述排列语料库中时,查找与该破坏性表达对应的正常表达并进行语素分析。
18.根据权利要求17所述的语素分析方法,其中,
进行所述语素分析的步骤包括:
使用储存按语素的连接信息的已分析词典,对语素提取可组合的语素;及
对所提取的语素进行原型恢复,并将原型恢复后的语素作为语素分析结果来输出。
19.根据权利要求17所述的语素分析方法,其特征在于,
在进行判断所述语素候补是否存在于语素词典中的步骤之前,进一步包括生成所述排列语料库的步骤。
20.根据权利要求19所述的语素分析方法,其特征在于,
所述生成排列语料库的步骤包括:
构建双语语料库,所述双语语料库中储存有由包含破坏性表达的破坏性句子和与该破坏性句子对应的正常句子组成的句子对;及
对所述双语语料库进行基于自学的排列,从而生成由破坏性表达及与该破坏性表达对应的正常表达排列而成的排列语料库。
CN201480054951.5A 2013-10-02 2014-08-27 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 Active CN105593845B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20130118062A KR101509727B1 (ko) 2013-10-02 2013-10-02 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
KR10-2013-0118062 2013-10-02
PCT/KR2014/007959 WO2015050321A1 (ko) 2013-10-02 2014-08-27 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법

Publications (2)

Publication Number Publication Date
CN105593845A true CN105593845A (zh) 2016-05-18
CN105593845B CN105593845B (zh) 2018-04-17

Family

ID=52778882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480054951.5A Active CN105593845B (zh) 2013-10-02 2014-08-27 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法

Country Status (5)

Country Link
US (1) US10282413B2 (zh)
JP (1) JP6532088B2 (zh)
KR (1) KR101509727B1 (zh)
CN (1) CN105593845B (zh)
WO (1) WO2015050321A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
KR101702055B1 (ko) 2015-06-23 2017-02-13 (주)아크릴 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법
KR101839121B1 (ko) * 2015-09-14 2018-04-26 네이버 주식회사 사용자 질의 교정 시스템 및 방법
CN108205757B (zh) * 2016-12-19 2022-05-27 创新先进技术有限公司 电子支付业务合法性的校验方法和装置
US10635862B2 (en) * 2017-12-21 2020-04-28 City University Of Hong Kong Method of facilitating natural language interactions, a method of simplifying an expression and a system thereof
CN109815476B (zh) * 2018-12-03 2023-03-24 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
KR102199835B1 (ko) * 2018-12-31 2021-01-07 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
KR102352163B1 (ko) 2019-11-26 2022-01-19 고려대학교 산학협력단 뇌파 측정 기술을 이용하여 언어 능숙도를 진단하는 방법
CN113343719B (zh) * 2021-06-21 2023-03-14 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591415A (zh) * 2003-09-01 2005-03-09 株式会社国际电气通信基础技术研究所 机器翻译装置以及机器翻译计算机程序
CN1673997A (zh) * 2004-03-26 2005-09-28 微软公司 以apra标准格式表示经删除插值n字母语言模型
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
CN101707873A (zh) * 2007-03-26 2010-05-12 谷歌公司 机器翻译中的大语言模型
KR20110061209A (ko) * 2009-12-01 2011-06-09 한국전자통신연구원 후처리 지식 생성 장치

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477448A (en) * 1994-06-01 1995-12-19 Mitsubishi Electric Research Laboratories, Inc. System for correcting improper determiners
US6708311B1 (en) * 1999-06-17 2004-03-16 International Business Machines Corporation Method and apparatus for creating a glossary of terms
US7010479B2 (en) * 2000-07-26 2006-03-07 Oki Electric Industry Co., Ltd. Apparatus and method for natural language processing
GB2366893B (en) * 2000-09-08 2004-06-16 Roke Manor Research Improvements in or relating to word processor systems or the like
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
FR2841355B1 (fr) * 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
US20050131931A1 (en) * 2003-12-11 2005-06-16 Sanyo Electric Co., Ltd. Abstract generation method and program product
JP2005251115A (ja) * 2004-03-08 2005-09-15 Shogakukan Inc 連想検索システムおよび連想検索方法
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム
KR100735308B1 (ko) * 2005-08-30 2007-07-03 경북대학교 산학협력단 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8170868B2 (en) * 2006-03-14 2012-05-01 Microsoft Corporation Extracting lexical features for classifying native and non-native language usage style
WO2008083503A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
KR100911834B1 (ko) * 2007-12-11 2009-08-13 한국전자통신연구원 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
US8229728B2 (en) * 2008-01-04 2012-07-24 Fluential, Llc Methods for using manual phrase alignment data to generate translation models for statistical machine translation
JP2009245308A (ja) * 2008-03-31 2009-10-22 Fujitsu Ltd 文書校正支援プログラム、文書校正支援方法および文書校正支援装置
KR101496885B1 (ko) * 2008-04-07 2015-02-27 삼성전자주식회사 문장 띄어쓰기 시스템 및 방법
KR100961717B1 (ko) * 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US20100076764A1 (en) * 2008-09-19 2010-03-25 General Motors Corporation Method of dialing phone numbers using an in-vehicle speech recognition system
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5436868B2 (ja) * 2009-01-13 2014-03-05 Kddi株式会社 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム
CN102341843B (zh) * 2009-03-03 2014-01-29 三菱电机株式会社 语音识别装置
JP2010257021A (ja) * 2009-04-22 2010-11-11 Kddi Corp 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
KR101027791B1 (ko) * 2009-08-11 2011-04-07 주식회사 케피코 직분식 연료레일의 마운트 구조체
KR101250900B1 (ko) 2009-08-17 2013-04-04 한국전자통신연구원 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법
CN103229137B (zh) * 2010-09-29 2016-01-20 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
US9164983B2 (en) * 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
US20130103390A1 (en) * 2011-10-21 2013-04-25 Atsushi Fujita Method and apparatus for paraphrase acquisition
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
US9311286B2 (en) * 2012-01-25 2016-04-12 International Business Machines Corporation Intelligent automatic expansion/contraction of abbreviations in text-based electronic communications
US9785631B2 (en) * 2012-03-16 2017-10-10 Entit Software Llc Identification and extraction of acronym/definition pairs in documents
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9659059B2 (en) * 2012-07-20 2017-05-23 Salesforce.Com, Inc. Matching large sets of words
KR20150024188A (ko) * 2013-08-26 2015-03-06 삼성전자주식회사 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
CN1591415A (zh) * 2003-09-01 2005-03-09 株式会社国际电气通信基础技术研究所 机器翻译装置以及机器翻译计算机程序
CN1673997A (zh) * 2004-03-26 2005-09-28 微软公司 以apra标准格式表示经删除插值n字母语言模型
CN101707873A (zh) * 2007-03-26 2010-05-12 谷歌公司 机器翻译中的大语言模型
KR20110061209A (ko) * 2009-12-01 2011-06-09 한국전자통신연구원 후처리 지식 생성 장치

Also Published As

Publication number Publication date
KR101509727B1 (ko) 2015-04-07
US20160217122A1 (en) 2016-07-28
WO2015050321A1 (ko) 2015-04-09
JP6532088B2 (ja) 2019-06-19
WO2015050321A8 (ko) 2015-05-14
CN105593845B (zh) 2018-04-17
JP2016538666A (ja) 2016-12-08
US10282413B2 (en) 2019-05-07

Similar Documents

Publication Publication Date Title
US11016966B2 (en) Semantic analysis-based query result retrieval for natural language procedural queries
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN105593845A (zh) 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN100511215C (zh) 多语种翻译存储器和翻译方法
CN109509556A (zh) 知识图谱生成方法、装置、电子设备及计算机可读介质
CN110442841A (zh) 识别简历的方法及装置、计算机设备、存储介质
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
US9311299B1 (en) Weakly supervised part-of-speech tagging with coupled token and type constraints
US20220414463A1 (en) Automated troubleshooter
WO2017012327A1 (zh) 句法分析的方法和装置
US20200311345A1 (en) System and method for language-independent contextual embedding
US11080615B2 (en) Generating chains of entity mentions
CN104239289A (zh) 音节划分方法和音节划分设备
Ahmadnia et al. Round-trip training approach for bilingually low-resource statistical machine translation systems
Khan et al. A clustering framework for lexical normalization of Roman Urdu
CN106776590A (zh) 一种获取词条译文的方法及系统
Mara English-Wolaytta Machine Translation using Statistical Approach
CN114492437B (zh) 关键词识别方法、装置、电子设备及存储介质
Ngoc Phuoc An et al. FBK-HLT: A new framework for semantic textual similarity
CN111597827A (zh) 一种提高机器翻译准确度的方法及其装置
Sun et al. Informed graph convolution networks for multilingual short text understanding
Bakhteev et al. A monolingual approach to detection of text reuse in Russian-English collection
CN114238603B (zh) 基于人工智能的问答方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant