JP6532088B2 - 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 - Google Patents
自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 Download PDFInfo
- Publication number
- JP6532088B2 JP6532088B2 JP2016546716A JP2016546716A JP6532088B2 JP 6532088 B2 JP6532088 B2 JP 6532088B2 JP 2016546716 A JP2016546716 A JP 2016546716A JP 2016546716 A JP2016546716 A JP 2016546716A JP 6532088 B2 JP6532088 B2 JP 6532088B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- expression
- normal
- corpus
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims description 244
- 230000006378 damage Effects 0.000 title claims description 72
- 238000004458 analytical method Methods 0.000 title claims description 70
- 230000000877 morphologic effect Effects 0.000 title claims description 57
- 238000000034 method Methods 0.000 title claims description 35
- 230000001066 destructive effect Effects 0.000 claims description 94
- 238000010276 construction Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000002567 autonomic effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Description
破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスを構築する段階と、前記並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列された整列コーパスを生成する段階とを含む。
破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスを構築する並列コーパス構築部と、前記並列コーパス構築部により構築される並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列された整列コーパスを生成する自律学習部とを含む。
言語毎の形態素分析に用いられる多数の知識情報を格納するが、正常表現に対応する形態素情報を格納する形態素辞書と、破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−に対応する正常表現情報を格納する整列コーパスとを含む知識データベースと、入力される語節に対して、前記知識データベースを用いて形態素分析を行って分析結果を出力するが、入力語節に対する形態素が前記形態素辞書にない場合、前記入力語節に含まれている破壊表現に対して、前記整列コーパスを用いて前記破壊表現に対応する正常表現を探し、形態素分析を行う分析器と、を含む。
入力される語節を形態素に分割して形態素候補を生成する段階と、形態素候補が形態素辞書−ここで、形態素辞書は、正常表現に対応する形態素情報を格納する辞書である−に存在するか否かを判断する段階と、形態素候補が前記形態素辞書に存在する場合、当該形態素分析を行う段階と、形態素候補が前記形態素辞書に存在しない場合、前記入力される語節に含まれる破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が整列コーパス−ここで、整列コーパスは、破壊表現に対応する正常表現情報を格納するコーパスである−に存在するか否かを判断する段階と、破壊表現が前記整列コーパスに存在する場合、当該破壊表現に対応する正常表現を探し、形態素分析を行う段階と、を含む。
多くの破壊文章は綴りエラーを含んでいる。綴りエラーは、正確な綴りを知らずに犯すエラー、または正確な綴りを無視して犯すエラーである。例えば、
を
に、
を
、
を
、
を
、
を
に表現する破壊表現がある。この種類のエラーは、音に従って表記する特徴を見せており、時には、音に従って表記することによって、新たなニュアンスを示す手段として用いられる。
を
に間違って入力するもので、これは
を
に間違ってタイピングした場合であり、
を
と入力して、
を
に間違ってタイピングした場合である。特に、
と
、
と
、
と
、
と
は互いに打ち間違いとして入力される確率が高い。
与えられた破壊文字列から、関連付属文字列の対をランダムやその他の初期化方法論で設定し、関連性確率値は0に初期化する。つまり、任意破壊文字列Un,i−hと正常文字列Vm,j−kの整列確率値P(Vm,j−k|Un,i−h)=0に設定する。
この段階は、入力された破壊文章と正常文章から、破壊文字列と正常文字列の対を求める段階である。
S(0,0)=0
初期化段階であって、いずれの文字列も含まれないS(0,0)の値を0に設定する。
S(i,j)=maxh,k[S(i−h,j−k)+logP(Vm,j−k|Un,i−h)]
0≦i≦n,0≦j≦m
破壊表現文字列Ui,1と正常表現文字列Vj,1までの整列スコアS(i,j)は、破壊表現文字列Ui−h,1と正常表現文字列Vj−k,1までの整列スコアS(i−h,j−k)と、破壊表現文字列Ui,i−hと正常表現文字列Vj,j−kまでの整列重み値logP(Vi,j−k|Ui,i−h)との合計の最大値(max)である。
前記付属段階2により、破壊表現文字列に対して1からnまで、そして、正常表現文字列に対して1からmまで順次に計算された整列スコアS(n,m)は、破壊表現文字列Ui,1と正常表現文字列Vj,1までの最高整列値である。
この段階は、前記ステップ−2段階で整列された破壊表現文字列と正常表現文字列の対の統計に応じた確率値を求める段階であって、最高値となるように整列された各付属文字列の対に対してバックトラッキング(back−tracking)する方法で破壊表現文字列に対応する正常表現文字列を探す。
Claims (9)
- 正常表現に対応する形態素情報を格納する形態素辞書にない形態素を含む表現である破壊表現が含まれている破壊文章と、該破壊文章に対応する、前記正常表現から構成された文章である正常文章とからなる対が格納された並列コーパスを構築する段階と、
前記並列コーパスに対して自律学習ベースの整列を行って、前記破壊表現および該破壊表現に対応する前記正常表現に整列された整列コーパスを生成する段階と、を含み、
前記並列コーパスを構築する段階は、
ネットワークを介して多数の前記破壊文章を収集する段階と、
収集される前記破壊文章に含まれる前記破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する段階と、
収集される前記破壊文章が普遍性を有すると判断される場合、当該破壊文章に含まれる前記破壊表現に対して対応する前記正常表現を生成し、生成された当該正常表現を含む前記正常文章を生成する段階と、
生成される前記正常文章と、これに対応する前記破壊文章とを一対に形成して、前記並列コーパスを構築する段階と、を含み、
前記整列コーパスを生成する段階は、
前記並列コーパスから与えられた前記破壊文章と前記正常文章の対のうちの一つに該当する破壊文字列と正常文字列との各一部から構成される付属文字列の対を求める段階と、
前記付属文字列の対の前記並列コーパスでの出現回数に基づいて前記付属文字列の対の整列確率を算出する段階と、
自律学習の停止条件が満足されるまで前記付属文字列の対を求める段階および前記整列確率を算出する段階を繰り返して行い、前記停止条件が満足される場合、前記付属文字列の対とそれに対応する前記整列確率を、前記破壊表現、前記正常表現、および相関確率として前記整列コーパスに格納する段階と、を含むことを特徴とするコンピュータで実行される整列コーパス生成方法。 - 前記普遍性を判断する段階において、
前記クエリに基づく検索の結果物の量を基準として基準量を超える場合、当該破壊表現が普遍性を有すると判断し、
前記普遍性の判断は、多数のポータルサイトを介したウェブ検索により自動的に実行されることを特徴とする請求項1に記載の整列コーパス生成方法。 - 前記整列コーパスを生成すべく行われる自律学習ベースで整列を求め、整列の確率値を設定していくために、EM(Expectation−Maximization)アルゴリズムが用いられることを特徴とする請求項1に記載の整列コーパス生成方法。
- 正常表現に対応する形態素情報を格納する形態素辞書にない形態素を含む表現である破壊表現が含まれている破壊文章と、該破壊文章に対応する、前記正常表現から構成された文章である正常文章とからなる対が格納された並列コーパスを構築する並列コーパス構築部と、
前記並列コーパス構築部により構築される並列コーパスに対して自律学習ベースの整列を行って、前記破壊表現および該破壊表現に対応する前記正常表現に整列された整列コーパスを生成する自律学習部と、を含み、
前記並列コーパス構築部は、
ネットワークを介して多数の前記破壊文章を収集する破壊文章収集器と、
前記破壊文章収集器により収集される前記破壊文章に含まれる前記破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する普遍性判断器と、
収集される前記破壊文章が普遍性を有すると判断される場合、当該破壊文章に含まれる前記破壊表現に対して対応する前記正常表現を生成し、生成された当該正常表現を含む前記正常文章を生成する正常文章生成器と、
前記正常文章生成器により生成される前記正常文章と、これに対応する前記破壊文章とを一対に形成して、前記並列コーパスを構築する構築器とを含み、
前記自律学習部は、
前記並列コーパス構築部により構築される並列コーパスと、
前記並列コーパスに対して、自律学習方法を用いて前記破壊表現と前記正常表現の単一音節、多音節または単語間の最適整列確率値を学習して、前記整列コーパスを生成する自律学習整列部と、を含み、
前記自律学習整列部は、
前記並列コーパスから与えられた前記破壊文章と前記正常文章の対のうちの一つに該当する破壊文字列と正常文字列の各一部から構成される付属文字列の対を求めるE−ステップ処理器と、
前記付属文字列の対の前記並列コーパスでの出現回数に基づいて前記付属文字列の対の整列確率を算出するM−ステップ処理器と、
前記並列コーパスに構築されている前記破壊文章と前記正常文章の文字列を前記E−ステップ処理器に入力させ、前記M−ステップ処理器による整列確率の計算後、自律学習の停止条件が満足されるまで前記E−ステップ処理器および前記M−ステップ処理器の繰り返し実行を制御し、前記停止条件が満足される場合、前記付属文字列の対とそれに対応する整列確率を、前記破壊表現、前記正常表現、および相関確率として前記整列コーパスに格納する制御器と、を含むことを特徴とする整列コーパス生成装置。 - 請求項4に記載の整列コーパス生成装置と、
言語毎の形態素分析に用いられる多数の知識情報を格納するが、正常表現に対応する形態素情報を格納する形態素辞書と、前記整列コーパス生成装置によって生成された整列コーパスと、を含む知識データベースと、
入力される語節に対して、前記知識データベースを用いて形態素分析を行って分析結果を出力するが、入力語節に対する形態素が前記形態素辞書にない場合、前記入力語節に含まれている破壊表現に対して、前記整列コーパスを用いて前記破壊表現に対応する正常表現を探し、形態素分析を行う分析器と、を含むことを特徴とする形態素分析装置。 - 前記知識データベースが、形態素毎の接続情報を格納する既分析辞書をさらに含み、
前記分析器は、
前記形態素辞書を用いて、前記入力語節をなしている形態素を分割するが、前記入力語節をなしている形態素が前記形態素辞書にない場合、前記整列コーパスを用いて、対応する正常表現を用いて形態素分割を行う形態素分割部と、
前記既分析辞書を用いて、前記形態素分割部により分割された形態素に対して組み合わせ可能な形態素を抽出する接続情報チェック部と、
前記接続情報チェック部により抽出される形態素を用いて前記入力語節に対応する正常文章である原形の文章に復元を行って、形態素分析結果として出力する原形復元部と、を含むことを特徴とする請求項5に記載の形態素分析装置。 - 前記形態素分割部は、
前記入力語節を分割して形態素候補を生成する候補群生成器と、
前記候補群生成器で生成される形態素候補に対して、前記形態素辞書を用いて当該形態素候補の存在の有無をチェックする正常表現チェック器と、
前記正常表現チェック器により形態素候補が前記形態素辞書に存在しないと判断される場合、当該形態素候補に対して、前記整列コーパスを用いて前記入力語節の破壊表現の存在の有無をチェックする破壊表現チェック器と、
前記正常表現チェック器により形態素候補が前記形態素辞書に存在すると判断される場合、当該形態素候補を入力語節から形態素分割処理する分割処理器と、
前記候補群生成器、前記正常表現チェック器、前記破壊表現チェック器および前記分割処理器を制御して、前記入力語節に対する形態素分割が行われるようにするが、前記候補群生成器で生成される形態素候補が前記正常表現チェック器により前記形態素辞書に存在しないと判断される場合、前記破壊表現チェック器により対応する正常表現を探し、前記候補群生成器に再入力制御する制御器と、を含むことを特徴とする請求項6に記載の形態素分析装置。 - 請求項1〜3のいずれか一項に記載の整列コーパス生成方法に基づいて整列コーパスを生成する段階と、
入力される語節を分割して形態素候補を生成する段階と、
形態素候補が正常表現に対応する形態素情報を格納する辞書である形態素辞書に存在するか否かを判断する段階と、
形態素候補が前記形態素辞書に存在する場合、当該形態素分析を行う段階と、
形態素候補が前記形態素辞書に存在しない場合、前記入力される語節に含まれる、前記形態素辞書にない形態素を含む表現である破壊表現が、前記整列コーパスに存在するか否かを判断する段階と、
前記破壊表現が前記整列コーパスに存在する場合、当該破壊表現に対応する正常表現を探し、形態素分析を行う段階と、を含むことを特徴とするコンピュータで実行される形態素分析方法。 - 前記形態素分析を行う段階は、
形態素毎の接続情報を格納する既分析辞書を用いて、形態素に対して組み合わせ可能な形態素を抽出する段階と、
抽出される形態素を用いて前記入力語節に対応する正常文章である原形の文章に復元を行って、形態素分析結果として出力する段階とを含むことを特徴とする請求項8に記載の形態素分析方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2013-0118062 | 2013-10-02 | ||
KR20130118062A KR101509727B1 (ko) | 2013-10-02 | 2013-10-02 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
PCT/KR2014/007959 WO2015050321A1 (ko) | 2013-10-02 | 2014-08-27 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016538666A JP2016538666A (ja) | 2016-12-08 |
JP6532088B2 true JP6532088B2 (ja) | 2019-06-19 |
Family
ID=52778882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016546716A Active JP6532088B2 (ja) | 2013-10-02 | 2014-08-27 | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10282413B2 (ja) |
JP (1) | JP6532088B2 (ja) |
KR (1) | KR101509727B1 (ja) |
CN (1) | CN105593845B (ja) |
WO (1) | WO2015050321A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6466138B2 (ja) * | 2014-11-04 | 2019-02-06 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
KR101702055B1 (ko) | 2015-06-23 | 2017-02-13 | (주)아크릴 | 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법 |
KR101839121B1 (ko) * | 2015-09-14 | 2018-04-26 | 네이버 주식회사 | 사용자 질의 교정 시스템 및 방법 |
CN108205757B (zh) * | 2016-12-19 | 2022-05-27 | 创新先进技术有限公司 | 电子支付业务合法性的校验方法和装置 |
US10635862B2 (en) * | 2017-12-21 | 2020-04-28 | City University Of Hong Kong | Method of facilitating natural language interactions, a method of simplifying an expression and a system thereof |
CN109815476B (zh) * | 2018-12-03 | 2023-03-24 | 国网浙江省电力有限公司杭州供电公司 | 一种基于中文语素和拼音联合统计的词向量表示方法 |
KR102199835B1 (ko) * | 2018-12-31 | 2021-01-07 | 주식회사 엘솔루 | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 |
KR102352163B1 (ko) | 2019-11-26 | 2022-01-19 | 고려대학교 산학협력단 | 뇌파 측정 기술을 이용하여 언어 능숙도를 진단하는 방법 |
CN113343719B (zh) * | 2021-06-21 | 2023-03-14 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5477448A (en) * | 1994-06-01 | 1995-12-19 | Mitsubishi Electric Research Laboratories, Inc. | System for correcting improper determiners |
US6708311B1 (en) * | 1999-06-17 | 2004-03-16 | International Business Machines Corporation | Method and apparatus for creating a glossary of terms |
US7010479B2 (en) * | 2000-07-26 | 2006-03-07 | Oki Electric Industry Co., Ltd. | Apparatus and method for natural language processing |
GB2366893B (en) * | 2000-09-08 | 2004-06-16 | Roke Manor Research | Improvements in or relating to word processor systems or the like |
US7043422B2 (en) * | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
JP4947861B2 (ja) * | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | 自然言語処理装置およびその制御方法ならびにプログラム |
US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
FR2841355B1 (fr) * | 2002-06-24 | 2008-12-19 | Airbus France | Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef |
JP2005100335A (ja) | 2003-09-01 | 2005-04-14 | Advanced Telecommunication Research Institute International | 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ |
US20050131931A1 (en) * | 2003-12-11 | 2005-06-16 | Sanyo Electric Co., Ltd. | Abstract generation method and program product |
JP2005251115A (ja) * | 2004-03-08 | 2005-09-15 | Shogakukan Inc | 連想検索システムおよび連想検索方法 |
US7406416B2 (en) | 2004-03-26 | 2008-07-29 | Microsoft Corporation | Representation of a deleted interpolation N-gram language model in ARPA standard format |
JP3998668B2 (ja) * | 2004-07-14 | 2007-10-31 | 沖電気工業株式会社 | 形態素解析装置、方法及びプログラム |
KR100735308B1 (ko) * | 2005-08-30 | 2007-07-03 | 경북대학교 산학협력단 | 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체 |
US7747427B2 (en) * | 2005-12-05 | 2010-06-29 | Electronics And Telecommunications Research Institute | Apparatus and method for automatic translation customized for documents in restrictive domain |
US8170868B2 (en) * | 2006-03-14 | 2012-05-01 | Microsoft Corporation | Extracting lexical features for classifying native and non-native language usage style |
CA2675208A1 (en) * | 2007-01-10 | 2008-07-17 | National Research Council Of Canada | Means and method for automatic post-editing of translations |
US9465791B2 (en) * | 2007-02-09 | 2016-10-11 | International Business Machines Corporation | Method and apparatus for automatic detection of spelling errors in one or more documents |
US8332207B2 (en) | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
JP2008287406A (ja) * | 2007-05-16 | 2008-11-27 | Sony Corp | 情報処理装置および情報処理方法、プログラム、並びに、記録媒体 |
KR100911834B1 (ko) * | 2007-12-11 | 2009-08-13 | 한국전자통신연구원 | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 |
US8229728B2 (en) * | 2008-01-04 | 2012-07-24 | Fluential, Llc | Methods for using manual phrase alignment data to generate translation models for statistical machine translation |
JP2009245308A (ja) * | 2008-03-31 | 2009-10-22 | Fujitsu Ltd | 文書校正支援プログラム、文書校正支援方法および文書校正支援装置 |
KR101496885B1 (ko) * | 2008-04-07 | 2015-02-27 | 삼성전자주식회사 | 문장 띄어쓰기 시스템 및 방법 |
KR100961717B1 (ko) * | 2008-09-16 | 2010-06-10 | 한국전자통신연구원 | 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치 |
US20100076764A1 (en) * | 2008-09-19 | 2010-03-25 | General Motors Corporation | Method of dialing phone numbers using an in-vehicle speech recognition system |
JP4701292B2 (ja) * | 2009-01-05 | 2011-06-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP5436868B2 (ja) | 2009-01-13 | 2014-03-05 | Kddi株式会社 | 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム |
US8880400B2 (en) * | 2009-03-03 | 2014-11-04 | Mitsubishi Electric Corporation | Voice recognition device |
JP2010257021A (ja) | 2009-04-22 | 2010-11-11 | Kddi Corp | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム |
KR101027791B1 (ko) * | 2009-08-11 | 2011-04-07 | 주식회사 케피코 | 직분식 연료레일의 마운트 구조체 |
KR101250900B1 (ko) | 2009-08-17 | 2013-04-04 | 한국전자통신연구원 | 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법 |
KR20110061209A (ko) * | 2009-12-01 | 2011-06-09 | 한국전자통신연구원 | 후처리 지식 생성 장치 |
US9020805B2 (en) * | 2010-09-29 | 2015-04-28 | International Business Machines Corporation | Context-based disambiguation of acronyms and abbreviations |
JP5392228B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | 番組検索装置および番組検索方法 |
US8316030B2 (en) * | 2010-11-05 | 2012-11-20 | Nextgen Datacom, Inc. | Method and system for document classification or search using discrete words |
US9164983B2 (en) * | 2011-05-27 | 2015-10-20 | Robert Bosch Gmbh | Broad-coverage normalization system for social media language |
US20130103390A1 (en) * | 2011-10-21 | 2013-04-25 | Atsushi Fujita | Method and apparatus for paraphrase acquisition |
US9501759B2 (en) * | 2011-10-25 | 2016-11-22 | Microsoft Technology Licensing, Llc | Search query and document-related data translation |
US9311286B2 (en) * | 2012-01-25 | 2016-04-12 | International Business Machines Corporation | Intelligent automatic expansion/contraction of abbreviations in text-based electronic communications |
US9785631B2 (en) * | 2012-03-16 | 2017-10-10 | Entit Software Llc | Identification and extraction of acronym/definition pairs in documents |
JP5870790B2 (ja) * | 2012-03-19 | 2016-03-01 | 富士通株式会社 | 文章校正装置、及び文章校正方法 |
US9659059B2 (en) * | 2012-07-20 | 2017-05-23 | Salesforce.Com, Inc. | Matching large sets of words |
KR20150024188A (ko) * | 2013-08-26 | 2015-03-06 | 삼성전자주식회사 | 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치 |
-
2013
- 2013-10-02 KR KR20130118062A patent/KR101509727B1/ko active IP Right Grant
-
2014
- 2014-08-27 JP JP2016546716A patent/JP6532088B2/ja active Active
- 2014-08-27 WO PCT/KR2014/007959 patent/WO2015050321A1/ko active Application Filing
- 2014-08-27 CN CN201480054951.5A patent/CN105593845B/zh active Active
- 2014-08-27 US US15/026,275 patent/US10282413B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN105593845A (zh) | 2016-05-18 |
WO2015050321A1 (ko) | 2015-04-09 |
US10282413B2 (en) | 2019-05-07 |
KR101509727B1 (ko) | 2015-04-07 |
WO2015050321A8 (ko) | 2015-05-14 |
CN105593845B (zh) | 2018-04-17 |
JP2016538666A (ja) | 2016-12-08 |
US20160217122A1 (en) | 2016-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6532088B2 (ja) | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 | |
Martschat et al. | Latent structures for coreference resolution | |
US9176936B2 (en) | Transliteration pair matching | |
Pang et al. | Syntax-based alignment of multiple translations: Extracting paraphrases and generating new sentences | |
Lawrie et al. | Normalizing source code vocabulary | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
WO2019060353A1 (en) | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES | |
US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
US20120166942A1 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
JP5497048B2 (ja) | コンパラブルコーパスを使用する固有表現の翻字 | |
CN111488466B (zh) | 中文带标记错误语料生成方法、计算装置和存储介质 | |
KR20060043682A (ko) | 개선된 맞춤법 검사를 위한 시스템 및 방법 | |
Li et al. | Spelling error correction using a nested RNN model and pseudo training data | |
Eger et al. | A comparison of four character-level string-to-string translation models for (OCR) spelling error correction | |
Li et al. | Improving text normalization using character-blocks based models and system combination | |
CN104239289A (zh) | 音节划分方法和音节划分设备 | |
US11568150B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space | |
El Kahki et al. | Improved transliteration mining using graph reinforcement | |
Pârtachi et al. | Posit: Simultaneously tagging natural and programming languages | |
Agic et al. | Improving part-of-speech tagging accuracy for Croatian by morphological analysis | |
Dickinson et al. | Detecting dependency parse errors with minimal resources | |
JP2015060458A (ja) | 機械翻訳装置、方法、及びプログラム | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization | |
US8977538B2 (en) | Constructing and analyzing a word graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170501 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180306 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20180605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180806 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181227 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20190226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190515 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6532088 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |