JP2013025699A - 構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム - Google Patents

構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム Download PDF

Info

Publication number
JP2013025699A
JP2013025699A JP2011162317A JP2011162317A JP2013025699A JP 2013025699 A JP2013025699 A JP 2013025699A JP 2011162317 A JP2011162317 A JP 2011162317A JP 2011162317 A JP2011162317 A JP 2011162317A JP 2013025699 A JP2013025699 A JP 2013025699A
Authority
JP
Japan
Prior art keywords
information
syntax analysis
translation
grammatical
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011162317A
Other languages
English (en)
Inventor
Mitsugi Miura
貢 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011162317A priority Critical patent/JP2013025699A/ja
Priority to US13/553,756 priority patent/US8972239B2/en
Publication of JP2013025699A publication Critical patent/JP2013025699A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 文字認識処理および翻訳処理の高精度化を図りつつ、文字を認識する速度の向上を図る。
【解決手段】 構文解析情報作成装置は、情報作成部1を備える。情報作成部1は、文法制約条件を示す第1構文解析情報(例えば、翻訳用の構文解析情報)から、解析対象の単語候補に対応する文法情報を抽出し、当該抽出した文法情報に基づいて、前記単語候補に対応する文法制約条件を示す第2構文解析情報(例えば、文字認識用の構文解析情報)を作成する。
【選択図】 図1

Description

本発明は、構文解析で用いられる構文解析情報を作成する構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラムに関する。
翻訳装置の構成は様々に提案されている。その提案の一つが、特許文献1(特開昭62−40579号公報)に示されている。この特許文献1に示されている翻訳装置は、文字を画像として取り込む手段と、その取り込んだ画像から文字を認識するOCR(Optical Character Reader)手段と、その認識した文字を翻訳する手段とを有している。
特許文献2(特開2006−350663号公報)は、OCR処理により認識された文字に、構文解析を施し、これにより、OCR処理による文字の認識誤りを検出する構成を開示している。この特許文献2の構成は、OCR処理による文字認識の精度を高めることができる。
特開昭62−40579号公報 特開2006−350663号公報
特許文献1に示されているような文字認識処理と翻訳処理を両方共に行うことが可能な装置に対して、文字認識および翻訳の高精度化が望まれている。しかしながら、文字認識の精度を高めるために、例えば、特許文献2に示されるような構文解析を行うと、文字認識の速度が低減するという問題が生じる。
本発明は上記課題を解決するためになされたものである。すなわち、本発明の主な目的は、文字認識(文字読み取り)処理および翻訳処理の高精度化を図りつつ、文字を認識する(読み取る)速度の向上を図る構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラムを提供することにある。
本発明の構文解析情報作成装置は、
文法制約条件を示す第1構文解析情報から、解析対象の単語候補に対応する文法情報を抽出し、当該抽出した文法情報に基づいて、前記単語候補に対応する文法制約条件を示す第2構文解析情報を作成する情報作成部を備えている。
本発明の翻訳装置は、
前記第1構文解析情報と前記第2構文解析情報を作成する機能を備えた構文解析情報作成装置と、
前記構文解析情報作成装置が作成する第2構文解析情報に基づいた構文解析の結果を利用して画像データから文字を読み取る文字読み取り部と、
前記読み取られた文字に関わる翻訳処理を、前記構文解析情報作成装置が作成する第1構文解析情報に基づいた構文解析の結果を利用して行う翻訳部と、
を有する。
本発明の翻訳システムは、
上記本発明の翻訳装置と、
画像データを翻訳装置に向けて出力する画像データ出力装置と、
前記翻訳装置が翻訳した翻訳結果を出力する出力装置と
を有する。
本発明の構文解析情報作成方法は、
文法制約条件を示す第1構文解析情報から、解析対象の単語候補に対応する文法情報を抽出し、
当該抽出した文法情報に基づいて、前記単語候補に対応する文法制約条件を示す第2構文解析情報を作成する。
本発明のコンピュータプログラムは、
構文解析情報作成装置として動作させるコンピュータに、
文法制約条件を示す第1構文解析情報から、解析対象の単語候補に対応する文法情報を抽出する処理と、
当該抽出した文法情報に基づいて、前記単語候補に対応する文法制約条件を示す第2構文解析情報を作成する処理と、
を実行させる。
なお、本発明の主な目的は、本発明の構文解析情報作成装置に対応する構文解析情報作成方法によっても達成される。また、本発明の主な目的は、本発明の構文解析情報作成装置、本発明の構文解析情報作成方法をコンピュータによって実現するコンピュータプログラムによっても達成される。
本発明によれば、文字認識(文字読み取り)処理および翻訳処理の高精度化を図りつつ、文字を認識する(読み取る)速度の向上を図ることができる。
本発明に係る第1実施形態の構成を説明するブロック図である。 本発明に係る第2実施形態の構成を簡略的に示すブロック図である。 文字を読み取る手法の一つを説明する図である。 文字を読み取る別の手法を説明する図である。 構文解析表の一例を示す図である。 文法情報の一例をしめす図である。 文法情報の別の一例を示す図である。 第2実施形態における構文解析表作成部の動作例を示すフローチャートである。 本発明に係るその他の実施形態を簡略的に示すブロック図である。
以下に、本発明に係る実施形態を図面を参照して説明する。
(第1実施形態)
図1(a)は、本発明に係る第1実施形態の構文解析情報作成装置の構成を示すブロック図である。この第1実施形態の構文解析情報作成装置1は、情報作成部2を備えている。当該情報作成部2は、文法制約条件を示す第1構文解析情報から、解析対象の単語候補に対応する文法情報を抽出する機能を有している。さらに、情報作成部2は、その抽出した文法情報に基づいて、前記単語候補に対応する文法制約条件を示す第2構文解析情報を作成する機能を有している。例えば、構文解析情報作成装置1は、コンピュータプログラム(以下、略してプログラムとも記す)3に基づいて制御動作を行うコンピュータを有する。そのコンピュータプログラム3は、情報作成部2の上記したような機能を実現させるプログラムを含んでいる。
図1(b)は、構文解析情報作成装置1を備えた翻訳装置の構成例を示すブロック図である。この翻訳装置5は、構文解析情報作成装置1に加えて、文字読み取り部6と、翻訳部7とを有している。ここでは、構文解析情報作成装置1は、第1構文解析情報と第2構文解析情報の両方の情報を作成する機能を有している。
文字読み取り部6は、構文解析情報作成装置1が作成する第2構文解析情報に基づいた構文解析の結果を利用して画像データから文字を読み取る機能を有している。翻訳部7は、文字読み取り部6によって読み取られた文字に関わる翻訳処理を行う機能を有している。当該翻訳部7は、翻訳処理を行う際に、構文解析情報作成装置1が作成する第1構文解析情報に基づいた構文解析の結果を利用する。
この第1実施形態では、構文解析情報作成装置1は、前述したように、第1構文解析情報から、解析対象の単語候補に対応する文法情報を抽出し、当該抽出した文法情報に基づいて第2構文解析情報を作成する。つまり、第2構文解析情報は、第1構文解析情報の部分集合であり、第1構文解析情報よりも簡略化されたコンパクトな情報となっている。
翻訳装置5は、その第2構文解析情報に基づいた構文解析の結果を利用して画像データから文字を読み取る機能を備えている。この翻訳装置5は、文字を読み取る際に、構文解析を利用しているので、文字を誤って認識してしまう文字誤りの低減を図ることができる。なお、その構文解析に利用する第2構文解析情報は、前記の如く、翻訳処理で利用する第1構文解析情報よりもコンパクトな情報である。文字を読み取る際の構文解析には、翻訳を行う場合のような複雑な構文解析はなくてもよいことから、第1構文解析情報よりもコンパクトな第2構文解析情報を利用して構文解析を行っても、文字認識の精度が低下してしまうことを防止できる。
また、第2構文解析情報は、第1構文解析情報よりもコンパクトであることから、第2構文解析情報を利用した構文解析は、第1構文解析情報を利用した構文解析よりも処理速度を速くすることができる。
上記のようなことから、この第1実施形態の構成は、文字認識(文字読み取り)処理および翻訳処理の高精度化を図りつつ、文字を認識する(読み取る)速度の向上を図ることができる。
この第1実施形態の翻訳装置5は、図1(c)に示すような翻訳システム10を構築することができる。つまり、翻訳システム10は、翻訳装置5と、画像データ出力装置11と、出力装置12とを備えている。画像データ出力装置11は、画像データを翻訳装置5に向けて出力する画像データを出力する機能を備えている。出力装置12は、翻訳装置5が翻訳した翻訳結果を出力する機能を備えている。
この翻訳システム10は、翻訳装置5を備えているので、前述したような、文字認識(文字読み取り)処理および翻訳処理の高精度化を図りつつ、文字を認識する(読み取る)速度の向上を図ることができるという効果を得ることができる。
(第2実施形態)
以下に、本発明に係る第2実施形態を図面を参照して説明する。
図2は、第2実施形態の翻訳装置の構成を、画像データ出力装置および出力装置と共に示すブロック図である。この第2実施形態の翻訳装置20は、後述するように構文解析情報作成装置を内蔵している。また、当該翻訳装置20は、画像データ出力装置21および出力装置22に接続している。それら翻訳装置20と画像データ出力装置21と出力装置22は、翻訳システムを構成する。
その画像データ出力装置21は、画像データを出力する機能を備えた装置であり、例えば、パーソナルコンピュータ(パソコン)である。あるいは、当該画像データ出力装置21は、紙面に表されている文字や絵や写真等の画像の情報を読み取り、当該読み取った情報をデジタルデータとして出力するイメージスキャナ機能を備えている装置であってもよい。出力装置24は、翻訳装置20から出力される情報(データ)を処理する装置である。当該出力装置24の例を挙げると、例えばディスプレイや、プリンタや、通信装置や、音声合成装置などがある。
この第2実施形態の翻訳装置20は、制御装置24と、記憶装置25とを有している。
記憶装置25は、各種コンピュータプログラム(プログラム)やデータを記憶する記憶媒体26を有する。この記憶媒体26は、例えば、ハードディスク等の記憶媒体(一時的でない記憶媒体)である。この第2実施形態では、記憶媒体26は、プログラムを記憶する領域の他に、辞書部36として機能する記憶領域と、誤りデータ記憶部37として機能する記憶領域と、文法記憶部38として機能する記憶領域とを有している。なお、記憶装置25が有する記憶媒体は、単体とは限らず、複数である場合もある。
辞書部36は、単語情報を記憶する部分である。この第2実施形態では、辞書部36に記憶されている単語情報は、複数種の言語(例えば、日本語や英語など)に亘っている。当該単語情報の例を挙げると、例えば、単語そのものや、単語の品詞や活用形等の文法属性や、単語の意味等の意味属性などがある。辞書部36の単語情報は、後述する文字認識処理や翻訳処理で利用される。
誤りデータ記憶部37は、認識を誤り易い文字(以下、誤り文字とも記す)の情報を記憶する部分である。その誤り文字(認識を誤り易い文字)としては、例えば、o(オー)と0(ゼロ)や、l(エル)と|(縦棒)や、ol(オーとエル)とd(ディー)などがある。このような誤り文字の情報(以下、誤りデータとも記す)は、初期情報として、誤りデータ記憶部37に予め格納される。なお、この第2実施形態の翻訳装置20は、誤り文字の登録機能を備えていてもよい。つまり、例えばユーザが、キーボード等の情報入力装置(図示せず)を利用して、誤り文字の情報(誤りデータ)を翻訳装置20に入力した場合に、翻訳装置20は、その入力された誤り文字の情報(誤りデータ)を誤りデータ記憶部37に登録する(書き込む)。
文法記憶部38は、後述するような翻訳処理で利用する文法情報を記憶する部分である。この第2実施形態では、文脈自由文法(CFG(context free grammar))を用いるGLR(Generalized LR(Left-Rightmost derivation))文法に基づいた文法情報が文法記憶部38に格納されている。具体的には、文法記憶部38は、図6に示されるような文脈自由文法(CFG)に基づいた文字の置換情報や、図7(a)、(b)に示されるような品詞間の接続制約の情報を、文法情報として、記憶している。なお、図6や図7(a)、(b)に示される文法情報は、一例であって、文法記憶部38に格納される文法情報は、図示の例に限定されない。ここでは、図6や図7(a)、(b)の詳細な説明は省略する。また、文法記憶部38が記憶する文法情報は、GLR文法に基づいた文法情報に限定されるものではなく、文字認識処理や翻訳処理で利用する文法(例えば結合価文法、生成文法)に応じた、GLR文法以外の文法に基づいた文法情報であってもよい。
制御装置24は、CPU(Central Processing Unit)を有している。制御装置24は、記憶装置25からプログラムを読み込み当該プログラムを実行することによって、翻訳装置20の全体的な動作を制御する。すなわち、この第2実施形態では、制御装置24は、プログラムを実行することにより、機能ブロックとして、構文解析部30と、文字読み取り部31と、翻訳部32と、構文解析表作成部33と、文法抽出部34とを有する。
文字読み取り部31は、いわゆるOCR(Optical Character Recognition)の機能を備えている。つまり、文字読み取り部31は、画像データ出力装置21から出力された画像データ(デジタルデータ)から文字を認識(抽出)する機能を有している。具体例を述べると、文字読み取り部31は、受け取った画像データと、予め与えられている文字形態情報に基づき、点のつながりによって文字の形態を確定する。そして、文字読み取り部31は、その確定した文字の形態を、該当する文字情報に関連付ける(文字を認識する)。
例えば、文字読み取り部31が、図3に示すA部分のように文字の形態を確定したとする。この場合には、文字の形態「o」「o」「k」に該当する文字候補はそれぞれ1つずつであることから、文字読み取り部31は、「ook」に関しては、面倒な処理無く、文字を認識することができる。これに対して、「|」については、誤りデータ記憶部37の情報に基づくと、「l(エル)」や「I(アイ)」や「|(縦棒)」や「1(数字のいち)」等というように複数の文字候補がある。このため、文字読み取り部31は、それら文字候補の中から1つを適宜に選択しなければならない。その選択のために、文字読み取り部31は、辞書引き法や、構文解析法を利用する。例えば、辞書引き法を採用する場合には、文字読み取り部31は、一つの単語と認識した「|ook」中の「|」を「l(エル)」と仮定し、単語「l(エル)ook」が辞書部36に登録されているか否かを判断する。同様に、文字読み取り部31は、単語「|ook」中の「|」を「I(アイ)」と仮定し、単語「I(アイ)ook」が辞書部36に登録されているか否かを判断する。このように、文字読み取り部31は、文字候補を含む単語が辞書部36に登録されているか否かを判断する。そして、文字読み取り部31は、その判断の結果(「l(エル)ook」は辞書部36に登録有り、「I(アイ)ook」は辞書部36に登録無し)に基づいて、「|」は「l(エル)」であると認識する。
別の例を挙げると、例えば、文字読み取り部31が、図4に示すB部分のように文字の形態を確定したとする。この場合における「|」に関しては、一文字で一つの単語であるため、上記のような辞書引き法では、「|」が、「l(エル)」であるのか、「I(アイ)」であるのかを確定できない。このため、文字読み取り部31は、上記のように確定した文字の形態の情報を構文解析部30に出力する。そして、構文解析部30による構文解析の結果に基づいて、文字読み取り部31は、「|」は「I(アイ)」であると認識する。
文字読み取り部31は、上記のように認識した単語や文章の情報を翻訳部32に出力する機能を備えている。
構文解析部30は、文字読み取り部31から受け取った文字形態について構文解析を行う機能を備えている。この第2実施形態では、構文解析部30が行う構文解析は、拡張LR法(GLR法)に基づいて行う。すなわち、構文解析部30は、後述する構文解析表作成部33から提供された図5に示すような構文解析表(接続表(LR(Left-Rightmost derivation)表))を利用して、構文解析を行う。なお、図5に示す構文解析表は、一例であって、構文解析部30が利用する構文解析表は、図5の構文解析表に限定されるものではない。また、ここでは、図5の説明およびGLR法による構文解析の説明は省略する。
構文解析表作成部33は、構文解析部30が利用する構文解析表を作成する機能を有している。すなわち、この第2実施形態では、構文解析表作成部33は、構文解析部30から解析対象の文字形態の情報を受け取り、当該情報と、文法記憶部38に記憶されている文法情報とを利用し、GLR法に基づいて構文解析表(第1構文解析情報)を作成する。換言すれば、構文解析表作成部33は、文法記憶部38の文法情報を利用して、翻訳処理に利用する翻訳用の構文解析表を作成する。
一方、構文解析表作成部33は、誤りデータ記憶部37に記憶されている誤りデータを参照し、上記解析対象の文字形態の情報の中に、誤り文字に対応する文字形態があるか否かを判断する。そして、誤り文字に対応する文字形態がある場合には、構文解析表作成部33は、その誤り文字を考慮して、解析対象の文字形態から複数の単語候補を作成する。さらに、構文解析表作成部33は、それら各単語候補を、それぞれ、辞書部36に登録されている単語に照合し、単語候補に合致する単語がある場合には、その単語を抽出する。さらにまた、構文解析表作成部33は、その抽出した単語の品詞情報をも辞書部36から抽出する。そして、構文解析表作成部33は、その抽出した単語の品詞情報を、後述する文法抽出部34に出力する。さらに、構文解析表作成部33は、上記のように作成した翻訳用の構文解析表から、文法抽出部34から受け取った文法情報に対応する情報を抽出して、翻訳用の構文解析表よりもコンパクトな構文解析表(第2構文解析情報)を作成(生成)する。換言すれば、構文解析表作成部33は、翻訳用の構文解析表の部分集合である文字認識用の構文解析表を作成する。
そして、構文解析表作成部33は、その文字認識用の構文解析表を検証し、この検証の結果、文法に関し誤りの無い情報を持つ適切な構文解析表を構文解析部30に出力する。構文解析部30は、前記の如く、その構文解析表に基づいて、構文解析を行う。
文法抽出部34は、構文解析表作成部33から提供された品詞情報に対応する文法の情報を文法記憶部38から抽出し、当該抽出した文法情報を構文解析表作成部33に出力する機能を備えている。
この第2実施形態では、構文解析表作成部33と文法抽出部34により、翻訳用と文字認識用の構文解析表(第1と第2の構文解析情報)を作成する情報作成部27が構成されている。また、当該情報作成部27は、構文解析情報作成装置28を構成している。
翻訳部32は、文字読み取り部31で認識された文字に基づいて、辞書引き手法や構文解析等により単語や文章を認識する機能を備えている。この第2実施形態では、翻訳部32は、構文解析表作成部33が作成した翻訳用の構文解析表を利用して、構文解析を行う。さらに、翻訳部32は、その認識された単語や文章を、辞書部36に登録されている情報を利用して、翻訳対象の言語(ターゲット言語)に変換(翻訳)する機能を備えている。
以下に、翻訳装置20における構文解析表の作成動作の一例を図8を参照して説明する。つまり、図8は、この第2実施形態の翻訳装置20において構文解析表を作成する動作の一例を示すフローチャートである。このフローチャートは、翻訳装置20において制御装置24が実行するコンピュータプログラムの処理手順を表す。
例えば、まず、制御装置24の構文解析表作成部33は、構文解析部30から解析対象の文字形態の情報を受け取ると(ステップS101)、当該情報と、文法記憶部38の文法情報とを利用して、翻訳用の構文解析表を作成する(ステップS102)。次に、構文解析表作成部33は、誤りデータ記憶部37の誤りデータに基づいて、解析対象の文字形態の中に、誤り文字に対応する文字形態が有るか否かを判断する(ステップS103)。誤り文字に対応する文字形態が有ると判断した場合(例えば、I(アイ)ともl(エル)とも読める文字形態がある場合)には、構文解析表作成部33は、その誤り文字を考慮して、解析対象の文字形態に対応する単語候補を作成する。例えば、構文解析表作成部33は、「I(アイ)ook」や、「l(エル)ook」というような単語候補を作成する(ステップS104)。そして、構文解析表作成部33は、その作成した単語候補について、辞書部36に登録されているか否かを判断する(ステップS105)。単語が登録されている場合には、構文解析表作成部33は、その登録されている単語に対応する品詞情報を辞書部36から読み出して、文法抽出部34に出力する。これにより、文法抽出部34は、その受け取った品詞情報に応じた文法情報を文法記憶部38から抽出する(ステップS106)。
その後、構文解析表作成部33は、誤り文字を考慮して、別の単語候補が有るか否かを判断する(ステップS107)。さらに別の単語候補が有る場合には、構文解析表作成部33と文法抽出部34は、ステップS104以降の動作を繰り返す。そして、構文解析表作成部33は、ステップS107の判断動作の結果、単語候補が無いと判断した場合には、上記の如く文法記憶部38から抽出した文法情報を利用して、解析対象の文字形態に基づいた文字認識用の構文解析表を作成する。すなわち、構文解析表作成部33は、上記のように抽出した文法情報に基づいて、予め定められている制約事項(例えば品詞間接続制約)に違反しない構文解析表を作成する(ステップS108)。
この第2実施形態における翻訳装置20は、前記したように、構文解析表作成部33と文法抽出部34により構成される情報作成部27を備えた構文解析表作成装置28を有している。これにより、翻訳装置20は、次のような効果を有することができる。すなわち、この第2実施形態では、構文解析表作成部33は、翻訳用の構文解析表と、文字認識用の構文解析表との複数の構文解析表を作成する。翻訳装置20は、翻訳処理を行う場合には、複雑な文章を解析しなければならない場合もある。これに対して、翻訳装置20は、解析対象の文字形態から文字を読み取る文字認識処理を行う場合には、複雑な文章を解析する必要は無い。つまり、文字読み取り機能のために利用する構文解析表は、翻訳のために利用する構文解析表よりも簡単でよい。このことを考慮して、この第2実施形態では、構文解析表作成装置(構文解析表作成部33)は、翻訳用の構文解析表と、当該構文解析表の部分集合である文字認識用の構文解析表とを作成している。換言すれば、この第2実施形態の構文解析表作成装置28は、機械翻訳機能に特化した構文解析表と、文字認識機能に特化した構文解析表とを別々に作成する。
翻訳装置20は、翻訳処理を行う場合には、翻訳に特化した構文解析表を利用して、翻訳を行うことになるので、その構文解析表に基づいて、翻訳の精度を向上させることができる。また、翻訳装置20は、文字読み取りを行う場合には、翻訳用の構文解析表よりも簡単であって、かつ、文字認識処理に特化した構文解析表を利用して、文字読み取り(文字認識)を行う。このため、翻訳装置20は、文字読み取りに要する処理時間の短縮を図ることができる。また、翻訳装置20は、文字読み取りを行う際に利用する構文解析表の簡略化によって構文解析が簡易になることから、構文解析の複雑化に起因した文字読み取り精度の悪化が防止され、これにより、文字読み取りの精度を向上させることができる。
すなわち、この第2実施形態の構文解析情報作成装置28およびそれを備えた翻訳装置20は、翻訳の精度を低下させることなく、文字読み取りの精度を向上させることができる。また、当該構文解析情報作成装置28およびそれを備えた翻訳装置20は、文字読み取りに要する処理時間の短縮を図ることができる。
(その他の実施形態)
なお、この発明は第1や第2の実施形態に限定されることはなく、様々な実施の形態を採り得る。例えば、第2実施形態では、翻訳装置20が出力装置22に出力する情報は、翻訳部32により翻訳された翻訳後(ターゲット言語)の単語や文章等である。これに加えて、翻訳装置20が出力装置22に出力する情報は、さらに、文字読み取り部31により認識された翻訳前の単語や文章の情報をも含んでいてもよい。
さらに、第2実施形態における構文解析情報作成装置および翻訳装置は、制御装置24がコンピュータプログラム(ソフトウェア)に基づいて動作することにより実現する。これに代えて、本発明に係る構文解析情報作成装置および翻訳装置を構成する一部又は全部の機能は、ハードウェアにより実現してもよい。
さらに、第2実施形態における翻訳装置は、例えば、図9に示されるように、サーバ装置40に組み込まれ、ユーザ側に設置されている画像データ出力装置21や出力装置22と、インターネット等の情報通信網41によって接続して翻訳システムを構築してもよい。
さらに、第2実施形態における構文解析手法は、GLR法である。これに代えて、前述したように、構文解析手法は、GLR法以外の手法であってもよい。さらに、第2実施形態では、構文解析情報は、表(デーブル)データの形態であるが、構文解析情報は、表以外のデータ形態であってもよい。
1,28 構文解析情報作成装置
2,27 情報作成部
5,20 翻訳装置
6,31 文字読み取り部
7,32 翻訳部
10 翻訳システム
11,21 画像データ出力装置
12,22 出力装置

Claims (9)

  1. 文法制約条件を示す第1構文解析情報から、解析対象の単語候補に対応する文法情報を抽出し、当該抽出した文法情報に基づいて、前記単語候補に対応する文法制約条件を示す第2構文解析情報を作成する情報作成部を備えている構文解析情報作成装置。
  2. 前記情報作成部は、前記単語候補の品詞情報に基づいて、前記第1構文解析情報から前記単語候補に対応する文法情報を抽出する請求項1記載の構文解析情報作成装置。
  3. 前記第1構文解析情報および前記第2構文解析情報は、GLR(Generalized LR(Left-Rightmost derivation))法に基づいた構文解析アルゴリズムで利用される構文解析情報である請求項1又は請求項2記載の構文解析情報作成装置。
  4. 前記情報作成部は、翻訳処理に対応する文法情報に基づいて前記第1構文解析情報を作成する機能をも備えている請求項1又は請求項2又は請求項3記載の構文解析情報作成装置。
  5. 請求項4記載の構文解析情報作成装置と、
    前記構文解析情報作成装置が作成する第2構文解析情報に基づいた構文解析の結果を利用して画像データから文字を読み取る文字読み取り部と、
    前記読み取られた文字に関わる翻訳処理を、前記構文解析情報作成装置が作成する第1構文解析情報に基づいた構文解析の結果を利用して行う翻訳部と、
    を有する翻訳装置。
  6. 請求項5記載の翻訳装置と、
    画像データを翻訳装置に向けて出力する画像データ出力装置と、
    前記翻訳装置が翻訳した翻訳結果を出力する出力装置と
    を有する翻訳システム。
  7. 前記翻訳装置は、情報通信網を介して、前記画像データ出力装置および前記出力装置に接続している請求項6記載の翻訳システム。
  8. 文法制約条件を示す第1構文解析情報から、解析対象の単語候補に対応する文法情報を抽出し、
    当該抽出した文法情報に基づいて、前記単語候補に対応する文法制約条件を示す第2構文解析情報を作成する構文解析情報作成方法。
  9. 構文解析情報作成装置として動作させるコンピュータに、
    文法制約条件を示す第1構文解析情報から、解析対象の単語候補に対応する文法情報を抽出する処理と、
    当該抽出した文法情報に基づいて、前記単語候補に対応する文法制約条件を示す第2構文解析情報を作成する処理と、
    を実行させるコンピュータプログラム。
JP2011162317A 2011-07-25 2011-07-25 構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム Pending JP2013025699A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011162317A JP2013025699A (ja) 2011-07-25 2011-07-25 構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム
US13/553,756 US8972239B2 (en) 2011-07-25 2012-07-19 Syntax analysis information generation apparatus, translation apparatus, translation system, syntax analysis information generating method and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011162317A JP2013025699A (ja) 2011-07-25 2011-07-25 構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2013025699A true JP2013025699A (ja) 2013-02-04

Family

ID=47597957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011162317A Pending JP2013025699A (ja) 2011-07-25 2011-07-25 構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム

Country Status (2)

Country Link
US (1) US8972239B2 (ja)
JP (1) JP2013025699A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203265A (ja) * 1986-03-04 1987-09-07 Toshiba Corp 機械翻訳システム
JPS63221475A (ja) * 1987-03-11 1988-09-14 Matsushita Electric Ind Co Ltd 構文解析方法
JP2006350663A (ja) * 2005-06-15 2006-12-28 Fuji Xerox Co Ltd 文書読取システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6240579A (ja) 1985-08-16 1987-02-21 Omron Tateisi Electronics Co 翻訳装置
US7219339B1 (en) * 2002-10-29 2007-05-15 Cisco Technology, Inc. Method and apparatus for parsing and generating configuration commands for network devices using a grammar-based framework
US8712759B2 (en) * 2009-11-13 2014-04-29 Clausal Computing Oy Specializing disambiguation of a natural language expression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203265A (ja) * 1986-03-04 1987-09-07 Toshiba Corp 機械翻訳システム
JPS63221475A (ja) * 1987-03-11 1988-09-14 Matsushita Electric Ind Co Ltd 構文解析方法
JP2006350663A (ja) * 2005-06-15 2006-12-28 Fuji Xerox Co Ltd 文書読取システム

Also Published As

Publication number Publication date
US20130030791A1 (en) 2013-01-31
US8972239B2 (en) 2015-03-03

Similar Documents

Publication Publication Date Title
US11734514B1 (en) Automated translation of subject matter specific documents
US6862566B2 (en) Method and apparatus for converting an expression using key words
US20120072204A1 (en) Systems and methods for normalizing input media
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP2005092849A (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置及び方法並びにそのコンピュータ読み取り可能な記録媒体
KR101664258B1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
JPH11272672A (ja) 機械翻訳装置及び記録媒体
US20200302124A1 (en) Translation device, translation method, and program
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
CN111326144A (zh) 语音数据处理方法、装置、介质和计算设备
KR100617318B1 (ko) 2단계 구문분석을 통한 자동 번역 장치 및 방법
KR101356417B1 (ko) 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
JP2013025699A (ja) 構文解析情報作成装置、翻訳装置、翻訳システム、構文解析情報作成方法およびコンピュータプログラム
JP2010061403A (ja) 文字列認識装置及び方法、並びにプログラム
Makhija et al. hinglishNorm--A Corpus of Hindi-English Code Mixed Sentences for Text Normalization
JP5185343B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
JP2000242642A (ja) 翻訳処理方法及び翻訳処理装置
JP4206253B2 (ja) 自動音声応答装置及び自動音声応答方法
JP2002132765A (ja) 翻訳システム
JP2994539B2 (ja) 機械翻訳装置
JP5749219B2 (ja) 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150202

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150525

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150601

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20150731