JP2011175306A - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP2011175306A
JP2011175306A JP2008125354A JP2008125354A JP2011175306A JP 2011175306 A JP2011175306 A JP 2011175306A JP 2008125354 A JP2008125354 A JP 2008125354A JP 2008125354 A JP2008125354 A JP 2008125354A JP 2011175306 A JP2011175306 A JP 2011175306A
Authority
JP
Japan
Prior art keywords
chinese
japanese
kanji
paraphrase
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008125354A
Other languages
English (en)
Inventor
Kaneyasu Jo
金安 徐
Seiya Osada
誠也 長田
Kiyoshi Yamahata
潔 山端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008125354A priority Critical patent/JP2011175306A/ja
Priority to PCT/JP2009/057169 priority patent/WO2009139240A1/ja
Publication of JP2011175306A publication Critical patent/JP2011175306A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】変換対象となっている語が日中変換辞書に登録されていない日本語の未知語である場合に、当該未知語の中国語への変換精度の向上を図る。
【解決手段】情報処理装置は、入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、を備える。
【選択図】図13

Description

本発明は、情報処理装置にかかり、特に、日本語の文字情報を中国語に変換する情報処理装置に関する。
第一の言語(例えば、日本語)を、第二の言語(例えば、中国語)に変換する処理を自動的に行う機械翻訳システムや言語横断型情報検索システムが開発されている。このようなシステムは、一般的に、第一言語と第二言語の対訳辞書を備えており、この対訳辞書を用いて、第一言語の文字情報を第二言語に変換している。
そして、特許文献1では、対訳辞書を用いて翻訳候補となる第二言語が複数検索された場合に、適切な翻訳を行うためのシステムを開示している。具体的に、特許文献1に開示のシステムは、まず、変換対象である日本語単語と、当該日本語単語と異なる表記で同じ意味を表す日本語単語である言い換え単語と、を対応付けて登録した言い換え辞書を備えている。そして、日中対訳辞書を用いて、入力された日本語単語に対応付けられた中国語単語が複数検索された場合に、上記言い換え辞書を利用して入力された日本語単語の言い換え単語を検索し、この言い換え単語と複数の中国語単語のうち、類似度が高いものを訳語として選択している。
しかしながら、上記特許文献1の技術では、まず、日本語単語に対応付けられた中国語単語を検索しているため、この時点で対応する中国語が検索できないような未知語に対しては、適切な意味の中国語を検索することができない。従って、翻訳精度が低い、という問題があった。
一方で、二言語間の対訳辞書に登録されていない未知語を高精度に翻訳するためのシステムが、特許文献2,3に開示されている。
特許文献2に開示されている表音文字列翻訳装置は、第1自然言語第2自然言語間訳語検索部と、第1自然言語第2自然言語間表音文字列変換部と、第2自然言語表記列生成部と、第1自然言語第2自然言語間電子辞書と、カタカナピンイン変換表と、ピンイン漢字変換表と、を備えている。そして、この表音文字列翻訳装置では、日中両言語間のカタカナピンイン変換表とピンイン漢字変換表とを予め用意し、システムに与えることによって、日本語の表音文字列を中国語の漢字に変換している。
また、特許文献3では、未知語に対して、漢字とひらがな文字列に分割する機械翻訳方法を提案している。具体的に、特許文献3のシステムは、入力装置と、入力処理部と、形態素解析部と、変換部と、未登録語判定部と、未登録語訳語生成部と、出力処理部と、出力装置と、を備えている。そして、このシステムにおける未知語処理方法は、未登録語訳生成部で日本語単語が未登録語であると判断された場合に、当該未登録語を一または複数のひらがな文字の連続であるひらがな文字列と、一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された非ひらがな文字列のみに対して訳語を生成している。
特開2006−309346号公報 特許第3407201号公報 特許第4018668号公報
しかしながら、上記特許文献2に開示の技術では、二言語間の表音文字列の対応関係が単一ではないため、未知語に対して処理を行った場合には、当該未知語を高精度に翻訳することができない、という問題が生じる。これは、表音未知語のカタカナが検出された場合に、カタカナピンイン変換表を用いてカタカナを中国語ピンインに変換する仕組みとなっているが、日本語カタカナと中国語ピンインとの対応関係が単一ではなく、一つの日本語音節単位のカタカナに対応できる中国語ピンイン候補が複数ある場合があることによる。例えば、日本語カタカナ「サ」に対応できる中国語ピンイン候補は、少なくとも「sa」、「sha」、「xia」の三つある。さらには、一つの中国語ピンインに対して、漢字候補が多数存在するため、さらに上記問題が生じうる。例えば、上述した例である「sa」、「sha」、「xia」の場合は、それぞれのピンインの中国語漢字候補が10〜20個前後がある。このため、上記特許文献2の技術では、依然として正確に翻訳することが困難となっている。
また、上記特許文献3の技術では、日本語のひらがなを含む未知語に対する処理は、その未知語に含む漢字の部分だけその未知語の中国語の訳語とするため、意味的な欠落が多数存在する、という問題が生じる。すると、日本語のひらがなを含む未知語を処理した結果、多くの場合は、その未知語の意味を正しく翻訳できない。一例として、日本語動詞「考える」が未知語の場合には、特許文献3のシステムでは、「考」が出力される。そして、「考」の中国語の意味は日本語では「試験」または「テスト」となり、誤訳となってしまう。つまり、正しい訳語である「思考」や「考慮」を得ることができず、翻訳精度の向上を図ることができない。
このため、本発明の目的は、上述した課題である、変換対象となっている日本語が対訳辞書に登録されていない未知語である場合に、当該未知語の中国語への変換精度の向上を図る、ことにある。
かかる目的を達成するため本発明の一形態である情報処理装置は、
入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
を備えたことを特徴とする。
また、本発明の他の形態である情報処理装置は、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
上記中国語変換手段による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成手段と、
を備えたことを特徴とする。
また、本発明の他の形態である情報処理装置は、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
上記解析手段にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換手段による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
を備えたことを特徴とする。
また、本発明の他の形態である情報処理装置は、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を備え、
上記検索手段は、上記未知語検出手段にて検出した日本語である上記未知語と、上記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、
ことを特徴とする。
また、本発明の他の形態であるプログラムは、
コンピュータに、
入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
を実現させるためのプログラムである。
また、本発明の他の形態であるプログラムは、
コンピュータに、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
上記中国語変換手段による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成手段と、
を実現させるためのプログラムである。
また、本発明の他の形態であるプログラムは、
コンピュータに、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
上記解析手段にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換手段による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
を実現させるためのプログラムである。
また、本発明の他の形態であるプログラムは、
コンピュータに、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を実現させるプログラムであり、
上記検索手段は、上記未知語検出手段にて検出した日本語である上記未知語と、上記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、
ことを特徴とする。
また、本発明の他の形態である情報処理方法は、
入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、
を有することを特徴とする。
また、本発明の他の形態である情報処理方法は、
入力された日本語の文字情報の構造を解析する解析工程と、
上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、
上記中国語変換工程による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成工程と、
を有することを特徴とする。
また、本発明の他の形態である情報処理方法は、
入力された日本語の文字情報の構造を解析する解析工程と、
上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、
上記解析工程にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換工程による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳工程と、
を有することを特徴とする。
また、本発明の他の形態である情報処理方法は、
入力された日本語の文字情報の構造を解析する解析工程と、
上記解析工程にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、
日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索工程と、を有し、
上記検索工程は、上記未知語検出工程にて検出した日本語である上記未知語と、上記中国語変換工程にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、
ことを特徴とする。
本発明は、以上のように構成されるため、これによると、対訳辞書に登録されていない日本語の未知語であっても、高精度に中国語に変換することができる、という優れた効果を有する。
本発明の一形態である情報処理装置は、
入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
を備えたことを特徴とする。
そして、上記情報処理装置では、
上記言い換え手段は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、
ことを特徴とする。
さらに、上記情報処理装置では、
上記未知語検出手段は、上記入力された日本語の文字情報のうち、仮名文字を含む語を上記未知語として検出する、
ことを特徴とする。
上記発明によると、情報処理装置が日本語の文字情報の入力を受け付けると、まず、この文字情報内で、日本語と中国語との対訳辞書に登録されていない未知語を検出する。続いて、検出した日本語の未知語を、同じく日本語における漢字を含む他の言い換え語に言い換える。例えば、仮名文字を含む未知語を、類似語情報に登録されている日本語漢字を含む類似語に、他の言い換え語として言い換える。そして、未知語の言い換え語に含まれる日本語漢字を対応する中国語漢字に変換して、未知語を中国語に変換する。
このように、日本語の未知語を同じく日本語の他の言い換え語に言い換えた後に、この言い換え語に含まれる日本語漢字を中国語漢字に変換するため、対訳辞書に登録されていない未知語であっても、中国語への変換精度が高まる。特に、仮名文字を含む未知語を、漢字を含む日本語の類似語に言い換えた後に中国語に変換することで、日本語と中国語とが相互に漢字を含む言語であるという特性を利用して、さらに変換精度の向上を図ることができる。
また、上記情報処理装置では、
上記言い換え手段は、上記未知語を言い換えた上記言い換え語のうち、当該言い換え語に含まれる漢字の数に応じて、上記中国語変換手段にて変換する上記言い換え語を選択する、
ことを特徴とする。
また、上記情報処理装置では、
上記言い換え手段は、上記未知語を言い換えた上記言い換え語のうち、全てが漢字にて構成されているものを、上記中国語変換手段にて変換する上記言い換え語とする、
ことを特徴とする。
これにより、漢字を多く含む言い換え語、望ましくは全てが漢字にて構成されている言い換え語を中国語に変換するため、より多くの対応する中国語漢字に変換することができ、適切な変換を行うことができる。
また、上記情報処理装置では、
上記言い換え手段は、上記類似語情報の類似語間における優先度情報に基づいて、上記中国語変換手段にて変換する上記言い換え語を選択する、
ことを特徴とする。
また、上記情報処理装置では、
上記言い換え手段は、上記未知語を上記類似語に言い換えた上記言い換え語のうち、上記類似語情報の類似語間における上位/下位概念情報に基づく上記未知語に対する上記言い換え語の上記上位/下位概念の距離に応じて、上記第二言語変換手段にて変換する上記言い換え語を選択する、
ことを特徴とする。
これにより、未知語を言い換えた類似語の中から、類似語間の優先度や、上位/下位概念に応じて言い換え語を選択することで、例えば、より使用頻度の高い語や一般的な語を言い換え語として選択して中国語に変換でき、より適切な中国語を得ることができる。
また、上記情報処理装置では、
上記言い換え手段は、上記未知語の上記類似語に日本語漢字を含む語が存在しない場合に、上記未知語の上記類似語のうち上記日本語と中国語との対訳辞書に登録されている語を上記言い換え語として言い換え、
上記中国語変換手段は、上記言い換え語を日本語と中国語との対訳辞書に基づいて中国語に変換する、
ことを特徴とする。
これにより、仮に未知語の類似語で日本語漢字を含む語が存在しない場合であっても、未知語は、類似語のうち中国語に翻訳可能な語に言い換えられるため、対訳辞書に基づいて中国語に翻訳することが可能となる。
また、本発明の他の形態である情報処理装置は、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
上記中国語変換手段による変換結果を、上記未知語の対訳として記憶する未知語変換辞書生成手段と、
を備えたことを特徴とする。
これによると、上述した情報処理装置は、日本語の未知語と中国語との対訳辞書を生成する辞書作成支援装置として機能する。
また、本発明の他の形態である情報処理装置は、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
上記解析手段にて解析された文字情報のうち上記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、上記中国語変換手段による変換結果と、に基づいて、上記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
を備えたことを特徴とする。
これによると、上述した情報処理装置は、未知語を含む日本語であっても中国語に翻訳可能な翻訳装置として機能する。
また、本発明の他の形態である情報処理装置は、
入力された日本語の文字情報の構造を解析する解析手段と、
上記解析手段にて解析された上記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を備え、
上記検索手段は、上記未知語検出手段にて検出した日本語である上記未知語と、上記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、上記データベース内の検索を行う、
ことを特徴とする。
これによると、上述した情報処理装置は、日本語の未知語と、これの中国語の対訳と、をキーワードとして、両言語で情報検索を行う言語横断型情報検索装置として機能する。
また、本発明の他の形態であるプログラムは、
コンピュータに、
入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換手段と、
を実現させるためのプログラムである。
そして、プログラムでは、
上記言い換え手段は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、
ことを特徴とする。
また、本発明の他の形態である情報処理方法は、
入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
上記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
上記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、上記言い換え語を中国語に変換する中国語変換工程と、
を有することを特徴とする。
そして、上記情報処理方法では、
上記言い換え工程は、日本語における類似語情報に基づいて、上記未知語の類似語を当該未知語の上記言い換え語として言い換える、
ことを特徴とする。
上述した構成を有する、プログラム、又は、情報処理方法、の発明であっても、上記情報処理装置と同様の作用を有するために、上述した本発明の目的を達成することができる。
以下、本発明に係る、情報処理装置、プログラム、及び、情報処理方法、の各実施形態について、図1乃至図14を参照しながら説明する。なお、以下の実施形態では、情報処理装置の一例として、日本語を中国語に変換する変換装置や辞書作成支援装置、翻訳装置、言語横断型情報検索装置を挙げて説明するが、本発明はかかる利用に限定されない。
<実施形態1>
本発明の第1の実施形態を、図1乃至図5を参照して説明する。図1は、情報処理システムの構成を示す機能ブロック図である。図2乃至図4は、変換に使用するデータの一例を示す図である。図5は、変換装置の動作を示すフローチャートである。
[構成]
図1は、本実施形態における日本語を中国語に変換する情報処理システムの構成を示す図である。この図に示すように、情報処理システムは、変換装置1(情報処理装置)とデータベース2(記憶装置)とによって構成されている。但し、情報処理システムの構成は、図1に示すものに限定されない。例えば、データベース2がそれぞれネットワーク上の他のコンピュータに構成されており、当該ネットワーク上のコンピュータから変換装置1に種々のデータが提供されてもよい。また、図1に示す情報処理システムが1台のコンピュータにて構成されていてもよく、あるいは、変換装置1が複数台のコンピュータにて構成されていてもよい。以下、各構成について詳述する。
まず、データベース2は、日中翻訳辞書21と、日本語辞書22と、日中漢字対応データベース23と、を備えている。そして、上記日中翻訳辞書21は、日本語と中国語の対訳辞書情報であり、各日本語の単語や語句といった各形態素に対応する中国語が記憶されている。
また、日本語辞書22は、種々の日本語語句の類似語情報を記憶した、日本語類似語辞書や日本語単語辞書である。例えば、以下のようなデータを使用することができる。
・日本科学技術情報センター[JOIS]の「JSTシソーラス」
http://jois.jst.go.jp/JOIS/html/thesaurus_index.htm
・日本語大シソーラス類語検索大辞典CDーROM版,山口翼著,大修館書店,2006年01月
ここで、日本語辞書22の一例を、図2及び図3に示す。図2は、「ソフトドリンク」という語句の類似語の概念の階層を示す説明図である。図3は、「ソフトドリンク」の類似語が記述されている例(JOISのJSTシソーラス)を示す説明図である。この図3では、JSTシソーラスに記録された「ソフトドリンク」と、その同義語である「清涼飲料」の辞書情報を示している。また、図3に示す記号列の「USE」は国際ISO基準では「優先語」と意味し、「UF」は「非優先語」と意味する。従って、図3の例では、「ソフトドリンク」という言い方より、「清涼飲料」のほうが優先語であることを意味する。なお、この日本語辞書22の具体的な利用方法については後述する。
また、上記日中漢字対応データベース23は、日本語漢字に対応する中国語漢字、つまり、各日本語にそれぞれ対応する中国語簡体字や繁体字を登録したデータベース(対応漢字情報)である。この日中漢字対応データベース23の一例を、図4に示す。この図に示すように、日本語漢字と、日本語漢字に対応する中国語の簡体字と繁体字とが、関連付けられて登録されている。また、日中漢字対応データベース23は、人々が使う頻度の高い漢字と、使う頻度の低い漢字とを分けて構築されており、頻度の高低を表す情報が、各漢字に関連付けられて記憶されている。これにより、後述する日中漢字変換部16によって、検出された未知語の言い換え語候補の中から、使用頻度が高く分かりやすい中国語漢字が選択される。
次に、変換装置1の構成について詳述する。変換装置1は、演算装置と記憶装置とを備えた一般的なコンピュータである。そして、変換装置1は、図1に示すように、演算装置に本発明である変換処理用プログラムが組み込まれることで構築された、日本語入力受付部11と、日本語文章解析部12と、未知語検出部13と、未知語言い換え部14と、最適候補推定部15と、日中漢字変換部16と、を備えている。
上記日本語入力受付部11は、図示しないキーボードやファイル等を通じて変換装置1に入力された日本語文章情報を受け付け、日本語文章解析部12に渡す。なお、入力される日本語は、必ずしも文章であることに限定されず、日本語の文字情報であればよい。
また、上記日本語文章解析部12(解析手段)は、入力された日本語文章の構造を解析する。具体的には、予めシステムに与えられた文法ルールや単語リストなどの辞書情報などを用いて、形態素解析または単語分割、構文解析などの処理を行い、日本語を形態素や単語に分割する。そして、未知語検出部13に渡す。なお、日本語文章の解析処理方法は、いかなる方法を用いてもよい。
また、未知語検出部13(未知語検出手段)は、上述したように解析された形態素や単語のうち、日中翻訳辞書21に登録されていない未知語を検出する。このとき、特に、解析により分割された単語のうち、ひらがなやカタカナといった仮名文字を含む単語を、未知語として検出する。なお、未知語検出部13は、コンピュータ上で日本語テキストを表現するのに用いられている文字コードの種別(例えば、EUC、Unicode、JIS、SJIS等)と、英数字、ひらがな、カタカナ、漢字等のコードとに基づいて、単語が仮名を含むかどうかの判定を行う。そして、未知語検出部13は、検出した未知語を、未知語言い換え部14に渡す。なお、未知語検出部13による未知語の検出は、必ずしも仮名文字を含む単語を未知語として検出することに限定されない。仮名文字を含まない単語を未知語として検出してもよい。
また、未知語言い換え部14(言い換え手段)は、上述したように検出された未知語を、日本語の他の語(言い換え語)に言い換える。具体的に、本実施形態では、上述した日本語辞書22(類似語情報)を用いて、未知語の類似語を抽出して、言い換え語の候補として選定する。例えば、未知語が「ソフトドリンク」である場合には、図2に示す類似語の概念の階層に挙がっている同義概念の「清涼飲料」や上位概念の「飲料」、さらには、下位概念の「炭酸飲料」などが、言い換え語の候補となる。このとき、未知語言い換え部14は、特に、漢字を含む類似語を言い換え語の候補として選定する。そして、未知語言い換え部14は、選定した言い換え語の候補を、最適候補推定部15に渡す。
また、最適候補推定部15(言い換え手段)は、上述したように選定された言い換え語の候補のうち、まずは、全てが漢字にて構成されている言い換え語つまり同義語が存在する場合に、これを言い換え語の最適候補として推定する。このとき、同義語が複数存在する場合には、上述した日本語辞書22内の優先度を表す情報に基づいて(図2、図3参照)、優先語から非優先語への順位で最適な候補を推定する。つまり、まずは、優先度の最も高い優先語を、日中漢字変換部16にて中国語に変換する言い換え語として選択する。
一方で、最適候補推定部15は、全てが漢字にて構成されている言い換え語の候補が存在しない場合には、漢字数の最も多いものを最適候補として推定(選択)する。このとき、最適候補推定部15は、漢字数が最も多いものが複数存在して、複数の最適候補が存在する場合には、上記日本語辞書22内の上位、下位概念を表す情報に基づいて(図2、図3参照)、最適候補を特定する。具体的には、同義概念との概念間の距離が最も小さい上位概念または下位概念から最適候補を推定する。最終的には、類似語の最上位概念(ルート)または最下位概念まで、上述した最適候補の推定処理を行う。最後まで最適候補を見つからない場合、処理を終了する。なお、必ずしも漢字数の最も多いものを最適候補として推定する必要はない。例えば、言い換え語の後方のうち、各語の全体に対する漢字の割合が最も高いものを最適候補として推定してもよい。
また、最適候補推定部15は、未知語の言い換え語として漢字を含む類似語が存在しない場合には、日本語辞書22中に存在する類似語のうち、日中翻訳辞書21に登録されている類似語を言い換え語の候補として優先して推定(選択)する。この場合には、後述する日中漢字変換部16は、この推定された言い換え語を、日中翻訳語辞書21を用いて対応する中国語に翻訳する。
また、上記日中漢字変換部16(中国語変換手段)は、上記最適候補推定部15にて最適候補として推定(選択)された未知語の言い換え語に含まれる日本語漢字を、日中漢字対応データベース23に基づいて中国語漢字に変換する。そして、日中漢字変換部16は、変換した中国語漢字を出力する。なお、日中漢字変換部16は、日本語漢字に対応する中国語漢字が複数存在する場合には、各漢字に関連付けられて記憶されている頻度の高低を表す情報に基づいて、変換する中国語漢字を決定する。例えば、頻度が最も高い中国語漢字に変換する。
[動作]
次に、上述した変換装置1の動作を、図5のフローチャートを参照して説明する。まず、キーボードやファイル等を通じて入力された日本語文章を受け付ける(ステップS1)。以下、一例として、「ソフトドリンクをいただけますか」という日本語文章が入力された場合を説明する。
続いて、入力された日本語文章に対して、形態素解析または単語分割等の解析処理を行う(ステップS2、解析工程)。例えば、上記日本語文章の場合には、形態素解析の結果は、「ソフトドリンク/を/いただ/け/ます/か」となる。このとき、形態素解析を行った結果となる各形態素には、独自の属性値が付与される。ここで、属性値とは、原形、品詞、活用形、意味分類、アスペクト等の情報からなる。すると、上記「ソフトドリンク」の属性値には、品詞が「未知語」、訳語が空欄として設定される。
そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う(ステップS3、未知語検出工程)。このとき、仮名を含む未知語が検出されない場合には(ステップS3でノー)、処理を終了する。仮名を含む未知語が検出された場合には(ステップS3でイエス)、次の処理(ステップS4)へ進む。なお、ここでは、上記文章中、「ソフトドリンク」の品詞属性である「未知語」の情報と、文字コードの種別と、ひらがな、カタカナ、漢字等のコードとにより、「ソフトドリンク」を仮名を含む未知語として検出する。
続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書22を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する(ステップS4、言い換え工程)。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語(類似語)つまり全てが漢字の言い換え語が存在する場合には(ステップS5でイエス)、その類似語である同義語を優先して最適候補と推定する(ステップS6)。このとき、同義語が複数存在する場合には、日本語辞書22を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には(ステップS5でノー)、全類似語候補の中から漢字数の多いものを最適候補とする(ステップS7)。
なお、図5には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものを最適候補とする。そして、概念の距離同一のものが複数存在する場合には、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書21にすでに登録された類似語を最適候補とする処理も行われる。なお、前記未知語の類似語候補がサ変の場合はサ変語幹のみを用いて(サ変語尾を切り捨て)、形容動詞の場合は形容動詞語幹のみを用いて(形容動詞語尾を切り捨て)、上述した言い換え処理を行う。
具体的には、日本語辞書22を用いて、上記未知語である「ソフトドリンク」を、漢字を含む文字列に言い換える処理を行う。なお、日本語辞書22の構成は、上述したように図2,3に示すとおりであり、これによると、「ソフトドリンク」の言い換え語候補として、全てが漢字の同義語である「清涼飲料」が推定される。なお、「清涼飲料」の方が「ソフトドリンク」よりも優先度が高い優先語(図3の記号USEを参照)であると計算されているため、当該「清涼飲料」を最適候補として推定する。
なお、必要に応じて、「ソフトドリンク」の同義語である「清涼飲料」を用いて、JSTシソーラスで辞書の逆引きを行うことが出来る。その結果、図2に示される「ソフトドリンク」の同義語や類似語の概念の階層関係を含む図3に示される辞書情報を読み込んで記憶する。これには、「ソフトドリンク」の同義語である「清涼飲料」と、下位概念である「果実飲料」と「炭酸飲料」と「乳飲料」、上位概念である「飲料」、最上位概念である「食品」等の情報が含まれる。
続いて、上記ステップS6あるいはステップS7で推定された言い換え語の最適候補に対して、日中漢字対応データベース23を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う(ステップS8、中国語変換工程)。その後、変換結果である中国語の文字情報を、変換装置1に装備されたディスプレイなどの出力装置に出力する(ステップS9)。
具体的には、上述したように、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース23(図4参照)に基づいて、文字ごとに中国語漢字の「清涼飲料」(中国語簡体字でもよい)に変換する。
このようにすることにより、日本語の未知語を同じく日本語の他の言い換え語に言い換えた後に中国語に変換するため、日中翻訳辞書21に登録されていない未知語であっても、中国語への変換精度が高まる。特に、未知語を、日本語漢字を含む言い換え語に言い換えることで、漢字を用いる中国語への変換精度の向上を図ることができる。
なお、上記では、未知語「ソフトドリンク」を「清涼飲料」に変換する場合を例示したが、例えば、以下のような変換例も考えられる。ここでは、入力された日本語文章の中に仮名を含む未知語「考える」が検出された場合を考える。すると、まず、上述したように、日本語動詞シソーラスから、「考える」の類似語である「思考」、「考慮」、「思う」等の言い換え候補を獲得できる。そして、最適な言い換え候補として、「思考」や「考慮」を推定することができ、これを中国語漢字に変換することにより、未知語「考える」を、中国語の訳語として「思考」や「考慮」に変換することができる。これにより、未知語「考える」を含む入力された日本語文章の翻訳結果を、中国語側に通じる変換して出力することができる。
<実施形態2>
次に、本発明の第2の実施形態を、図6乃至図7を参照して説明する。図6は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図7はその動作を示すフローチャートである。
[構成]
本実施形態は、上述した情報処理システムを、翻訳辞書生成支援システムとして使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態1における変換装置1及びデータベース2からなる情報処理システムとほぼ同様の構成を採っている。
具体的に、本実施形態におけるデータベース2は、図6に示すように、日中翻訳辞書21と、日本語辞書22と、日中漢字対応データベース23と、を備えている。また、変換装置1(情報処理装置)は、図6に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部11と、日本語文章解析部12と、未知語検出部13と、未知語言い換え部14と、最適候補推定部15と、日中漢字変換部16と、を備えている。
そして、これに加えて、本実施形態における変換装置1は、図6に示すように、演算装置にプログラムが組み込まれることによって構築された辞書生成部17を備えている。この辞書生成部17(未知語変換辞書生成手段)は、上述したように日中漢字変換部16にて変換された変換結果を、変換対象となった未知語の対訳として、日中翻訳辞書21に記憶する機能を有する。例えば、上述したように、未知語が「ソフトドリンク」であり、その中国語への変換結果が「清涼飲料」である場合には、日本語「ソフトドリンク」の対訳として、中国語「清涼飲料」を、日中翻訳辞書21に登録する。
ここで、上記日本語文章解析部12は、上述した実施形態1にて説明したものとほぼ同様の構成であるが、本実施形態では特に、入力された日本語文章の構造を、予めシステムに与えられた文法ルールや単語リストなどの辞書情報などを用いて、形態素解析または単語分割などの処理を行い、日本語を形態素や単語に分割する処理を行う。なお、その他の構成は、実施形態1と同様であるため、その詳細な説明は省略する。
[動作]
次に、上記構成の変換装置1の動作を、上記実施形態1で説明した図5及び図7を参照して説明する。なお、図7は、上述した実施形態1の図5を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後(図5のステップS8以降)の動作を示している。従って、以下では、図5を参照して説明する動作については、簡単に説明する。
まず、キーボードやファイル等を通じて入力された日本語文章、例えば、「ソフトドリンクをいただけますか」という日本語文章、を受け付ける(ステップS1)。続いて、入力された日本語文章に対して、形態素解析または単語分割等の解析処理を行う(ステップS2、解析工程)。
そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う(ステップS3、未知語検出工程)。このとき、仮名を含む未知語が検出されない場合には(ステップS3でノー)、処理を終了する。仮名を含む未知語が検出された場合には(ステップS3でイエス)、次の処理(ステップS4)へ進む。なお、ここでは、上記文章中、「ソフトドリンク」が仮名を含む未知語として検出されることとする。
続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書22を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する(ステップS4、言い換え工程)。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語(類似語)つまり全てが漢字の言い換え語が存在する場合には(ステップS5でイエス)、その類似語である同義語を優先して最適候補と推定する(ステップS6)。このとき、同義語が複数存在する場合には、日本語辞書22を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には(ステップS5でノー)、全類似語候補の中から漢字数の多いものを最適候補とする(ステップS7)。
なお、図5には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものや、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書21にすでに登録された類似語を最適候補とする。
続いて、上記ステップS6あるいはステップS7で推定された言い換え語の最適候補に対して、日中漢字対応データベース23を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う(ステップS8、中国語変換工程)。ここでは、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース23(図4参照)に基づいて、文字ごとに中国語漢字の「清涼飲料」(中国語簡体字でもよい)に変換する。
続いて、上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、この「清涼飲料」という中国語と、日本語の未知語として検出された「ソフトドリンク」とを対応付けて、未知語と中国語の対応辞書を生成する(ステップS11)。そして、この対応辞書を日中翻訳辞書21に登録する(ステップS12、未知語変換辞書生成工程)。つまり、日本語「ソフトドリンク」の中国語対訳として、「清涼飲料」が登録されることとなる。その後は、必要に応じて、登録された対訳をディスプレイなどに出力する。
これにより、以後、日中翻訳辞書21を用いて翻訳を行う場合には、上述したように登録した対訳を利用することが可能となる。
<実施形態3>
次に、本発明の第3の実施形態を、図8乃至図10を参照して説明する。図8は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図9はその動作を示すフローチャートである。また、図10は、中国語への翻訳例を示す説明図である。
[構成]
本実施形態は、上述した情報処理システムを、翻訳装置として使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態2における変換装置1及びデータベース2からなる情報処理システムとほぼ同様の構成を採っている。
具体的に、本実施形態におけるデータベース2は、図8に示すように、日中翻訳辞書21と、日本語辞書22と、日中漢字対応データベース23と、を備えている。また、変換装置1(情報処理装置)は、図8に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部11と、日本語文章解析部12と、未知語検出部13と、未知語言い換え部14と、最適候補推定部15と、日中漢字変換部16と、辞書生成部17と、を備えている。
そして、これに加えて、本実施形態における変換装置1は、図8に示すように、演算装置にプログラムが組み込まれることによって構築された翻訳部18と、中国語出力部19と、を備えている。
上記翻訳部18(翻訳手段)は、上述したように日中漢字変換部16にて変換した変換結果と、予め日中翻訳辞書21に登録されている対訳辞書に基づいて、入力された日本語文章を中国語に変換する。つまり、上述したように、実施形態2で未知語と中国語との対訳辞書が日中翻訳辞書21に記憶されているため、当該日中翻訳辞書21には、入力され解析された日本語文章の語句(形態素)の全てが登録されていることとなり、これを用いて、中国語に翻訳することができる。また、中国語出力部19は、翻訳部18による翻訳結果である中国語の文章を、変換装置1に装備されたディスプレイなどの出力装置に出力する。
ここで、上記日本語文章解析部12は、上述した実施形態1にて説明したものとほぼ同様の構成であるが、本実施形態では特に、翻訳処理を行うために、入力された日本語文章を、予めシステムに与えられた解析ルールなどの情報を用いて、形態素解析及び構文解析の処理を行う。なお、その他の構成は、実施形態2と同様であるため、その詳細な説明は省略する。
[動作]
次に、上記構成の変換装置1の動作を、上記実施形態1で説明した図5及び図9を参照して説明する。なお、図9は、上述した実施形態1の図5を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後(図5のステップS8以降)の動作を示している。従って、以下では、図5を参照して説明する動作については、簡単に説明する。
まず、キーボードやファイル等を通じて入力された日本語文章、例えば、「ソフトドリンクをいただけますか」という日本語文章、を受け付ける(ステップS1)。続いて、入力された日本語文章に対して、形態素解析及び構文解析の処理を行う(ステップS2、解析工程)。
そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う(ステップS3、未知語検出工程)。このとき、仮名を含む未知語が検出されない場合には(ステップS3でノー)、処理を終了する。仮名を含む未知語が検出された場合には(ステップS3でイエス)、次の処理(ステップS4)へ進む。なお、ここでは、上記文章中、「ソフトドリンク」が仮名を含む未知語として検出されることとする。
続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書22を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する(ステップS4、言い換え工程)。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語(類似語)つまり全てが漢字の言い換え語が存在する場合には(ステップS5でイエス)、その類似語である同義語を優先して最適候補と推定する(ステップS6)。このとき、同義語が複数存在する場合には、日本語辞書22を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には(ステップS5でノー)、全類似語候補の中から漢字数の多いものを最適候補とする(ステップS7)。
なお、図5には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものや、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書21にすでに登録された類似語を最適候補とする。
続いて、上記ステップS6あるいはステップS7で推定された言い換え語の最適候補に対して、日中漢字対応データベース23を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う(ステップS8、中国語変換工程)。ここでは、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース23(図4参照)に基づいて、文字ごとに中国語漢字の「清涼飲料」(中国語簡体字でもよい)に変換する。
上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、この「清涼飲料」という中国語と、日本語の未知語として検出された「ソフトドリンク」とを対応付けて、未知語と中国語の対応辞書を生成して、日中翻訳辞書21に登録する(ステップS21)。これにより、上記例文「ソフトドリンクをいただけますか」に対し、「ソフトドリンク」が未知語である場合であっても、まず、「ソフトドリンク」と「清涼飲料」から構成される日中翻訳辞書が生成される。そして、この日中対訳辞書21を用いて、この追加された対訳辞書と予め登録されている対訳辞書とを含む日中対訳辞書21を用いて、未知語ではない部分と未知語を含む日本語文章「ソフトドリンクをいただけますか」を、図10に示すように、簡体字あるいは繁体字の中国語に翻訳する(ステップS22、変換工程)。なお、図10に示す簡体字あるいは繁体字の中国語は、左側から読むことで、日本語の「ソフトドリンクをいただけますか」に対応する中国語訳となっている。その後は、必要に応じて、翻訳結果をディスプレイなどに出力する(ステップS23)。
<実施形態4>
次に、本発明の第4の実施形態を、図11乃至図12を参照して説明する。図11は、本実施形態における情報処理システムの構成を示す機能ブロック図であり、図12はその動作を示すフローチャートである。
[構成]
本実施形態は、上述した情報処理システムを、言語横断型情報検索システムとして使用する場合を示している。そして、本実施形態における情報処理システムは、上述した実施形態1における変換装置1及びデータベース2からなる情報処理システムとほぼ同様の構成を採っている。
具体的に、本実施形態におけるデータベース2は、図11に示すように、日中翻訳辞書21と、日本語辞書22と、日中漢字対応データベース23と、を備えている。そして、これに加えて、本実施形態におけるデータベース2は、日本語と中国語とによって構成された検索対象となる所定の内容の検索データベース24を備えている。なお、この検索データベース24は、ネットワーク上の他のコンピュータに記憶されているものでもよい。
また、本実施形態における変換装置1(情報処理装置)は、図11に示すように、演算装置に本発明であるプログラムが組み込まれることで構築された、日本語入力受付部11と、日本語文章解析部12と、未知語検出部13と、未知語言い換え部14と、最適候補推定部15と、日中漢字変換部16と、を備えている。
そして、これに加えて、本実施形態における変換装置1は、図11に示すように、演算装置にプログラムが組み込まれることによって構築された、検索処理部31と検索結果出力部32とを備えている。
そして、上記検索処理部31(検索手段)は、未知語検出部13から日本語入力受付部11に対して入力された日本語の未知語を受け付けると共に、日中漢字変換部16にて変換された上記未知語の変換結果である中国語を受け付ける。そして、受け付けた日本語である未知語を日本語の検索キーワードとし、また、未知語の対訳となる変換結果を中国語の検索キーワードとして、それぞれの言語で検索データベース24内の検索を行う。そして、検索結果出力部32は、上記検索結果をディスプレイなどに出力する。
ここで、上記日本語文章解析部12は、上述した実施形態1にて説明したものとほぼ同様の構成であるが、本実施形態では特に、入力された日本語文章の構造を、予めシステムに与えられた解析ルールなどの辞書情報などを用いて、形態素解析の処理、あるいは、形態素解析及び構文解析の処理を行う。なお、その他の構成は、実施形態1と同様であるため、その詳細な説明は省略する。
[動作]
次に、上記構成の変換装置1の動作を、上記実施形態1で説明した図5及び図12を参照して説明する。なお、図12は、上述した実施形態1の図5を参照して説明したように、未知語として「ソフトドリンク」が検出された場合に、中国語への変換結果として「清涼飲料」が得られた後(図5のステップS8以降)の動作を示している。従って、以下では、図5を参照して説明する動作については、簡単に説明する。
まず、日中言語コーパスから「ソフトドリンク」に関する日中関連情報を検索する場合に、検索キーワードとして入力された「ソフトドリンク」といった日本語文章を受け付ける(ステップS1)。続いて、入力された日本語文章に対して、形態素解析、あるいは、形態素解析及び構文解析、といった解析処理を行う(ステップS2、解析工程)。
そして、解析結果に基づいて、入力された日本語文章中から、仮名を含む未知語の検出処理を行う(ステップS3、未知語検出工程)。このとき、仮名を含む未知語が検出されない場合には(ステップS3でノー)、処理を終了する。仮名を含む未知語が検出された場合には(ステップS3でイエス)、次の処理(ステップS4)へ進む。なお、ここでは、上記文章中、「ソフトドリンク」が仮名を含む未知語として検出されることとする。
続いて、入力された日本語文章の中に仮名を含む未知語が検出された場合には、日本語辞書22を用いて、当該未知語の類似語であり、かつ、漢字を含む文字列である言い換え語の候補を検索する(ステップS4、言い換え工程)。そして、検索された言い換え語の候補の中から、中国語に変換する最適候補を推定する。具体的には、まず、仮名を含まない言い換え語(類似語)つまり全てが漢字の言い換え語が存在する場合には(ステップS5でイエス)、その類似語である同義語を優先して最適候補と推定する(ステップS6)。このとき、同義語が複数存在する場合には、日本語辞書22を用いて、優先語から非優先語への順位で最適候補を推定する。一方、仮名を含まない言い換え語の候補が存在しない場合には(ステップS5でノー)、全類似語候補の中から漢字数の多いものを最適候補とする(ステップS7)。
なお、図5には示していないが、前記未知語の類似語の中に、上位概念、下位概念が同時に存在する場合、未知語と類似語との概念の距離が近いものや、上位概念、下位概念の順位で最適候補を推定する。さらに、未知語の類似語の中に、漢字を含む類似語が存在しない場合には、日中翻訳辞書21にすでに登録された類似語を最適候補とする。
続いて、上記ステップS6あるいはステップS7で推定された言い換え語の最適候補に対して、日中漢字対応データベース23を用いて、当該言い換え語に含まれる日本語漢字毎に中国語漢字への変換処理を行う(ステップS8、中国語変換工程)。ここでは、未知語「ソフトドリンク」の言い換え語として最適候補と推定された「清涼飲料」の日本語漢字を、日中漢字対応データベース23(図4参照)に基づいて、文字ごとに中国語漢字の「清涼飲料」(中国語簡体字でもよい)に変換する。
続いて、上述したように、未知語「ソフトドリンク」の変換結果として「清涼飲料」が得られると、日本語の「ソフトドリンク」を日本語の検索キーワードとし、また、中国語への変換結果である「清涼飲料」を中国語の検索キーワードとする。そして、日本語である「ソフトドリンク」を利用して、日本語の検索データベース24から当該キーワードに関連した情報を検索する。同時に、中国語である「清涼飲料」を利用して、中国語の検索データベース24から当該キーワードに関連した情報を検索する(ステップS31、検索工程)。なお、上述した検索処理は、例えば、検索エンジンを用いて、日中両言語コーパスや日中両言語で構成されるウェブ上のデータベースサーバに記憶された検索データベースに対して行ってもよい。その後は、必要に応じて、検索結果をディスプレイなどに出力する(ステップS32)。
<実施形態5>
本発明の第5の実施形態を、図13乃至図14を参照して説明する。図13は、情報処理システムの構成を示す機能ブロック図であり、図14は、その動作を示すフローチャートである。
本実施形態における変換装置101とデータベース102とからなる情報処理システムは、上述した他の実施形態における情報処理システムとほぼ同様の構成を採っているが、このうち、変換装置101が、未知語検出部111と、未知語言い換え部112と、日中漢字変換部113と、を備えている。なお、データベース102内の構造は上記同様であり、日中翻訳辞書121と、日本語辞書122と、日中漢字対応データベース123と、を備えている。
そして、上記未知語検出部111は、入力された日本語の文字情報内から(ステップS101)、日中翻訳辞書121に登録されていない未知語を検出する処理を行う(ステップS102)。また、未知語言い換え部122は、日本語辞書112に基づいて、未知語を同じく日本語の漢字を含む言い換え語に言い換える処理を行う(ステップS103)。さらに、日中漢字変換部113は、日中漢字対応データベース123に基づいて、未知語を言い換えた言い替え語に含まれる日本語漢字を中国語漢字に変換して(ステップS104)、出力する処理を行う(ステップS105)。
上記構成であっても、日本語の未知語を同じく日本語の漢字を含む他の言い換え語に言い換えた後に、当該言い換え語に含まれる日本語漢字を中国語漢字に変換して、中国語に変換することができる。従って、辞書に登録されていない日本語の未知語であっても、より高精度に中国語に変換することができる。
本発明の情報処理装置は、日本語の未知語を中国語に変換する変換装置、さらには、辞書作成支援装置や、翻訳装置、言語横断型情報検索装置、として利用することができ、産業上の利用可能性を有する。
実施形態1における情報処理システムの構成を示す機能ブロック図である。 日本語辞書の類似語の概念の階層の一例を示す説明図である。 日本語辞書の概念の階層の一例を示す説明図である。 日中漢字対応データベースの一例を示す説明図である。 実施形態1における情報処理システムの動作を示すフローチャートである。 実施形態2における情報処理システムの構成を示す機能ブロック図である。 実施形態2における情報処理システムの動作を示すフローチャートである。 実施形態3における情報処理システムの構成を示す機能ブロック図である。 実施形態3における情報処理システムの動作を示すフローチャートである。 実施形態3における中国語への翻訳結果の一例を示す図である。 実施形態4における情報処理システムの構成を示す機能ブロック図である。 実施形態4における情報処理システムの動作を示すフローチャートである。 実施形態5における情報処理システムの構成を示す機能ブロック図である。 実施形態5における情報処理システムの動作を示すフローチャートである。
符号の説明
1,101 変換装置
2,102 データベース
11 日本語入力受付部
12 日本語文章解析部
13,111 未知語検出部
14,112 未知語言い換え部
15 最適候補推定部
16,113 日中漢字変換部
17 辞書生成部
18 翻訳部
19 中国語出力部
21,121 日中翻訳辞書
22,122 日本語辞書
23,123 日中漢字対応データベース
24 検索データベース
31 検索処理部
32 検索結果出力部

Claims (21)

  1. 入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    を備えたことを特徴とする情報処理装置。
  2. 前記言い換え手段は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記未知語検出手段は、前記入力された日本語の文字情報のうち、仮名文字を含む語を前記未知語として検出する、
    ことを特徴とする請求項1又は2記載の情報処理装置。
  4. 前記言い換え手段は、前記未知語を言い換えた前記言い換え語のうち、当該言い換え語に含まれる漢字の数に応じて、前記中国語変換手段にて変換する前記言い換え語を選択する、
    ことを特徴とする請求項1,2又は3記載の情報処理装置。
  5. 前記言い換え手段は、前記未知語を言い換えた前記言い換え語のうち、全てが漢字にて構成されているものを、前記中国語変換手段にて変換する前記言い換え語とする、
    ことを特徴とする請求項1,2又は3記載の情報処理装置。
  6. 前記言い換え手段は、前記類似語情報の類似語間における優先度情報に基づいて、前記中国語変換手段にて変換する前記言い換え語を選択する、
    ことを特徴とする請求項2,3,4又は5記載の情報処理装置。
  7. 前記言い換え手段は、前記未知語を前記類似語に言い換えた前記言い換え語のうち、前記類似語情報の類似語間における上位/下位概念情報に基づく前記未知語に対する前記言い換え語の前記上位/下位概念の距離に応じて、前記第二言語変換手段にて変換する前記言い換え語を選択する、
    ことを特徴とする請求項2,3,4,5又は6記載の情報処理装置。
  8. 前記言い換え手段は、前記未知語の前記類似語に日本語漢字を含む語が存在しない場合に、前記未知語の前記類似語のうち前記日本語と中国語との対訳辞書に登録されている語を前記言い換え語として言い換え、
    前記中国語変換手段は、前記言い換え語を前記日本語と中国語との対訳辞書に基づいて中国語に変換する、
    ことを特徴とする請求項2,3,4,5,6又は7記載の情報処理装置。
  9. 入力された日本語の文字情報の構造を解析する解析手段と、
    前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    前記中国語変換手段による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成手段と、
    を備えたことを特徴とする情報処理装置。
  10. 入力された日本語の文字情報の構造を解析する解析手段と、
    前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    前記解析手段にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換手段による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
    を備えたことを特徴とする情報処理装置。
  11. 入力された日本語の文字情報の構造を解析する解析手段と、
    前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を備え、
    前記検索手段は、前記未知語検出手段にて検出した日本語である前記未知語と、前記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
    ことを特徴とする情報処理装置。
  12. コンピュータに、
    入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    を実現させるためのプログラム。
  13. 前記言い換え手段は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
    ことを特徴とする請求項12記載のプログラム。
  14. コンピュータに、
    入力された日本語の文字情報の構造を解析する解析手段と、
    前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    前記中国語変換手段による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成手段と、
    を実現させるためのプログラム。
  15. コンピュータに、
    入力された日本語の文字情報の構造を解析する解析手段と、
    前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    前記解析手段にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換手段による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳手段と、
    を実現させるためのプログラム。
  16. コンピュータに、
    入力された日本語の文字情報の構造を解析する解析手段と、
    前記解析手段にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え手段と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換手段と、
    日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索手段と、を実現させるプログラムであり、
    前記検索手段は、前記未知語検出手段にて検出した日本語である前記未知語と、前記中国語変換手段にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
    ことを特徴とするプログラム。
  17. 入力された日本語の文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
    を有することを特徴とする情報処理方法。
  18. 前記言い換え工程は、日本語における類似語情報に基づいて、前記未知語の類似語を当該未知語の前記言い換え語として言い換える、
    ことを特徴とする請求項17記載の情報処理方法。
  19. 入力された日本語の文字情報の構造を解析する解析工程と、
    前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
    前記中国語変換工程による変換結果を、前記未知語の対訳として記憶する未知語変換辞書生成工程と、
    を有することを特徴とする情報処理方法。
  20. 入力された日本語の文字情報の構造を解析する解析工程と、
    前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
    前記解析工程にて解析された文字情報のうち前記対訳辞書に登録されている日本語の文字情報を中国語に変換すると共に、この変換結果と、前記中国語変換工程による変換結果と、に基づいて、前記入力された日本語の文字情報を中国語に翻訳する翻訳工程と、
    を有することを特徴とする情報処理方法。
  21. 入力された日本語の文字情報の構造を解析する解析工程と、
    前記解析工程にて解析された前記文字情報のうち、日本語と中国語との対訳辞書に登録されていない未知語を検出する未知語検出工程と、
    前記未知語を日本語における漢字を含む他の言い換え語に言い換える言い換え工程と、
    前記言い換え語に含まれる日本語漢字を、日本語漢字と中国語漢字との対応漢字情報に基づいて中国語漢字に変換して、前記言い換え語を中国語に変換する中国語変換工程と、
    日本語のキーワードと中国語のキーワードとを用いて、それぞれ所定のデータベース内の検索を行う検索工程と、を有し、
    前記検索工程は、前記未知語検出工程にて検出した日本語である前記未知語と、前記中国語変換工程にて中国語に変換した変換結果と、をそれぞれキーワードとして、前記データベース内の検索を行う、
    ことを特徴とする情報処理方法。
JP2008125354A 2008-05-13 2008-05-13 情報処理装置 Pending JP2011175306A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008125354A JP2011175306A (ja) 2008-05-13 2008-05-13 情報処理装置
PCT/JP2009/057169 WO2009139240A1 (ja) 2008-05-13 2009-04-08 情報処理装置および情報処理方法ならびに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008125354A JP2011175306A (ja) 2008-05-13 2008-05-13 情報処理装置

Publications (1)

Publication Number Publication Date
JP2011175306A true JP2011175306A (ja) 2011-09-08

Family

ID=41318613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008125354A Pending JP2011175306A (ja) 2008-05-13 2008-05-13 情報処理装置

Country Status (2)

Country Link
JP (1) JP2011175306A (ja)
WO (1) WO2009139240A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020079749A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 事例検索方法
US11630824B2 (en) 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04256171A (ja) * 1991-02-08 1992-09-10 Fujitsu Ltd 未登録語処理装置
JP3855989B2 (ja) * 2003-11-10 2006-12-13 オムロン株式会社 日本語文解析装置および日本語文解析方法
JP2006024114A (ja) * 2004-07-09 2006-01-26 Advanced Telecommunication Research Institute International 機械翻訳装置および機械翻訳コンピュータプログラム
JP4372133B2 (ja) * 2006-09-27 2009-11-25 株式会社東芝 辞書登録装置、辞書登録方法及び辞書登録プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020079749A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 事例検索方法
JPWO2020079749A1 (ja) * 2018-10-16 2021-11-18 株式会社島津製作所 事例検索方法
JP7167996B2 (ja) 2018-10-16 2022-11-09 株式会社島津製作所 事例検索方法
US11630824B2 (en) 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system

Also Published As

Publication number Publication date
WO2009139240A1 (ja) 2009-11-19

Similar Documents

Publication Publication Date Title
JP3906356B2 (ja) 構文解析方法及び装置
JPH0351020B2 (ja)
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
Paikens Lexicon-based morphological analysis of Latvian language
WO2009139240A1 (ja) 情報処理装置および情報処理方法ならびに記録媒体
JP4476609B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Zarnoufi et al. Machine normalization: Bringing social media text from non-standard to standard form
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
WO2010044180A1 (ja) 情報処理装置
Rajendran Parsing in tamil: Present state of art
JP2632806B2 (ja) 言語解析装置
KR100322743B1 (ko) 음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치
JP3921543B2 (ja) 機械翻訳装置
JP4088681B2 (ja) 複数言語入力での言語処理装置
Padma et al. Morpheme based parts of speech tagger for Kannada language
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
JP4203102B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
Pluwak et al. Adapting a constituency parser to user-generated content in Polish opinion mining
JP3244286B2 (ja) 翻訳処理装置
Chaudhary et al. A Study of Transliteration Approaches
KR20130042822A (ko) 패턴 기반 번역과 번역 예문 기반 번역을 사용한 번역 장치 및 방법
JP2002197086A (ja) 自然言語変換システム