JP5037573B2 - 変換規則とプログラムとを記録した記録媒体、および、普遍言語を生成するシステム - Google Patents

変換規則とプログラムとを記録した記録媒体、および、普遍言語を生成するシステム Download PDF

Info

Publication number
JP5037573B2
JP5037573B2 JP2009173233A JP2009173233A JP5037573B2 JP 5037573 B2 JP5037573 B2 JP 5037573B2 JP 2009173233 A JP2009173233 A JP 2009173233A JP 2009173233 A JP2009173233 A JP 2009173233A JP 5037573 B2 JP5037573 B2 JP 5037573B2
Authority
JP
Japan
Prior art keywords
language
universal
universal language
expression
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009173233A
Other languages
English (en)
Other versions
JP2009238255A5 (ja
JP2009238255A (ja
Inventor
裕士 内田
美英 朱
Original Assignee
国際連合
裕士 内田
美英 朱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国際連合, 裕士 内田, 美英 朱 filed Critical 国際連合
Priority to JP2009173233A priority Critical patent/JP5037573B2/ja
Publication of JP2009238255A publication Critical patent/JP2009238255A/ja
Publication of JP2009238255A5 publication Critical patent/JP2009238255A5/ja
Application granted granted Critical
Publication of JP5037573B2 publication Critical patent/JP5037573B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報交換、情報蓄積の際に生じる、翻訳、通訳等における言語問題を解決するための技術に係り、特に、コンピュータ、ネットワーク等において行われる情報交換、情報蓄積に好適であり、かつ、機械翻訳、機械通訳などにも適用できる言語変換技術に関する。
インターネットネット時代の今日、人々の活動は国際的になっている。国際的な活動に際しては、意志の伝達が何よりも重要なことである。そのためには言語が重要な問題となる。しかし、現在のところ、完全な意味での世界共通言語は存在していない。普及度の高い英語であっても、世界共通語とはいえない。実際に、人々は様々な言語圏に属しており、それぞれ、自身のネイティブ言語によるコミュニケイションを望んでいる。
現在、異なる言語間でコミュニケイションを取るには、それらの言語間での翻訳が必要となる。場合によっては、両者からの翻訳が可能な別の言語を介在させての翻訳が必要となる。翻訳に際しては、一般的には人力にたよることとなる。また、一部の言語では、翻訳ソフトウエアが開発されているので、機械翻訳が行われる場合もある。
ところで、これまでの翻訳ソフトウエアは、特定の言語で記述された文章について、その構文を解析するとともに、意味を解析し、翻訳すべき言語の単語を用い、かつ、その文法に従って、文の要素を置き換えるという作業を行っている。このため、完全な翻訳は非常に困難であり、よく似た言語どうしの翻訳においても、100%とは言い難い。
また、人は、使用する言語の如何によらず、報告、取引、文学、娯楽等の種々の分野での様々な状況において、言語で表現される情報を生成している。これらの言語で記述される情報は、通常、それが最初に記述された言語により、印刷物、ディジタルデータ等の形で、それぞれ個別的に保存される。また、翻訳された情報については、翻訳された言語によって表記される状態でも保存されることとなる。従って、同一内容の情報が、異なる言語でそれぞれ保存されることとなる。これは、ネットワーク時代にあっては、あまり効率的とはいえない。特に、内容に変更が生じる場合には、原本のみならず、すべての翻訳文についても変更部分の翻訳を必要とする。従って、文書の管理の点においても、非効率である。
さらに、一般的には、ある言語で記述された情報が他の言語に翻訳されることはそれほど多くはない。特に、多数の言語に翻訳されることは稀である。このため、異なる言語を使用する人々の間での情報の交換には、自ずと限度がある。
このような状況において、多種多様な言語間でのコミュニケイションを少ない負担で、容易かつ正確に行えるシステムの開発が望まれている。また、情報を、特定の言語に依存せずに蓄積できると共に、必要に応じて、任意の言語に変換できることが望まれている。
本発明の目的は、多種多様な言語間でのコミュニケイションを少ない負担で、容易かつ正確に行える、普遍言語による表現を生成するシステムおよびこれに用いられる変換規則を記録した記録媒体を提供することにある。
前記目的を達成するため、本発明の第1の態様によれば、
コンピュータによって取り扱うことができ、かつ、他の言語への変換の基礎とすることができる普遍言語による表現を生成するシステムであって、
自然言語による表現を普遍言語による表現に変換するために参照される変換規則を、少なくとも1種類の自然言語対応に記憶している変換規則部と、
与えられた自然言語による表現を、前記変換規則部に記憶される変換規則を参照して普遍言語による表現に変換処理する変換処理部とを備え、
前記変換規則部は、前記変換規則として、
自然言語を構成する自然言語要素について、それぞれが有する情報に対応する、普遍言語を構成する普遍言語要素で定義した普遍語辞書と、
自然言語の文構造に対応して配列される前記普遍言語要素の結合関係を規定すると共に、結合関係を二つの普遍語とそれらが特定の関係にあることを示す関係子とを含む二項関係で表記するための書替規則とを有し、
前記変換処理部は、与えられた自然言語による表現について、前記普遍語辞書を参照して、当該自然語表現を構成する構成要素を、前記普遍語辞書における対応する普遍言語要素に書き替える処理と、書き替えられた複数の普遍言語要素について、その配列に従って前記書替規則を適用して結合させ、かつ、前記二項関係で表記するための規則に従って、二項関係で表記される普遍言語による表現を生成する処理とを行うことを特徴とする普遍言語による表現を生成するシステムが提供される。
また、本発明の第2の態様によれば、
自然言語による表現と、コンピュータによって扱うことができる普遍言語による表現との間で相互に書き替えを行うために参照される変換規則を、少なくとも1種類の自然言語対応に記録する記録媒体であって、
前記変換規則は、
自然言語を構成する自然言語要素について、それぞれが有する情報に対応する、普遍言語を構成する普遍言語要素で定義した普遍語辞書と、
自然言語の文構造に対応して配列される前記普遍言語要素の結合関係を規定すると共に、結合関係を二つの普遍語とそれらが特定の関係にあることを示す関係子とを含む二項関係で表記するための書替規則とを有することを特徴とする変換規則を記録した記録媒体が提供される。
図1は、本発明において用いられるハードウエアシステムの構成の一例を示すブロック図である。 図2は、本発明に係る普遍言語による表現を生成するためのシステムの機能構成を示すブロック図である。 図3は、本発明において用いられる普遍語辞書の構成の一例を模式的に示す説明図である。 図4は、本発明において用いられる変換規則の構成の一例を模式的に示す説明図である。
以下、本発明の実施形態について、図面を参照して説明する。本発明は、自然言語による表現として英語による表現を用い、これに基づいて普遍言語による表現を生成する場合を例として説明する。もちろん、種々の言語に基づいて、普遍言語による表現を生成することが可能である。
本発明において、表現の生成に用いられる普遍言語は、基本的には、コンピュータによって取り扱うことができると共に、ネットワークを介するコミュニケイションに用いることができる言語である。従って、当該普遍言語についての表記は、コンピュータにおいて取り扱い可能な、数字等の記号であれば足りる。しかし、それを人が理解できるように表現してもよい。それは、例えば、普遍語のコードを特定の自然言語の表記に対応付けることで可能となる。本実施の形態では、英語をベースとして普遍語の表記を行う場合を例としている。これは、英語が広く用いられている言語であること、また、コンピュータ用言語の表記にも広く用いられていることによる。もちろん、普遍語の表記は、英語以外の言語をベースとすることもできる。また、それ自体を人が理解できる人工言語による表記としてもよい。
図1に、本発明の普遍語による表現システムの構成に用いることができるハードウエアシステムの構成例を示す。図1では、一般的に用いられるコンピュータシステムを示している。すなわち、図1に示すハードウエアシステムは、演算装置10と、キーボード21およびマウス22を有する入力装置20と、表示装置31および印刷装置32を有する出力装置30と、ハードディスク装置等で構成される記憶装置40と、ネットワークとの接続を行うための通信制御装置50とを有する。ここで、入力装置20および出力装置30は、それぞれ総称であって、例えば、出力装置30が表示装置31および印刷装置32を備えた装置という意味ではない。
演算装置10は、中央処理ユニット(CPU)11と、リードオンリメモリ(ROM)12と、ランダムアクセスメモリ(RAM)13とを有する。CPU11は、記憶装置40にインストールされたアプリケーションプログラムをRAM13にロードして実行することで、各種アプリケーションの処理を行う。このアプリケーションプログラムの一つとして、本実施の形態において用いられる普遍言語による表現を生成する処理を行うプログラムがある。このプログラムは、例えば、CD−ROM、フレキシブルディスク等の記録媒体により提供される。また、プログラムを提供するサーバから、ネットワーク等を介してダウンロードすることでも入手できる。本実施の形態では、いずれの場合も、実行可能な形式に変換して、記憶装置40に保存しておく。
また、本実施の形態では、自然言語と普遍言語との変換を行う際に変換規則が用いられる。この変換規則は、前記プログラムと同様に、記録媒体に記録された状態で提供される。また、ネットワークを介して取得することもできる。そして、変換規則は記憶装置40に保存される。
図2は、本実施の形態の機能構成を示す。図2に示すように、普遍言語による表現の生成の元となる自然言語による表現がなされたデータの準備を行う変換準備処理部100と、自然言語による表現を普遍言語による表現に変換するために参照される変換規則を、少なくとも1種類の自然言語対応に記憶している変換規則部200と、変換準備処理部100により与えられた自然言語による表現を、変換規則部200に記憶される変換規則を参照して普遍言語による表現に変換処理する変換処理部300と、生成された普遍言語による表現を記憶装置40に記憶させるための処理を行う保存処理部400と、生成処理過程および生成後の表現を出力装置30に出力する処理を行う出力処理部500とを有する。
変換準備処理部100は、変換処理部300に対して元となる自然言語により表現されたデータを取り込む処理を行う。取り込む処理としては、例えば、次の処理が挙げられる。キーボード21により入力された自然言語による表現を表す文字列データの入力を受け入れる処理がある。また、記憶装置40に保持された自然言語による表現を表す文字列データを、記憶装置40から読み出す処理がある。さらに、通信制御装置50を介して受信した文字列データを取り込む処理がある。
前記変換規則部200は、自然言語を構成する自然言語要素について、それぞれが有する情報に対応する、普遍言語を構成する普遍言語要素で定義した普遍語辞書210と、自然言語の文構造に対応して配列される前記普遍言語要素の結合関係を規定すると共に、結合関係を二つの普遍語とそれらが特定の関係にあることを示す関係子とを含む二項関係で表記するための書替規則220とを有する。これらは、いずれも、記憶装置40に格納される。なお、普遍語辞書210と書替規則220とは、本実施の形態では区別して扱っている。しかし、本発明は、それに限られない。例えば、普遍語辞書210と書替規則220とを区別せずに、全体として一つの書替規則とすることもできる。また、普遍語辞書210と書替規則220とをそれぞれさらに細分化することもできる。
普遍語辞書210は、自然言語の構成要素対応に、普遍言語で用いられる記号で表記された普遍言語要素の集合で構成される。普遍言語要素としては、対応する自然言語の構成要素が表す意味を特定する情報、および、対応する自然言語の構成要素についての評価を特定する情報のうち、少なくとも一方の情報が表記される。また、各普遍言語要素には、それぞれ当該普遍言語要素が対応する自然言語における文の要素のいずれに相当するかを示す文要素記号が付記される。
図3に普遍語辞書の構成の一例を模式的に示す。図3に示す例では、もちろん、辞書要素のほんの一部を示すに過ぎない。普遍語辞書は、図3に示す例では、’a(”.@indef”),DET’、’man(”person”),N’のように記載されている。すなわち、
X(“Y”),Z
の形式で記載されている。
ここで、Xには自然言語の要素、本実施の形態では、英語における要素が記載される。上述の例では、’a’、’man’がこれに当たる。自然言語の要素の多くは、単語である。
例えば、同じ綴りを有する要素であっても、意味が異なる場合には、それぞれについて定義される。また、同じ動詞であっても、不規則変化動詞の場合では、原形、過去および過去分詞をそれぞれ独立の要素として扱う。さらに、ここに記載される要素は、独立した単語に限られない。例えば、語幹、接尾辞等の部分も対象となる。この場合、それぞれの要素について、その性質を示す情報として付加する。例えば、時制を示す情報、複数形を示す情報等を付加する。また、規則変化動詞の場合、語幹と接尾とに分け、それぞれを独立の要素として定義する。図3に示す’ask’と、’ed’とが、語幹とその接尾語に相当する。なお、’ed’は、他の動詞についても結合される。また、’ed’は、名詞の語尾に付加されることで、当該名詞を形容詞として機能させることができる。この場合には、前記動詞の語尾とは別の性質を有する接尾語として定義される。
Yには、対応する自然言語の構成要素が表す意味を特定する情報、および、対応する自然言語の構成要素についての評価を特定する情報のうち、少なくとも一方の情報が表記される。
意味を特定する情報としては、前述の例では、’person’がこれに当たる。もちろん、意味を特定する情報であるから、名詞には限られず、動詞、形容詞等が記載できる。
また、評価を特定する情報としては、上述した例では、’.@indef’がこれに当たる。すなわち、不定冠詞として名詞の性質を特定しており、意味を特定する情報といえる。本発明では、これらを属性子と称することとする。
意味を特定する情報には、時制、意思、理由、事象の性質等の、種々の特徴を表す情報が記載できる。また、対象の状態に応じて複数種の情報が、例えば、カンマ等で区切ることで併記できる。例えば、図3に示す英語の単語である’question’については、二項関係で定義がなされている。すなわち、’question(”question(icl>thing)”)’と記載される。これは、英語の’question’は普遍語において’question’と表記されることを定義している。また、普遍語の’question’は、’(icl>thing)’という性質を持つことを定義している。この’(icl>thing)’は、概念に関する記号であって、’question’は’thing’という概念に含まれることを定義している。ここで、’thing’は、普遍語における事物の概念を示す。
また、Yには、意味を特定する情報と、その評価を特定する情報とを、例えば、カンマ等で区切って併記することができる。
Zには、前述した文要素記号が付記される。上述した例では、’DET’、’N’がこれに当たる。文要素記号は、自然言語における、例えば、品詞を示す情報に相当する。例えば、’DET’は、決定詞を意味し、冠詞等の、対象となる名詞の性質を決定する文要素であることを示す記号である。’N’は、名詞を意味する文要素であることを示す記号である。’VTSTM’は他動詞の語幹、’ENDING’は接尾要素であることを意味する記号である。
書替規則220は、図4において示す番号1〜10のように、自然言語の文構造に対応して配列される前記普遍言語要素の結合関係を規定する。例えば、同図における番号1では、文Sが、主部となるNPと、述部となるVPとを有し、これらが、agtという関係子で結合される関係にあることを示している。番号2では、VPが、他動詞となるVTと、名詞句となるNPとを有し、これらが、objという関係子で結合される関係にあることを示している。なお、関係子については後述する。
次に、番号3では、名詞句に相当するNPがDET結合する関係にあることを示している。番号4では、他動詞に相当するVTが、VTSTMとENDINGと結合する関係にあることを示している。
次に、番号5以降では、番号1〜4とは規則の規定の仕方が異なる。例えば、番号5では、DETは、’a(”.@indef”)’に対して’DET(”.@indef”)’のように、自然言語の要素の部分を除いて結合することを示している。6番以降も同様である。
上述した普遍語辞書210および書替規則220は、本発明では、自然言語の表現から普遍言語の表現を生成する場合に用いられる。これらは、普遍言語の表現から自然言語の表現を生成する場合にも同じ変換規則を用いることができる。従って、一旦、普遍言語による表現を生成しておけば、種々の自然言語による表現を容易に生成することが可能となる。なお、普遍語辞書210および書替規則220を用いて、普遍語による表現をどのように生成するかに付いては後述する。
変換処理部300は、与えられた自然言語による表現について、前記普遍語辞書を参照して、当該自然語表現を構成する構成要素を、前記普遍語辞書における対応する普遍言語要素に書き替える普遍言語要素書替処理310と、書き替えられた複数の普遍言語要素について、その配列に従って前記書替規則を適用して結合させ、かつ、前記二項関係で表記するための規則に従って、二項関係で表記される普遍言語による表現を生成する二項関係生成320処理とを行う。この変換処理は、主として演算装置10においてプログラムを実行することで行われる。
保存処理部400は、演算装置10において処理された結果を記憶装置40に記憶させる処理を行う。この処理は、演算装置10により行われ、記憶装置40がこの処理応答して演算装置から出力されるデータを記憶する。データは、必要に応じて読み出される。
出力処理部500は、入力されたデータ、処理結果等を表示装置31に表示させたり、印刷装置32において印刷させたりする処理を行う。表示と印刷とは別個に処理される。
次に、本発明の特徴点である二項関係について説明する。本発明において用いる二項関係は、次の式で定義される。
Figure 0005037573
上記式を用いると、種々の表現が正確に行える。例えば、
and(quickly,easily)、
and(Mary(icl>person),John(icl>person))
などが簡単な例として挙げられる。前者は、速くかつ簡単にの意味を表す。後者は、メアリとジョンの意味を表す。ここで、( )の記号は、要素について( )内に記述される束縛があることを示す。これについては、普遍語に関する説明の際に述べる。
複合普遍語は、複合概念を表すために集められた二項関係の集合である。複合普遍語IDは、その複合普遍語の集合に属する二項関係を識別するための識別子である。この識別子を特定することで、複合普遍語を普遍語として用いることができる。複合普遍語IDは、例えば、大文字アルファベット、または、2桁の数値で表すこととする。
なお、普遍語についても、後述する式6に示すように、普遍語IDを用いることで、同一内容の表現の参照を行うことができる。
二項関係は、普遍言語による表現、すなわち、文のかたまりである。二項関係は、二つの普遍語と関係とで構成される。普遍言語において、二項関係は、予め定義され、関係子と呼ばれる3文字以下の記号で規定される。普遍言語間の関係は、それらの普遍言語の振る舞いに応じて異なり、対応する関係子agt、and、aoj、obj、icl等が用いられる。関係子は、予め定義されている。例えば、次のようなものがある。
−関係子−
agt 事象を引き起こすもの
and 概念間の連結関係
aoj 属性をもつもの
bas 比較の基準や程度をあらわすもの
cag 暗示的な事象を引き起こすもの
cao 暗示的な属性をもつもの
cnt 等位概念
cob 暗示的な事象の対象
con 焦点のあたっている事象や状態に影響を与える事象や状態
coo 焦点のあたっている事象や状態と同時並行に起こる事象や状態
dur 事象や状態が起こっている時間
fmt 2つのものの間の範囲
frm ものの原点
gol 対象あるいは対象に関連するものの最終状態
ins 事象を遂行するための道具
man 事象の遂行の仕方あるいは状態の性質
met 事象を遂行するための手段
mod 焦点のあたっているものを制限するもの
nam ものの名前
obj 事象によって直接影響を受ける焦点のあたっているもの
or 概念間の選択関係
per 基準単位
plc 事象の起こる場所あるいは状態が存在する場所
plf 事象が始まる場所あるいは状態が存在し始める場所
plt 事象が終わる場所あるいは状態が存在しなくなる場所
pof 全体・部分関係
pos ものの所有者
ptn 事象を一緒に引き起こす焦点のあたっていないもの
pur 事象あるいはものが存在する目的
qua ものあるいは単位の量
rsn 事象あるいは状態がおこる理由
scn 事象が起こる場面
seq 焦点のあたっている事象や状態に先立つ事象や状態
src 対象あるいは対象に関連するものの開始状態
tim 事象が起こるあるいは状態が成立する時間
tmf 事象が始まるあいは状態が成立し始まる時間
tmt 事象が終わるあるいは状態が成立し終わる時間
to ものの終点
via 事象の経由点あるいは経由状態
次に、本発明において用いる普遍語について説明する。普遍語は、次式で定義される。なお、式の表記上約束は式1と同じである。
Figure 0005037573
<見出し>は、文字列で構成される。例えば、buy、book等が挙げられる。普遍語は、コンピュータが取り扱うことができれば足りるので、必ずしも人が読める形で表現されている必要はない。しかし、人が読み得る形で定義する方が便利であるため、本実施の形態では、上述したように英語をベースとして普遍語を定義している。他の言語、例えば、日本語で定義しても差し支えない。
また、普遍語は、定義式の形式からも明らかなように、最も簡単な場合、見出しのみで構成される場合があり得る。
一般的には、言語要素は、種々の束縛を受ける。そこで、本実施の形態では、1以上の束縛を束縛リストとして( )に表している。複数の束縛を併記することができる。その場合、カンマで区分する。束縛リストは、次のように定義される。
Figure 0005037573
前述した束縛リストに挙げられる束縛は、次のように定義される。
Figure 0005037573
このように、普遍語には、束縛を受けない基本普遍語と、何らかの束縛を伴う制限普遍語と、特別の制限普遍語とがある。基本普遍語には、英語で例示すると、’go、take、house’等がある。一方、制限普遍語には、前述した定義で表される種々の普遍語がある。その例として’state’について、4つの異なる束縛を伴う場合を示す。
state(agt>person,obj>information)
state(equ>nation)
state(icl>situation)
state(icl>government)
また、特別の制限普遍語としては、例えば、次のような例が挙げられる。
ikebana(icl>activity,obj>flowers)
samba(icl>dance)
さて、前述した性質を特定する情報として、属性がある。この属性は、次の式で定義される。
Figure 0005037573
普遍言語における属性は、普遍言語では、過去、現在、未来等の、話者に関する時間、急ぐかどうか等の状況についての話者の見方、共通の話題に関するもの等の話者の参考的見解、話者が注目する転等に関する話者の焦点、話者の関心への強度、話者の見解等に関するものが挙げられる。代表的には、次に挙げるものが定義される。
−属性子−
@ability できる
@ability−past できた
@ability−future できるだろう
@affirmative 肯定
@apodosis−cond 条件帰結
@apodosis−real 現実帰結
@apodosis−unreal 非現実帰結
@begin−just 開始直後
@begin−soon 開始直前
@complete 完了
@conclusion 結論
@confirmation 確認
@custom 習慣
@def 特定
@emphasis 強調
@end−just 終了直後
@end−soon 終了直前
@entry 焦点
@exclamation 感嘆
@expectation 期待
@future 未来
@generic 総称
@grant 許諾
@grant−not 不承認
@indef 不特定
@imperative 命令
@inevitabilit 必然
@insistence 強要
@intention 意図
@interrogative 質問
@invitation 勧誘
@may 許可
@not 否定
@obligation 義務
@obligation−not 義務なし
@ordinal 序数
@past 過去
@politeness 丁寧
@possibility 可能
@present 現在
@probability 蓋然
@progress 進行
@qfocus 疑問の焦点
@repeat 反復
@respect 尊敬
@should 当然
@state 残存状態
@theme テーマ
@topic 話題
@unexpectation 予想外
@will 意思
次に、普遍語IDは、例えば、参照可能な表記がある場合、同一の表現がある場合等において、対象を特定するために、アルファベット、数字等で識別する場合に用いられる。次のように定義される。
Figure 0005037573
本実施の形態において用いられる二項関係を示す文字、数字、記号としては、アルファベット大文字および小文字、数字の他、次のような記号を用いることができる。
Figure 0005037573
次に、本発明による、普遍言語による表現の生成の具体例について説明する。以下の例では、’The man asked a question’という英語表現(文)について普遍言語による表現(文)を生成する場合について説明する。生成には、図3に示す普遍語辞書と図4に示す書替規則とを用いる。ここで、普遍言語の生成に際しては、図4の書替規則を右から左に適用する。すなわち、書替規則に示されている→の向きとは反対の方向に適用する。なお、普遍言語から自然言語への変換は、矢印の向きに行う。
演算装置10は、変換対象となる文である’The man asked a question’を変換準備処理部100を介してRAM13に取り込む。今の例では、キーボード21を介して入力されたものとする。さて、演算装置10のCPU11は、入力された英文の最初の単語について普遍語辞書210を検索する。そして、’the(”.@def”),DET’が索出される。そこで、図4における書替規則6を適用して、次の結果を得る。
Figure 0005037573
次に、CPU11は、前記英文の次の単語’man’について普遍語辞書210を検索する。そして、’man(”person”),N’が索出される。そこで、図4における書替規則8を適用して、次の結果を得る。
Figure 0005037573
次に、CPU11は、前記英文の次の単語’asked’について普遍語辞書210を検索する。そして、’ask(”ask(icl>do)”),VTSTM’が索出される。そこで、図4における書替規則9を適用して、次の結果を得る。
Figure 0005037573
次に、CPU11は、前記英文の前記単語’asked’の語尾’ed’について普遍語辞書210を検索する。そして、’ed(”.@past”),ENDING’が索出される。そこで、図4における書替規則10を適用して、次の結果を得る。
Figure 0005037573
次に、CPU11は、前記英文の次の単語’a’について普遍語辞書210を検索する。そして、’a(”.@def”),DET’が索出される。そこで、図4における書替規則5を適用して、次の結果を得る。
Figure 0005037573
次に、CPU11は、前記英文の次の単語の’question’について普遍語辞書210を検索する。そして、’question’が索出される。そこで、図4における書替規則7を適用して、次の結果を得る。
Figure 0005037573
次に、CPU11は、前記英文について’question’後に単語がないことを確認すると、辞書検索を中止して、書替結果についてさらに書き替える処理を行う。英文における検索単語が最後となったと判断するためには、ピリオド、クエスチョンマーク、コロン等の存在に基づいて行うようにしてもよい。
さて、この後、CPU11は、書替規則1から4を用いて書替をさらに進める。
CPU11は、前記書替結果の先頭から文要素記号を読み出し、先頭から隣接する文要素記号間の関係を図4に示す書替規則を参照して決定する。例えば、前記書替結果の場合には、先頭から、’DET、N、VTSTM、ENDING、DET、N’の順に配置文要素記号が並ぶ。そこで、まず、’DET’と’N’について、書替規則3を適用して、’NP(”person.@def”)’を得る。その結果、次の結果を得る。
Figure 0005037573
次に、CPU11は、’VTSTM’と’ENDING’について、書替規則4を適用して、’VT(”ask(icl>do).@past”)’を得る。その結果、次の結果を得る。
Figure 0005037573
次に、CPU11は、’DET’と’N’について、書替規則3を適用して、’NP(”question.@indef”)’を得る。その結果、次の結果を得る。
Figure 0005037573
次に、PCU11は、最後尾側には、書き替えるべき対象がないと判断する。そこで、CPU11は、文要素記号を読み出し、先頭から隣接する文要素記号間の関係を図4に示す書替規則を参照して決定する。例えば、前記書替結果の場合には、先頭から、’NP’、’VT’、’NP’の順に配置文要素記号が並ぶ。ここで、先頭側にある’NP’と’VT’には、書替規則が適用できない。そこで、CPU11は、まず、’VT’と’NP’について、書替規則2を適用して、次の結果を得る。
Figure 0005037573
さらに、CPU11は、前記書替結果に含まれる文要素記号を読み出して、これに規則1を適用する。その結果、次の結果を得る。
Figure 0005037573
以上により、普遍言語による表現が生成されたこととなる。この普遍言語は、次のように解釈することができる。すなわち、普遍言語’ask’が自然言語’ask’の意味を表すと共に、属性子’@entry’の存在から話者の焦点が’ask’に向いている。普遍言語’ask’には束縛があり、その束縛の内容は、’ask’という事象を引き起こすもの(agt)が特定(.@def)の’person’であり、事象によって直接影響を受けるものは、不特定(.@indef)の’question’であるということを意味する。
この普遍言語による表現は、構成要素を見ると明らかなように、自然言語の構成要素を含んでいない。従って、一旦得られた普遍言語により、自然言語を生成する場合に、変換すべき言語に対応した前記変換規則があれば、任意の言語からの、または、任意の言語に、それぞれ変換可能となる。
以上の例で用いた普遍語辞書および変換規則は、示した部分は、全体のほんの一部に過ぎない。例えば、普遍語辞書は、その語彙は、およそ100万語程度用意される。なお、本発明を特定の用途に特化して用いる場合には、語彙数は少なくてすむ。
このように、本発明では、それぞれの自然言語に対応する変換規則を用意することで、いずれの自然言語についても、普遍言語による表現が可能となる。しかも、普遍言語は、元になる自然言語の要素、文法の影響を受けない形で表記されるため、ある言語から他の言語に情報を伝達するといった場合に、すべて普遍言語による表現とすることで、情報の国際的伝達、効率的な蓄積が可能となる。また、翻訳情報の少ない言語についても、英語と同様に、使用言語の異なる多くの人々に、それが表す内容を、低いコストで、容易に伝達することが可能となる。
また、本発明の普遍言語は、それを自然言語に変換できるため、逆変換した表現をチェックすることで、普遍言語表現が元の自然言語表現を正確に伝えているかを容易に確認することができる。したがって、普遍言語による表現を正確なものとすることが可能である。そして、普遍言語は、二項関係を用いて明確に記述されるため、普遍言語から自然言語への変換は正確に行える。その結果、普遍言語による表現を原本とすることが、国際的に同じ情報を伝達する際に役立つといえる。
なお、上述した例では、自然言語について述べたが、本発明は、厳密には自然言語とはいえない言語、例えば、エスペラント語等の人工言語、コンピュータ言語等の機械用言語による表現についての適用も可能である。
本発明によれば、多種多様な言語間でのコミュニケイションを少ない負担で、容易かつ正確に行える。

Claims (6)

  1. コンピュータによって取り扱うことができ、かつ、他の言語への変換の基礎とすることができる普遍言語による表現の生成をコンピュータに実行させる際に、自然言語による表現を普遍言語による表現に変換するために参照される変換規則と、与えられた自然言語による表現を、前記記憶される変換規則を参照して普遍言語による表現に変換処理するプログラムと、を記憶する記録媒体であって、
    前記変換規則として、自然言語を構成する自然言語要素について、それぞれが有する情報に対応する、普遍言語を構成する普遍言語要素で定義した普遍語辞書と、書替規則とを有し、
    前記普遍語辞書には、自然言語の構成要素に対応する普遍言語が、
    X(“Y”),Z
    の形式で記録され、
    Xには、自然言語の構成要素が表記され、Yには、前記Xに表記される構成要素が表す意味を特定する情報、および、前記Xに表記される構成要素についての評価を特定する情報のうち、少なくとも一方がそれぞれ普遍言語要素で表記され、Zには、前記Xに表記される構成要素が文の要素のいずれに相当するかを示す文要素記号が付記され、
    前記書替規則には、前記ZとYとの結合関係を示す規則と、自然言語の文構造に対応して配列される前記普遍言語要素の結合関係を規定すると共に、結合関係を二つの普遍言語要素とそれらが特定の関係にあることを示す関係子とを含む二項関係で表記するための規則とが規定され、
    前記プログラムは、
    与えられた自然言語表現された文の構成要素である単語について、前記普遍語辞書を検索して、該当する単語に対応する普遍言語 X(“Y”),Zを索出すると共に、前記ZとYとの結合関係を示す規則を適用して、前記普遍語辞書における対応する普遍言語要素に書き替え、前記普遍言語要素に書き替えた単語の後に単語がないことを確認すると、前記辞書検索を中止する処理と、
    書き替えられた複数の普遍言語要素について、その配列に従って前記書替規則を適用して結合させ、かつ、前記二項関係で表記するための規則に従って、二項関係で表記される普遍言語による表現を生成する処理と、を前記コンピュータに行わせることを特徴とする、変換規則とプログラムとを記録した記録した記録媒体。
  2. 請求項1に記載の記録媒体において、
    前記普遍言語要素を構成する普遍語は、
    それを表す文字列と、
    当該普遍語について、1以上の束縛が存在する場合には、それぞれ普遍言語で定義される1以上の束縛を併記した束縛リストと、
    当該普遍語を定義することに他の1以上の普遍語が用いられる場合には、その普遍語を識別する普遍語IDと、
    当該普遍語について1以上の属性が特定されている場合には、それぞれ普遍言語で定義される1以上の属性を併記した属性リストとで定義され、次の形式で記録されていることを特徴とする記録媒体。
    <普遍語>::= <見出し>[<束縛リスト>]
    [“:”<普遍語ID>][“.”<属性リスト>]
    ここで、::= は、・・・が・・・と定義されることを表す。
    [ ] は、任意的に追加可能な要素を示す。
    “ ” は、文字・記号が入ることを示す。
    <xxx>は、変数名である。
    <見出し>は、文字列で構成される。
  3. 請求項2に記載の記録媒体において、
    前記普遍語の定義に用いられる束縛リストは、次式の形式を有することを特徴とする記録媒体。
    <束縛リスト>::=“(”<束縛>[“,”<束縛>]・・・“)”
    ここで、・・・は、そのものが1以上出現することを意味する。
  4. 請求項3に記載の記録媒体において、
    前記束縛リストに挙げられる束縛は、次の形式で定義されることを特徴とする記録媒体。
    <束縛>::=<関係子>{“>”|“<”}<普遍語>[<束縛リスト>]|
    <関係子>{“>”|“<”}<普遍語>[<束縛リスト>]
    [{“>”|“<”}<普遍語>[<束縛リスト>]]・・・
    ここで、| は、離接、“または”を表す。
    { } は、選択要素を示す。
  5. 請求項2に記載の記録媒体において、
    前記普遍語の定義に用いられる属性リストは、次の形式を有することを特徴とする記録媒体。
    <属性リスト>::=<属性子>[“.”<属性子>]・・・
  6. コンピュータによって取り扱うことができ、かつ、他の言語への変換の基礎とすることができる普遍言語による表現を生成するシステムであって、
    自然言語による表現を普遍言語による表現に変換するために参照される変換規則を、少なくとも1種類の自然言語対応に記憶している変換規則部と、
    与えられた自然言語による表現を、前記変換規則部に記憶される変換規則を参照して普遍言語による表現に変換処理する変換処理部と、を備え、
    前記変換規則部は、前記変換規則として、自然言語を構成する自然言語要素について、それぞれが有する情報に対応する、普遍言語を構成する普遍言語要素で定義した普遍語辞書と、書替規則とを有し、
    前記普遍語辞書には、自然言語の構成要素に対応する普遍言語が、
    X(“Y”),Z
    の形式で記録され、
    Xには、自然言語の構成要素が表記され、Yには、前記Xに表記される構成要素が表す意味を特定する情報、および、前記Xに表記される構成要素についての評価を特定する情報のうち、少なくとも一方がそれぞれ普遍言語要素で表記され、Zには、前記Xに表記される構成要素が文の要素のいずれに相当するかを示す文要素記号が付記され、
    前記書替規則には、前記ZとYとの結合関係を示す規則と、自然言語の文構造に対応して配列される前記普遍言語要素の結合関係を規定すると共に、結合関係を二つの普遍言語要素とそれらが特定の関係にあることを示す関係子とを含む二項関係で表記するための規則とが規定され、
    前記変換処理部は、
    与えられた自然言語表現された文の構成要素である単語について、前記普遍語辞書を検索して、該当する単語に対応する普遍言語 X(“Y”),Zを索出すると共に、前記前記ZとYとの結合関係を示す規則を適用して、前記普遍語辞書における対応する普遍言語要素に書き替え、前記普遍言語要素に書き替えた単語の後に単語がないことを確認すると、前記辞書検索を中止する処理と、
    書き替えられた複数の普遍言語要素について、その配列に従って前記書替規則を適用して結合させ、かつ、前記二項関係で表記するための規則に従って、二項関係で表記される普遍言語による表現を生成する処理と、を行うこと
    を特徴とする普遍言語による表現を生成するシステム。
JP2009173233A 1999-11-17 2009-07-24 変換規則とプログラムとを記録した記録媒体、および、普遍言語を生成するシステム Expired - Fee Related JP5037573B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009173233A JP5037573B2 (ja) 1999-11-17 2009-07-24 変換規則とプログラムとを記録した記録媒体、および、普遍言語を生成するシステム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP32752599 1999-11-17
JP1999327525 1999-11-17
JP2009173233A JP5037573B2 (ja) 1999-11-17 2009-07-24 変換規則とプログラムとを記録した記録媒体、および、普遍言語を生成するシステム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001540628A Division JP4377096B2 (ja) 1999-11-17 2000-11-17 普遍言語による表現を生成するシステム

Publications (3)

Publication Number Publication Date
JP2009238255A JP2009238255A (ja) 2009-10-15
JP2009238255A5 JP2009238255A5 (ja) 2011-08-18
JP5037573B2 true JP5037573B2 (ja) 2012-09-26

Family

ID=18200087

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001540628A Expired - Fee Related JP4377096B2 (ja) 1999-11-17 2000-11-17 普遍言語による表現を生成するシステム
JP2009173233A Expired - Fee Related JP5037573B2 (ja) 1999-11-17 2009-07-24 変換規則とプログラムとを記録した記録媒体、および、普遍言語を生成するシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2001540628A Expired - Fee Related JP4377096B2 (ja) 1999-11-17 2000-11-17 普遍言語による表現を生成するシステム

Country Status (6)

Country Link
US (1) US6704700B1 (ja)
EP (1) EP1241584A4 (ja)
JP (2) JP4377096B2 (ja)
CN (1) CN1415097A (ja)
AU (1) AU1415101A (ja)
WO (1) WO2001039034A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1415097A (zh) * 1999-11-17 2003-04-30 联合国 用于创建通用语言的表达的系统和记录其使用的转换规则的记录介质
CN1271545C (zh) * 1999-11-17 2006-08-23 联合国 语言翻译系统
JP4410486B2 (ja) 2003-05-12 2010-02-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳装置及びプログラム
US20070206771A1 (en) * 2006-03-03 2007-09-06 Childers Stephen Steve R Key talk
US20100280818A1 (en) * 2006-03-03 2010-11-04 Childers Stephen R Key Talk
US8463592B2 (en) * 2010-07-27 2013-06-11 International Business Machines Corporation Mode supporting multiple language input for entering text
CN105338161A (zh) * 2014-06-30 2016-02-17 展讯通信(上海)有限公司 一种语句信息匹配系统及方法以及移动终端
FR3117639A1 (fr) 2020-12-14 2022-06-17 CS GROUP - France Système et procédé de conversion d’un document source en langage naturel en une représentation abstraite en langage universel ayant un sens garanti

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
JPH0414175A (ja) * 1990-05-07 1992-01-20 Ricoh Co Ltd 自然言語文解析装置
ES2101613B1 (es) * 1993-02-02 1998-03-01 Uribe Echebarria Diaz De Mendi Metodo de traduccion automatica interlingual asistida por ordenador.
US5587903A (en) * 1994-06-22 1996-12-24 Yale; Thomas W. Artificial intelligence language program
US5884247A (en) * 1996-10-31 1999-03-16 Dialect Corporation Method and apparatus for automated language translation
US6092035A (en) * 1996-12-03 2000-07-18 Brothers Kogyo Kabushiki Kaisha Server device for multilingual transmission system
JP3467159B2 (ja) * 1996-12-03 2003-11-17 ブラザー工業株式会社 多言語対応通信システム、サーバー装置及びサーバー装置の文書送信方法
US6233546B1 (en) * 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
CN1415097A (zh) * 1999-11-17 2003-04-30 联合国 用于创建通用语言的表达的系统和记录其使用的转换规则的记录介质

Also Published As

Publication number Publication date
EP1241584A4 (en) 2006-05-17
WO2001039034A1 (fr) 2001-05-31
AU1415101A (en) 2001-06-04
EP1241584A1 (en) 2002-09-18
US6704700B1 (en) 2004-03-09
JP4377096B2 (ja) 2009-12-02
CN1415097A (zh) 2003-04-30
JP2009238255A (ja) 2009-10-15

Similar Documents

Publication Publication Date Title
JP4291532B2 (ja) 言語変換システム
JP5037573B2 (ja) 変換規則とプログラムとを記録した記録媒体、および、普遍言語を生成するシステム
US20200243076A1 (en) Multi-Dimensional Parsing Method and System for Natural Language Processing
US5895446A (en) Pattern-based translation method and system
Van der Vlist Relax ng: A simpler schema language for xml
US8271264B2 (en) Systems and methods for natural language communication with a computer
EP1542138A1 (en) Learning and using generalized string patterns for information extraction
JP2017199363A (ja) 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
JP7230576B2 (ja) 生成装置、学習装置、生成方法及びプログラム
Wax Automated grammar engineering for verbal morphology
WO2022123637A1 (ja) 文書処理システムおよび文書処理方法
JPH02112068A (ja) テキスト簡略表示方式
Mridha et al. Development of morphological rules for bangla words for universal networking language
Prakash et al. Domain Specific Text Preprocessing for Open Information Extraction
Cuřín et al. Building a parallel bilingual syntactically annotated corpus
JP3113257B2 (ja) 機械翻訳装置
Ali et al. Development of analysis rules for Bangla root and primary suffix for universal networking language
JP4938298B2 (ja) テキストの要約に含める文の候補を出力する方法およびプログラム
Sperberg-McQueen Fault tolerance, error tolerance, diversity tolerance
Xuetao et al. A corpus-based NLP-chain for a web-based Assisting Conversational Agent
KR20240067521A (ko) 자연어 처리를 위한 데이터 전처리 장치 및 방법
EP1465081A2 (en) Method and apparatus for compiling two-level morphology rules
Haj et al. Automated Checking of Conformance to SBVR Structured English Notation
Jaya et al. A novel approach for construction of sentences for automatic story generation using ontology
JP6573839B2 (ja) 文生成装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20120110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120403

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120704

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees