JPH0337763A - 自然言語処理方法 - Google Patents

自然言語処理方法

Info

Publication number
JPH0337763A
JPH0337763A JP1172453A JP17245389A JPH0337763A JP H0337763 A JPH0337763 A JP H0337763A JP 1172453 A JP1172453 A JP 1172453A JP 17245389 A JP17245389 A JP 17245389A JP H0337763 A JPH0337763 A JP H0337763A
Authority
JP
Japan
Prior art keywords
word
words
natural language
japanese
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1172453A
Other languages
English (en)
Inventor
Takeshi Yumura
湯村 武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP1172453A priority Critical patent/JPH0337763A/ja
Publication of JPH0337763A publication Critical patent/JPH0337763A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (イ)産業上の利用分野 本発明は、機械翻訳システムや自然言語インタフェース
など自然言iiI処理方式に関するものである。
(ロ)従来の技術 近年、英日翻訳システムなど自然言語を扱った装置の実
用化開発が盛んに行bhており、このため自然言語の構
文解析、意味解析など自然言語処理に関する研究が注目
されている。
このような自然言語処理においては、あらゆる意味で曖
昧さが大きな問題となる。即ち、曖昧さにも統語レベル
の曖昧さや意味レベルの曖昧さなど、さまざまなレベル
の曖昧さが存在する。
このため、一般の文法規1111 (統語規則)では処
理できないような曖昧さを解消する一つの方法として、
語堂に依存した処理については辞書データに曖昧要因に
対する補充データを追加させることが考えられる。とこ
ろが、ある単語と他の単語との関係について、両単語の
語電に依存した情報を補充データとして持たせようとす
ると、単語の可能な組み合わせの数は膨大となり実用的
でない。
従って、単語を機能的・意味的分類することによって、
類似した単語を統一的に処理しようとする試みがある。
機械翻訳システムにおける訳語選択もその一例である。
訳語選択は、原言語の文を解析することによって得ふれ
る中間表現を入力として行われるが、IN! ts ’
AMのqL語に対して目標言3bの単語の候補として複
数考えられる場合に問題となる。これに関しては、その
単語が使われている環境(他の単語との関係)を調査す
ることによって最適な訳語を求ぬることが必要である。
その実現方法としては、一つの文章にある単語とこれに
関連する別の単語とかともに存在する時、両単語の共存
によって決められる現問を記述した共起情報を利用する
ことが考えられる(例えば、特開昭60−144869
号公報参照)。
(ハ)発明が解決しようとする課題 しかしながら、上述の如く、5bと語の共起に関する情
報を利用して曖昧さを克服しようとする従来の自然言語
処理方法では、以下のような問題があった。
(])  共起可能な単語の対は膨大であり、多量のデ
ータが必要である。
(2)類語を統一的に処理するためにシソーラスを利用
することも考えられるが、体系化するのは困難である。
即ち、辞書データの不備やバラツキ、あるいは体系化の
方法によっては必ずしも有効に利用できない場合も考え
られる。
本発明は、このような事情を考慮してなされたもので、
関連のある単語を語葉の特徴から統一的に処理すること
で、上記の問題を解1ばしようとするものである。
(ニ)問題点を解決するための手段 本発明の自然言語処理方法は、単語の形態的特徴を利用
して類似する単語の集合との共起関係を調べることによ
って、語堂に依存した処理について冗長なマツチング処
理を行わず、また、辞書データも大量の記憶容量を必要
とせず、効率的に処理を行なうことができるようにした
ものである。
(ホ)作用 単語と単語との共起関係、あるいは、単語と概念との共
起関係を利用することによって、自然言語が持つ曖昧さ
の解消を図ることが考えられる。
本発明では、単語の形態的特徴を利用して、そのIlt
語が持つ概念を抽出し、その概念を1つのキーとして扱
い、その概念キーと特定の単語の共起関係を挟在する事
によって、抽出された概念集合と共起辞δに記述された
条件を満足すれば、語粟に依佇した処理が効率的に行な
える。
(へ)発明の実施例 以下に本発明の実施例につき説明する。
第1図は、本発明の一実施例を示す日英機械翻訳システ
ムのハードウェア構成図である。図において、11は原
文人力装置、12は翻訳処理装置、13は翻訳結果出力
装置、14は日本語解析辞書記憶装置、15は日英変換
辞書記憶装置、16は英語生成辞書記憶装置であする。
E記日英変換辞書記憶装置1if15には、−殻内な訳
語を割り付けるための情報の他に、以下にさらに詳述す
るように、共起関係による訳語を選択できるような情報
が記述されている。
まず、入力装置11で入力された日本語文は、翻訳処理
装置12の内部で日本語解析辞書記憶装置14を参照し
ながら統語関係や意味関係が解析され、その結果として
概念(意味)構造が求められる。たとえば、次のような
日本語文、「晩餐会がホテルで開かれた」 が入力されると、解析処理部によって第2図に示すよう
な概念溝道が得られる。
即ち、入力21に対して、日本語解析処理部22は、動
作の概念を表すノードを中心とし、概念の要素であるノ
ードが特定の意味関係で結ばれているのを検知する。こ
の場合、「開く」という動作概念23の時制は[過去]
であり、「受動態」で使われていることを示している。
そして、その動作の[対象]は「晩餐会」であり、[場
所]は「ホテル」であることを示している。
ここで、本発明の実施例を動詞の訳語選択について説明
を加える。
原文解析で得られた上記概念構造23から目標言語の訳
語を求める必要がある。訳語を割り付けるために第1図
図示の日英変換辞書記憶装置4を参照することになるが
、「開く」という日本語の単語に対応する英語の単語の
候補はropenJrhold」など多数あり、入力文
中の「開くコの環境を参、+1(i Lなければ判断で
きない。そこで、単語とtlを語の共起関係あるいは、
単語と概念の共起関係を調べて最適な訳語を求めること
が必要になる。即ち、共起関係が記述されている辞書デ
ータの条件と人力交野の語組み合わせとのマツチングを
とって、照合すれば辞書に記述された訳語を9・える処
理が必要になる。
二のような共起辞書には、ある単語の共起条件の内、E
深層格]、[共起するキー]に対応データが存在するi
It詔について、その訳語が記述されている。そこで、
上述の入力文の「開く」の対象格に「晩餐会」をとると
きの訳は「open」でなくて、rhold、、1であ
ることが記述されなければならない。
ところが、111語の対は重大であり、あらゆる単語の
対を網羅して記述するのは困難である。そこで名詞を系
統的に意味分類して類似した単語の集合として共起関係
を記述する方法も考えられる。
ただ、意味的分類は、分類作業が複雑であり、視点によ
って分類がはっきりしない場合も多い。
本ざδ明では、単語の形態的特徴からキーとなる要素を
抽出し、形態的に類似した単語が持つ共通の概念の集合
との共起関係を調べることによって処理を行なうので、
形態的な類語について網羅する必要がないだけでなく、
単語の系統的な意味分類も不要である。
共起関係を利用した訳語選択のフローを第3図に示す。
第4図に「開く」の共起辞書の一例を示す。この3%g
には、「開く」の[対象格]に「会」という [共起す
るキー〕要素を持つ単語群をとる場合には、その時の訳
語はrhold」であると記述されている。
この処理の入力として第2図に示すように「開く」とい
う動作の概念の対象格として「晩餐会」というノードが
結ばれている場合について、第3図のフローを用いて説
明する。
まず、対象格「晩餐会」というノードに着目して、その
口本語児出しを引数としてキー要素抽出処理部31に渡
される。この処理部31では、「晩餐会」というB語か
ら形態的な特徴を利用して特定の概念が抽出できないか
検査する。ここで、各111語の後ろ数文字に著目し「
会」がキーとなる要素を抽出する。「晩餐会」という単
語がら抽出された「会」というキー要素と「開く」とい
う概念が共起関係にあるがどうがマツチング部32で共
起辞書との照合を行なうつ この例の場合には、条件を)R足するので、「開く」の
訳語としてrholdjが訳語割付け33で与えられる
。もし、条件を満足しなければ、デフォルトの訳語割付
け34で、「開く」の通常訳ropellJが割り付け
られることになる。
このように、形態的特徴を利用して類似した単語群との
共起処理を利用して訳語選択を行なえば、「晩餐会」に
限らず、例えば、「常任委員会」、「尊覧会」なとの単
語を対象格にとっても「開く」の訳語として[hold
]が選択されることになる。
(ト)発明の効果 以上述べたように、本発明によれrr、、ii粟に依存
する処理において共起辞書に、共起する単語をすべて網
羅しなくてもよいので、共起辞書は簡潔に記述でき、辞
註の圧縮をはかることができる。
しかも、単語の意味分類のように複雑な辞書構築が不要
であり、バラツキが生じることなく、効率的に自然言語
処理を行なうことができる。
【図面の簡単な説明】
第1図は機械翻訳システムのF*或図、第2図は解析処
理を示す模式図、第3図は本発明による共起関係を利用
した訳語選択処理のフロー図、第4図は共起辞書のメモ
リ図である。 21・・・入力文、22・・・日本語解析処理部、23
・・・概念構造、31・・・キー要素抽出部、32・・
・マツチング部、33・・・訳語割付は部、34・・・
デフォルト訳語割付は部。

Claims (1)

    【特許請求の範囲】
  1. (1)第1の単語データと、該第1の単語が関係する第
    2の単語の要素キーデータと、第1及び第2の単語の組
    み合わせ表現に関係する共起関係情報とを対応づけて記
    憶した共起関係辞書を備え、入力文を構成する第1の単
    語データと第2の単語の要素キーデータとに基づき、上
    記共起関係辞書を検索することによって共起関係情報を
    得、該情報に基づいて入力文に対して自然言語処理を行
    うことを特徴とした自然言語処理方法。
JP1172453A 1989-07-04 1989-07-04 自然言語処理方法 Pending JPH0337763A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1172453A JPH0337763A (ja) 1989-07-04 1989-07-04 自然言語処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1172453A JPH0337763A (ja) 1989-07-04 1989-07-04 自然言語処理方法

Publications (1)

Publication Number Publication Date
JPH0337763A true JPH0337763A (ja) 1991-02-19

Family

ID=15942269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1172453A Pending JPH0337763A (ja) 1989-07-04 1989-07-04 自然言語処理方法

Country Status (1)

Country Link
JP (1) JPH0337763A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386457B2 (en) 2011-06-22 2013-02-26 International Business Machines Corporation Using a dynamically-generated content-level newsworthiness rating to provide content recommendations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140663A (ja) * 1984-07-31 1986-02-26 Sharp Corp 同音語選択方式
JPS6383868A (ja) * 1986-09-29 1988-04-14 Nippon Telegr & Teleph Corp <Ntt> 自然言語自動翻訳方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140663A (ja) * 1984-07-31 1986-02-26 Sharp Corp 同音語選択方式
JPS6383868A (ja) * 1986-09-29 1988-04-14 Nippon Telegr & Teleph Corp <Ntt> 自然言語自動翻訳方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386457B2 (en) 2011-06-22 2013-02-26 International Business Machines Corporation Using a dynamically-generated content-level newsworthiness rating to provide content recommendations
US8402034B2 (en) 2011-06-22 2013-03-19 International Business Machines Corporation Using a dynamically-generated content-level newsworthiness rating to provide content recommendations

Similar Documents

Publication Publication Date Title
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
JP3906356B2 (ja) 構文解析方法及び装置
US7584092B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US6965857B1 (en) Method and apparatus for deriving information from written text
US7546235B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
JPS61163467A (ja) 機械翻訳システム
JPS6299865A (ja) 自然言語の共起関係辞書保守方法
KR20080084803A (ko) 교차-언어 지식 검색을 위한 시스템 및 방법
Smadja et al. Translating collocations for use in bilingual lexicons
Khoo et al. Using statistical and contextual information to identify two‐and three‐character words in Chinese text
Sinhal et al. Machine translation approaches and design aspects
JPH0337763A (ja) 自然言語処理方法
Tomita Feasibility study of personal interactive machine translation systems
Sadler The Textual Knowledge Bank: Design, Construction, Applications
Samantaray A Data mining approach for resolving cases of Multiple Parsing in Machine Aided Translation of Indian Languages
Özateş et al. A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology with Deep Learning
Eineborg et al. ILP in part-of-speech tagging—an overview
KR19990015131A (ko) 영한 자동번역 시스템의 숙어 번역 방법
JPS63132379A (ja) 自然言語文生成方法
Christensen Danish knowledge patterns and word sketches for semi-automatic extraction of terminological information
Lee et al. Alignment of bilingual named entities in parallel corpora using statistical model
Szpektor et al. Cross lingual and semantic retrieval for cultural heritage appreciation
JPH0561902A (ja) 機械翻訳システム
JP2002117028A (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
Hegde et al. Tagging Speech For Words In Low Resourced Monolingual Contexts of Sanskrit Shlokas