JPH0337763A - 自然言語処理方法 - Google Patents
自然言語処理方法Info
- Publication number
- JPH0337763A JPH0337763A JP1172453A JP17245389A JPH0337763A JP H0337763 A JPH0337763 A JP H0337763A JP 1172453 A JP1172453 A JP 1172453A JP 17245389 A JP17245389 A JP 17245389A JP H0337763 A JPH0337763 A JP H0337763A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- natural language
- japanese
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 title claims description 13
- 230000014509 gene expression Effects 0.000 claims description 2
- 238000013519 translation Methods 0.000 abstract description 28
- 238000012545 processing Methods 0.000 abstract description 17
- 230000000877 morphologic effect Effects 0.000 abstract description 6
- 230000014616 translation Effects 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 235000021167 banquet Nutrition 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(イ)産業上の利用分野
本発明は、機械翻訳システムや自然言語インタフェース
など自然言iiI処理方式に関するものである。
など自然言iiI処理方式に関するものである。
(ロ)従来の技術
近年、英日翻訳システムなど自然言語を扱った装置の実
用化開発が盛んに行bhており、このため自然言語の構
文解析、意味解析など自然言語処理に関する研究が注目
されている。
用化開発が盛んに行bhており、このため自然言語の構
文解析、意味解析など自然言語処理に関する研究が注目
されている。
このような自然言語処理においては、あらゆる意味で曖
昧さが大きな問題となる。即ち、曖昧さにも統語レベル
の曖昧さや意味レベルの曖昧さなど、さまざまなレベル
の曖昧さが存在する。
昧さが大きな問題となる。即ち、曖昧さにも統語レベル
の曖昧さや意味レベルの曖昧さなど、さまざまなレベル
の曖昧さが存在する。
このため、一般の文法規1111 (統語規則)では処
理できないような曖昧さを解消する一つの方法として、
語堂に依存した処理については辞書データに曖昧要因に
対する補充データを追加させることが考えられる。とこ
ろが、ある単語と他の単語との関係について、両単語の
語電に依存した情報を補充データとして持たせようとす
ると、単語の可能な組み合わせの数は膨大となり実用的
でない。
理できないような曖昧さを解消する一つの方法として、
語堂に依存した処理については辞書データに曖昧要因に
対する補充データを追加させることが考えられる。とこ
ろが、ある単語と他の単語との関係について、両単語の
語電に依存した情報を補充データとして持たせようとす
ると、単語の可能な組み合わせの数は膨大となり実用的
でない。
従って、単語を機能的・意味的分類することによって、
類似した単語を統一的に処理しようとする試みがある。
類似した単語を統一的に処理しようとする試みがある。
機械翻訳システムにおける訳語選択もその一例である。
訳語選択は、原言語の文を解析することによって得ふれ
る中間表現を入力として行われるが、IN! ts ’
AMのqL語に対して目標言3bの単語の候補として複
数考えられる場合に問題となる。これに関しては、その
単語が使われている環境(他の単語との関係)を調査す
ることによって最適な訳語を求ぬることが必要である。
る中間表現を入力として行われるが、IN! ts ’
AMのqL語に対して目標言3bの単語の候補として複
数考えられる場合に問題となる。これに関しては、その
単語が使われている環境(他の単語との関係)を調査す
ることによって最適な訳語を求ぬることが必要である。
その実現方法としては、一つの文章にある単語とこれに
関連する別の単語とかともに存在する時、両単語の共存
によって決められる現問を記述した共起情報を利用する
ことが考えられる(例えば、特開昭60−144869
号公報参照)。
関連する別の単語とかともに存在する時、両単語の共存
によって決められる現問を記述した共起情報を利用する
ことが考えられる(例えば、特開昭60−144869
号公報参照)。
(ハ)発明が解決しようとする課題
しかしながら、上述の如く、5bと語の共起に関する情
報を利用して曖昧さを克服しようとする従来の自然言語
処理方法では、以下のような問題があった。
報を利用して曖昧さを克服しようとする従来の自然言語
処理方法では、以下のような問題があった。
(]) 共起可能な単語の対は膨大であり、多量のデ
ータが必要である。
ータが必要である。
(2)類語を統一的に処理するためにシソーラスを利用
することも考えられるが、体系化するのは困難である。
することも考えられるが、体系化するのは困難である。
即ち、辞書データの不備やバラツキ、あるいは体系化の
方法によっては必ずしも有効に利用できない場合も考え
られる。
方法によっては必ずしも有効に利用できない場合も考え
られる。
本発明は、このような事情を考慮してなされたもので、
関連のある単語を語葉の特徴から統一的に処理すること
で、上記の問題を解1ばしようとするものである。
関連のある単語を語葉の特徴から統一的に処理すること
で、上記の問題を解1ばしようとするものである。
(ニ)問題点を解決するための手段
本発明の自然言語処理方法は、単語の形態的特徴を利用
して類似する単語の集合との共起関係を調べることによ
って、語堂に依存した処理について冗長なマツチング処
理を行わず、また、辞書データも大量の記憶容量を必要
とせず、効率的に処理を行なうことができるようにした
ものである。
して類似する単語の集合との共起関係を調べることによ
って、語堂に依存した処理について冗長なマツチング処
理を行わず、また、辞書データも大量の記憶容量を必要
とせず、効率的に処理を行なうことができるようにした
ものである。
(ホ)作用
単語と単語との共起関係、あるいは、単語と概念との共
起関係を利用することによって、自然言語が持つ曖昧さ
の解消を図ることが考えられる。
起関係を利用することによって、自然言語が持つ曖昧さ
の解消を図ることが考えられる。
本発明では、単語の形態的特徴を利用して、そのIlt
語が持つ概念を抽出し、その概念を1つのキーとして扱
い、その概念キーと特定の単語の共起関係を挟在する事
によって、抽出された概念集合と共起辞δに記述された
条件を満足すれば、語粟に依佇した処理が効率的に行な
える。
語が持つ概念を抽出し、その概念を1つのキーとして扱
い、その概念キーと特定の単語の共起関係を挟在する事
によって、抽出された概念集合と共起辞δに記述された
条件を満足すれば、語粟に依佇した処理が効率的に行な
える。
(へ)発明の実施例
以下に本発明の実施例につき説明する。
第1図は、本発明の一実施例を示す日英機械翻訳システ
ムのハードウェア構成図である。図において、11は原
文人力装置、12は翻訳処理装置、13は翻訳結果出力
装置、14は日本語解析辞書記憶装置、15は日英変換
辞書記憶装置、16は英語生成辞書記憶装置であする。
ムのハードウェア構成図である。図において、11は原
文人力装置、12は翻訳処理装置、13は翻訳結果出力
装置、14は日本語解析辞書記憶装置、15は日英変換
辞書記憶装置、16は英語生成辞書記憶装置であする。
E記日英変換辞書記憶装置1if15には、−殻内な訳
語を割り付けるための情報の他に、以下にさらに詳述す
るように、共起関係による訳語を選択できるような情報
が記述されている。
語を割り付けるための情報の他に、以下にさらに詳述す
るように、共起関係による訳語を選択できるような情報
が記述されている。
まず、入力装置11で入力された日本語文は、翻訳処理
装置12の内部で日本語解析辞書記憶装置14を参照し
ながら統語関係や意味関係が解析され、その結果として
概念(意味)構造が求められる。たとえば、次のような
日本語文、「晩餐会がホテルで開かれた」 が入力されると、解析処理部によって第2図に示すよう
な概念溝道が得られる。
装置12の内部で日本語解析辞書記憶装置14を参照し
ながら統語関係や意味関係が解析され、その結果として
概念(意味)構造が求められる。たとえば、次のような
日本語文、「晩餐会がホテルで開かれた」 が入力されると、解析処理部によって第2図に示すよう
な概念溝道が得られる。
即ち、入力21に対して、日本語解析処理部22は、動
作の概念を表すノードを中心とし、概念の要素であるノ
ードが特定の意味関係で結ばれているのを検知する。こ
の場合、「開く」という動作概念23の時制は[過去]
であり、「受動態」で使われていることを示している。
作の概念を表すノードを中心とし、概念の要素であるノ
ードが特定の意味関係で結ばれているのを検知する。こ
の場合、「開く」という動作概念23の時制は[過去]
であり、「受動態」で使われていることを示している。
そして、その動作の[対象]は「晩餐会」であり、[場
所]は「ホテル」であることを示している。
所]は「ホテル」であることを示している。
ここで、本発明の実施例を動詞の訳語選択について説明
を加える。
を加える。
原文解析で得られた上記概念構造23から目標言語の訳
語を求める必要がある。訳語を割り付けるために第1図
図示の日英変換辞書記憶装置4を参照することになるが
、「開く」という日本語の単語に対応する英語の単語の
候補はropenJrhold」など多数あり、入力文
中の「開くコの環境を参、+1(i Lなければ判断で
きない。そこで、単語とtlを語の共起関係あるいは、
単語と概念の共起関係を調べて最適な訳語を求めること
が必要になる。即ち、共起関係が記述されている辞書デ
ータの条件と人力交野の語組み合わせとのマツチングを
とって、照合すれば辞書に記述された訳語を9・える処
理が必要になる。
語を求める必要がある。訳語を割り付けるために第1図
図示の日英変換辞書記憶装置4を参照することになるが
、「開く」という日本語の単語に対応する英語の単語の
候補はropenJrhold」など多数あり、入力文
中の「開くコの環境を参、+1(i Lなければ判断で
きない。そこで、単語とtlを語の共起関係あるいは、
単語と概念の共起関係を調べて最適な訳語を求めること
が必要になる。即ち、共起関係が記述されている辞書デ
ータの条件と人力交野の語組み合わせとのマツチングを
とって、照合すれば辞書に記述された訳語を9・える処
理が必要になる。
二のような共起辞書には、ある単語の共起条件の内、E
深層格]、[共起するキー]に対応データが存在するi
It詔について、その訳語が記述されている。そこで、
上述の入力文の「開く」の対象格に「晩餐会」をとると
きの訳は「open」でなくて、rhold、、1であ
ることが記述されなければならない。
深層格]、[共起するキー]に対応データが存在するi
It詔について、その訳語が記述されている。そこで、
上述の入力文の「開く」の対象格に「晩餐会」をとると
きの訳は「open」でなくて、rhold、、1であ
ることが記述されなければならない。
ところが、111語の対は重大であり、あらゆる単語の
対を網羅して記述するのは困難である。そこで名詞を系
統的に意味分類して類似した単語の集合として共起関係
を記述する方法も考えられる。
対を網羅して記述するのは困難である。そこで名詞を系
統的に意味分類して類似した単語の集合として共起関係
を記述する方法も考えられる。
ただ、意味的分類は、分類作業が複雑であり、視点によ
って分類がはっきりしない場合も多い。
って分類がはっきりしない場合も多い。
本ざδ明では、単語の形態的特徴からキーとなる要素を
抽出し、形態的に類似した単語が持つ共通の概念の集合
との共起関係を調べることによって処理を行なうので、
形態的な類語について網羅する必要がないだけでなく、
単語の系統的な意味分類も不要である。
抽出し、形態的に類似した単語が持つ共通の概念の集合
との共起関係を調べることによって処理を行なうので、
形態的な類語について網羅する必要がないだけでなく、
単語の系統的な意味分類も不要である。
共起関係を利用した訳語選択のフローを第3図に示す。
第4図に「開く」の共起辞書の一例を示す。この3%g
には、「開く」の[対象格]に「会」という [共起す
るキー〕要素を持つ単語群をとる場合には、その時の訳
語はrhold」であると記述されている。
には、「開く」の[対象格]に「会」という [共起す
るキー〕要素を持つ単語群をとる場合には、その時の訳
語はrhold」であると記述されている。
この処理の入力として第2図に示すように「開く」とい
う動作の概念の対象格として「晩餐会」というノードが
結ばれている場合について、第3図のフローを用いて説
明する。
う動作の概念の対象格として「晩餐会」というノードが
結ばれている場合について、第3図のフローを用いて説
明する。
まず、対象格「晩餐会」というノードに着目して、その
口本語児出しを引数としてキー要素抽出処理部31に渡
される。この処理部31では、「晩餐会」というB語か
ら形態的な特徴を利用して特定の概念が抽出できないか
検査する。ここで、各111語の後ろ数文字に著目し「
会」がキーとなる要素を抽出する。「晩餐会」という単
語がら抽出された「会」というキー要素と「開く」とい
う概念が共起関係にあるがどうがマツチング部32で共
起辞書との照合を行なうつ この例の場合には、条件を)R足するので、「開く」の
訳語としてrholdjが訳語割付け33で与えられる
。もし、条件を満足しなければ、デフォルトの訳語割付
け34で、「開く」の通常訳ropellJが割り付け
られることになる。
口本語児出しを引数としてキー要素抽出処理部31に渡
される。この処理部31では、「晩餐会」というB語か
ら形態的な特徴を利用して特定の概念が抽出できないか
検査する。ここで、各111語の後ろ数文字に著目し「
会」がキーとなる要素を抽出する。「晩餐会」という単
語がら抽出された「会」というキー要素と「開く」とい
う概念が共起関係にあるがどうがマツチング部32で共
起辞書との照合を行なうつ この例の場合には、条件を)R足するので、「開く」の
訳語としてrholdjが訳語割付け33で与えられる
。もし、条件を満足しなければ、デフォルトの訳語割付
け34で、「開く」の通常訳ropellJが割り付け
られることになる。
このように、形態的特徴を利用して類似した単語群との
共起処理を利用して訳語選択を行なえば、「晩餐会」に
限らず、例えば、「常任委員会」、「尊覧会」なとの単
語を対象格にとっても「開く」の訳語として[hold
]が選択されることになる。
共起処理を利用して訳語選択を行なえば、「晩餐会」に
限らず、例えば、「常任委員会」、「尊覧会」なとの単
語を対象格にとっても「開く」の訳語として[hold
]が選択されることになる。
(ト)発明の効果
以上述べたように、本発明によれrr、、ii粟に依存
する処理において共起辞書に、共起する単語をすべて網
羅しなくてもよいので、共起辞書は簡潔に記述でき、辞
註の圧縮をはかることができる。
する処理において共起辞書に、共起する単語をすべて網
羅しなくてもよいので、共起辞書は簡潔に記述でき、辞
註の圧縮をはかることができる。
しかも、単語の意味分類のように複雑な辞書構築が不要
であり、バラツキが生じることなく、効率的に自然言語
処理を行なうことができる。
であり、バラツキが生じることなく、効率的に自然言語
処理を行なうことができる。
第1図は機械翻訳システムのF*或図、第2図は解析処
理を示す模式図、第3図は本発明による共起関係を利用
した訳語選択処理のフロー図、第4図は共起辞書のメモ
リ図である。 21・・・入力文、22・・・日本語解析処理部、23
・・・概念構造、31・・・キー要素抽出部、32・・
・マツチング部、33・・・訳語割付は部、34・・・
デフォルト訳語割付は部。
理を示す模式図、第3図は本発明による共起関係を利用
した訳語選択処理のフロー図、第4図は共起辞書のメモ
リ図である。 21・・・入力文、22・・・日本語解析処理部、23
・・・概念構造、31・・・キー要素抽出部、32・・
・マツチング部、33・・・訳語割付は部、34・・・
デフォルト訳語割付は部。
Claims (1)
- (1)第1の単語データと、該第1の単語が関係する第
2の単語の要素キーデータと、第1及び第2の単語の組
み合わせ表現に関係する共起関係情報とを対応づけて記
憶した共起関係辞書を備え、入力文を構成する第1の単
語データと第2の単語の要素キーデータとに基づき、上
記共起関係辞書を検索することによって共起関係情報を
得、該情報に基づいて入力文に対して自然言語処理を行
うことを特徴とした自然言語処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1172453A JPH0337763A (ja) | 1989-07-04 | 1989-07-04 | 自然言語処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1172453A JPH0337763A (ja) | 1989-07-04 | 1989-07-04 | 自然言語処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0337763A true JPH0337763A (ja) | 1991-02-19 |
Family
ID=15942269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1172453A Pending JPH0337763A (ja) | 1989-07-04 | 1989-07-04 | 自然言語処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0337763A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386457B2 (en) | 2011-06-22 | 2013-02-26 | International Business Machines Corporation | Using a dynamically-generated content-level newsworthiness rating to provide content recommendations |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6140663A (ja) * | 1984-07-31 | 1986-02-26 | Sharp Corp | 同音語選択方式 |
JPS6383868A (ja) * | 1986-09-29 | 1988-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 自然言語自動翻訳方式 |
-
1989
- 1989-07-04 JP JP1172453A patent/JPH0337763A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6140663A (ja) * | 1984-07-31 | 1986-02-26 | Sharp Corp | 同音語選択方式 |
JPS6383868A (ja) * | 1986-09-29 | 1988-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 自然言語自動翻訳方式 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386457B2 (en) | 2011-06-22 | 2013-02-26 | International Business Machines Corporation | Using a dynamically-generated content-level newsworthiness rating to provide content recommendations |
US8402034B2 (en) | 2011-06-22 | 2013-03-19 | International Business Machines Corporation | Using a dynamically-generated content-level newsworthiness rating to provide content recommendations |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
JP3906356B2 (ja) | 構文解析方法及び装置 | |
US7584092B2 (en) | Unsupervised learning of paraphrase/translation alternations and selective application thereof | |
US6965857B1 (en) | Method and apparatus for deriving information from written text | |
US7546235B2 (en) | Unsupervised learning of paraphrase/translation alternations and selective application thereof | |
JPS61163467A (ja) | 機械翻訳システム | |
JPS6299865A (ja) | 自然言語の共起関係辞書保守方法 | |
KR20080084803A (ko) | 교차-언어 지식 검색을 위한 시스템 및 방법 | |
Smadja et al. | Translating collocations for use in bilingual lexicons | |
Khoo et al. | Using statistical and contextual information to identify two‐and three‐character words in Chinese text | |
Sinhal et al. | Machine translation approaches and design aspects | |
JPH0337763A (ja) | 自然言語処理方法 | |
Tomita | Feasibility study of personal interactive machine translation systems | |
Sadler | The Textual Knowledge Bank: Design, Construction, Applications | |
Samantaray | A Data mining approach for resolving cases of Multiple Parsing in Machine Aided Translation of Indian Languages | |
Özateş et al. | A Hybrid Approach to Dependency Parsing: Combining Rules and Morphology with Deep Learning | |
Eineborg et al. | ILP in part-of-speech tagging—an overview | |
KR19990015131A (ko) | 영한 자동번역 시스템의 숙어 번역 방법 | |
JPS63132379A (ja) | 自然言語文生成方法 | |
Christensen | Danish knowledge patterns and word sketches for semi-automatic extraction of terminological information | |
Lee et al. | Alignment of bilingual named entities in parallel corpora using statistical model | |
Szpektor et al. | Cross lingual and semantic retrieval for cultural heritage appreciation | |
JPH0561902A (ja) | 機械翻訳システム | |
JP2002117028A (ja) | 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体 | |
Hegde et al. | Tagging Speech For Words In Low Resourced Monolingual Contexts of Sanskrit Shlokas |