JPH05158969A - 言語処理システム - Google Patents

言語処理システム

Info

Publication number
JPH05158969A
JPH05158969A JP3318076A JP31807691A JPH05158969A JP H05158969 A JPH05158969 A JP H05158969A JP 3318076 A JP3318076 A JP 3318076A JP 31807691 A JP31807691 A JP 31807691A JP H05158969 A JPH05158969 A JP H05158969A
Authority
JP
Japan
Prior art keywords
word
corpus
appearance
appearance frequency
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3318076A
Other languages
English (en)
Inventor
Takao Miyabe
隆夫 宮部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3318076A priority Critical patent/JPH05158969A/ja
Publication of JPH05158969A publication Critical patent/JPH05158969A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 文生成の対象分野に適した訳語が、人手によ
る選択なしに、自動的に選択できることを目的としてい
る。 【構成】 生成目標の自然言語で記述されると共に特定
の用途別に分類されたコーパスを管理するコーパス管理
手段11と、自然言語で記述されたテキストを単語単位
に分類する形態素解析手段12と、その単語に対して語
のデキスト内での出現度数を算出して格納する単語出現
度登録手段13および単語出現度格納手段14と、生成
目標の自然言語文を生成する訳文生成手段15と、単語
出現度情報を検索し確定する単語出現度検索手段17お
よび単語出現度確定手段16とで構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、生成目標言語の語彙選
択のための辞書学習を行う翻訳システム並びに文生成シ
ステム等の言語処理システムに関する。
【0002】
【従来の技術】翻訳システムなどの文生成機能をもつ言
語処理システムにおいては、入力テキスト内の各語彙に
対して、生成側の言語内でその意味や使用方が最も良く
対応する訳語(語彙)が選択される。但し、文作成者
が、テキストの種類に応じてあまり一般的でない特定の
訳語を要求する場合もある。
【0003】従来、上記のような特定の訳語を必要とす
る場合は、翻訳前にあらかじめ訳語の辞典を作成してお
くか、翻訳時或いはその後で翻訳者が訳語を指定した後
その情報システムが学習して対応していた。
【0004】
【発明が解決しようとする課題】上述した従来技術で
は、翻訳の前後に翻訳者自身による辞書作成、或いは語
彙指定の処理が必要であり、多大の人的工数を要する。
【0005】本発明の目的は、文生成の対象分野に適し
た語彙が、人手による選択なしに、自動的に選択できる
言語処理システムを選択することにある。
【0006】
【課題を解決するための手段】本発明の言語処理システ
ムは、生成目標の自然言語で記述されると共に特定の用
途別に分類されたコーパスを管理するコーパス管理手段
と、自然言語で記述されたテキストを単語単位に分類す
る形態素解析手段と、単語に対して語のデキスト内での
出現度数を算出し登録する単語出現度登録手段と、単語
に対するその出現頻度をもとめる単語出現度検索手段
と、単語とその出現度数を組みにして記憶する単語出現
度格納手段と、生成目標の自然言語の文を生成する訳文
生成手段と、前記単語出現度格納手段内の単語に対して
その出現度により優先順位を付与する単語出現度確定手
段とを有することを特徴とする。
【0007】
【作用】用途別に分類されたコーパスから単語の出現度
を算出し、この出現度により単語に対して優先順位を付
与することで、自動的に用途別の辞書学習を行う。
【0008】
【実施例】次に、本発明の実施例について、図面を参照
して説明する。
【0009】図1は本発明の一実施例を示す機能的なブ
ロック図である。図においてコーパス管理手段11は、
翻訳目的言語で記述されたコーパスを用途別に管理して
いる。特許、論文、報告書等、テキストの種別やさらに
その下位分類に従ってテキストを分別し、同種類、用途
のテキスト毎に1個のコーパスとして管理する。例えば
特許に関しては、機械翻訳の特許、データベースの特
許、CAIの特許等である。形態素解析手段12では、
この特定用途に分類されたコーパスを入力として、その
コーパスを単語単位に分類する。単語に対しては、活用
処理などの若干の形態的処理を施して標準型(日本語動
詞の終止形、英語動詞の不定型等)に修正する。日本語
で「翻訳し」を「翻訳する」にしたり、英語で「tra
nslating」を「translate」にしたり
する。
【0010】コーパスから抽出した単語のセットに対し
て、単語出現度登録手段13においては、その各単語に
対して出現度数を算出した後、その綴りとその出現度数
を対にして登録する。新規出現語彙に対しては、その単
語綴りと出現度(=1)を登録し、既出語に対してはそ
の出現度を(+1)増加する。(翻訳する、1)や(t
ranslate,5)などのようにする。全テキスト
について上記登録処理を行った後、単語出現度格納手段
14において当該コーパス名のもとに、出現した全単語
の単語綴りとその出現度数の対情報を記憶する。
【0011】例えば、日本語の文生成を考えてみる。
「機械翻訳特許」という機械翻訳関連特許のコーパス内
に、「コーパス」という語が14個含まれており、「形
態素解析」という語が1個、「パーサ」という語が16
個、「解析器」という語が11個含まれている場合は、
表1のようになる。
【0012】
【表1】 また、英語の文生成を考えてみると、「MT−pate
nt」という機械翻訳関連英文特許のコーパス内に、
「corpus」という語が14個含まれており、「M
T」という語が8個含まれており、「machine
translation」という語が4個、「pars
er」という語が12個含まれている場合は、表2のよ
うになる。
【0013】
【表2】 訳文生成手段15は、入力データに対して、目標言語で
その意味を表現する文を生成する。例えば、(日英/英
日)機械翻訳の場合は(英語/日本語)入力言語のテキ
ストを(日本語/英語)出力言語の文章に変換して生成
する。処理前に、訳語候補セットを受けて文中の語彙と
その訳語が一意に確定する場合はそのままその語彙を生
成する。一意に確定しない場合は、その訳語候補を、単
語出現度確定手段16に送る。単語出現度確定手段16
では、その候補の各語彙を、単語出現度検索手段17に
渡す。単語出現度検索手段17では、前記単語出現度格
納手段内の語彙とその出現度に関する情報を利用し、指
定されたコーパスにおける当該語彙に対する出現度を出
力する。当該語彙が単語出現度格納手段14中に存在し
ない場合は、頻度「0」を返す。このように、語彙毎に
出現度がもとまった後、単語出現度確定手段16では、
それを出現度順にソーティングし、その語彙の出現度順
序リストを訳文生成手段15に返す。訳文生成手段15
では、その出現度順序に従い、順次訳語候補として生成
を検討する。
【0014】例として、英日翻訳システムにおける日本
語の語彙選択をとりあげる。機械翻訳分野の英文特許内
のテキストに「corpus」という語があり、辞書中
にその訳語として「コーパス」と「例文集」の2者が存
在したとする。その場合は、上記の手順に従い、単語出
現度格納手段内の情報を参照する。上記の表1の例によ
ると、主現頻度はコーパス=14、例文集=0がもとま
る。つまり、機械翻訳分野での既存の日本語の特許例文
ではコーパスという語を使用し、例文集という語は使用
していないことになる。この場合は、頻度順に基づき、
「コーパス」を訳語候補とみなして生成処理をする。こ
れは、よく使用している語「コーパス」を用いる方が訳
語として適切という一般的事実と一致する。次に、「p
arser」という語に対しては、「パーサ」と「解析
器」の2訳語があり、その頻度を、表1に基づいて求め
る。するとパーサ=16、解析器=11がもとまり、そ
の頻度に従って、「パーサ/解析器」の出現順序リスト
が作られ、その順に生成を検討し、指定する。この場合
も、使用頻度の多い語を訳語として優先する。
【0015】上記例は、英日翻訳システムの日本語の例
であるが、本発明は生成言語に依存しない。例えば、日
英翻訳システムにおける英語生成を考えると、上記例と
同じく機械翻訳分野の特許で、テキスト中に「機械翻
訳」の語があり、「machine translat
ion」と「MT」の2個の対訳語があるとする。この
場合も、上記の手順に従い、単語出現度格納手段内の情
報を参照する。上記の表2の例によると、MT=8、m
achine translation=4がもとま
る。故に、この場合は、「MT」を第1訳語候補とみな
して生成処理し、必要に応じて第2候補の「machi
ne translation」を提示する。同様に、
「パーサ」という語に対して、「parser」「an
alyzer」の2対訳例があり、表2に従って頻度は
parser=12、analyzer=0となり、訳
語候補として「parser」が選択される。
【0016】このように、生成目標言語における関連分
野のテキストを用意しておけば、その文中での単語の出
現度を学習することによって、文生成の際、その分野で
通常使用される語彙を選択できることになる。また、こ
こでは特定分野毎のコーパスに順処して語彙設定基準が
変更可能な点も特徴である。例えば、上記例の「cor
pus」の訳語についても、機械翻訳関連の特許では
「コーパス」が最適な訳語であったとしても、論文や他
の分野の特許、あるいは報告書においては、「例文集」
の方が適切な場合は多い。これらの種々の場合をあらか
じめ分別して辞書に記述しておくことは不可能に近い。
また、対象テキストの分野が変わる毎にシステム利用者
が最適訳語を設定しなおすのは冗長であり、本発明のよ
うにコーパスを基にして、訳語選択の分類を設定するの
が有効である。
【0017】
【発明の効果】以上説明したように本発明は、コーパス
による分類にもとづいて辞書学習を行うことにより、生
成文書の対象分野に適合した訳語が自動的に選択でき
る。これにより、人間がここに訳語を指定する手間が省
けると共に、そのテキスト内での訳語の統一も実現でき
る。
【図面の簡単な説明】
【図1】本発明の一実施例を示す機能的なブロック図で
ある。
【符号の説明】
11 コーパス管理手段 12 形態素解析手段 13 単語出現度登録手段 14 単語出現度格納手段 15 訳文生成手段 16 単語出現度確定手段 17 単語出現度検索手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 生成目標言語の語彙選択のための辞書学
    習を行う言語処理システムにおいて、 生成目標の自然言語で記述されると共に特定の用途別に
    分類されたコーパスを管理するコーパス管理手段と、 自然言語で記述されたテキストを単語単位に分類する形
    態素解析手段と、 単語に対して語のデキスト内での出現度数を算出し登録
    する単語出現度登録手段と、 単語に対するその出現頻度をもとめる単語出現度検索手
    段と、 単語とその出現度数を組みにして記憶する単語出現度格
    納手段と、 生成目標の自然言語の文を生成する訳文生成手段と、 前記単語出現度格納手段内の単語に対してその出現度に
    より優先順位を付与する単語出現度確定手段とを有する
    ことを特徴とする言語処理システム。
JP3318076A 1991-12-02 1991-12-02 言語処理システム Pending JPH05158969A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3318076A JPH05158969A (ja) 1991-12-02 1991-12-02 言語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3318076A JPH05158969A (ja) 1991-12-02 1991-12-02 言語処理システム

Publications (1)

Publication Number Publication Date
JPH05158969A true JPH05158969A (ja) 1993-06-25

Family

ID=18095208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3318076A Pending JPH05158969A (ja) 1991-12-02 1991-12-02 言語処理システム

Country Status (1)

Country Link
JP (1) JPH05158969A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034871A (ja) * 2005-07-29 2007-02-08 Sanyo Electric Co Ltd 文字入力装置および文字入力装置プログラム
KR100792204B1 (ko) * 2005-12-05 2008-01-08 한국전자통신연구원 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
JP2015087823A (ja) * 2013-10-28 2015-05-07 富士通株式会社 情報処理装置、訳語選択方法、および情報処理システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007034871A (ja) * 2005-07-29 2007-02-08 Sanyo Electric Co Ltd 文字入力装置および文字入力装置プログラム
KR100792204B1 (ko) * 2005-12-05 2008-01-08 한국전자통신연구원 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
JP2015087823A (ja) * 2013-10-28 2015-05-07 富士通株式会社 情報処理装置、訳語選択方法、および情報処理システム

Similar Documents

Publication Publication Date Title
US5646840A (en) Language conversion system and text creating system using such
US9619464B2 (en) Networked language translation system and method
US20050171757A1 (en) Machine translation
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
US20050137853A1 (en) Machine translation
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JPS6299865A (ja) 自然言語の共起関係辞書保守方法
Deléger et al. Translating medical terminologies through word alignment in parallel text corpora
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
Menzel et al. Cohesion and coherence in multilingual contexts
RU2546064C1 (ru) Распределенная система и способ языкового перевода
Généreux et al. A large Portuguese corpus on-line: cleaning and preprocessing
JPH05158969A (ja) 言語処理システム
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
Povlsen et al. Evaluating text-types suitability for Machine Translation: a case study on an english-danish MT System.
Gaizauskas et al. Extracting bilingual terms from the Web
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
Kimura et al. Treatment of legal sentences including itemized and referential expressions–towards translation into logical forms
KR20200122089A (ko) 지역 색인을 이용한 전자문서 검색 방법 및 장치
JPH077416B2 (ja) 用語集自動作成方式
Negri et al. Automatic translation memory cleaning
JPH0561902A (ja) 機械翻訳システム
JP3353647B2 (ja) 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体
JPH02289060A (ja) 文書抄録作成装置