JPH07325826A - 日本語処理システム - Google Patents

日本語処理システム

Info

Publication number
JPH07325826A
JPH07325826A JP6117981A JP11798194A JPH07325826A JP H07325826 A JPH07325826 A JP H07325826A JP 6117981 A JP6117981 A JP 6117981A JP 11798194 A JP11798194 A JP 11798194A JP H07325826 A JPH07325826 A JP H07325826A
Authority
JP
Japan
Prior art keywords
word
dictionary
words
shaking
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6117981A
Other languages
English (en)
Inventor
Eiji Bessho
英治 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP6117981A priority Critical patent/JPH07325826A/ja
Publication of JPH07325826A publication Critical patent/JPH07325826A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 揺れ辞書及び類義語辞書の校正作業の効率を
高める。 【構成】 同じ意味又は類似の意味を持つ単語の表記方
法の違いについての情報として単語の表記と優先順位の
最も高い標準形単語とその他の単語をグループとして持
つ揺れ辞書又は類義語辞書を備えた日本語処理システム
において、文書ファイルから切り出した入力文書に含ま
れる単語を揺れ辞書(又は類義語辞書)から検索し(S
2)、検索された単語とその標準形及び同一揺れグルー
プの他の単語を一括表示し(S3)、表示された各単語
の中からユーザが置換をしようとする単語を選択し(S
4)、選択された単語を揺れ辞書(又は類義語辞書)の
標準形単語として自動変更する(S5)。これにより、
揺れ辞書の標準形単語をユーザが単語の選択のみで自由
に変更できるようにする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語処理システムに
係り、特に文書校正のための揺れ辞書及び類義語辞書の
学習処理に関する。
【0002】
【従来の技術】ワードプロセッサや機械翻訳、ドキュメ
ントデータベース、ハイパーテキストといったコンピュ
ータを使った自然言語処理が実用化されている。
【0003】このための自然言語解析は、まず解析対象
となる文章を形態素単位(語構成の最小単位)に区切
り、それぞれの形態素がもつ性質を明らかにする形態素
解析を行う。この後、自然言語の統語規則から解析する
構文解析、続いて曖昧性や漠然性を取り除く意味解析、
文脈解析を行う。
【0004】構文解析には、形態素解析された文を文法
を用いて正しい文であるか否かを判定し、正しい文のと
きはその構文解析結果として木構造(解析木)を得る。
【0005】この構文解析処理では、文法的な適合性の
みに着目しているため、構文的な曖昧性が発生し、多く
の構文木が生成されてしまう。この中から、正しい解析
木を選択するために、意味解析処理を行う。
【0006】意味解析処理では、単語の文法カテゴリ
(品詞に相当)だけでなく、その意味的な情報を利用す
る。
【0007】このような自然言語処理を行うために必要
な電子化辞書は、語彙を登録しておきプログラムからの
要求に応じてコンピュータからのアクセスによって該当
語を提供する。
【0008】この電子化辞書の種類は、日本語処理シス
テムには、語レベルの解析を可能にする品詞・接続情報
が保存される形態素解析辞書、音声合成のための発音記
号辞書、かな漢字変換のためのかな漢字表記辞書、国語
辞典の機能を持つ語彙の説明辞書、表記の揺れを含む揺
れ辞書、類義語辞書、漢和辞典の機能を持つ漢字辞書、
シソーラス辞書などがある。
【0009】また、辞書の検索には高速化を図るために
インデックスなどを持たせたもの、さらにはユーザカス
タマイズ機能として登録,削除,修正といった編集機能
を持たせたもの、また、構造化された辞書に余白に担当
する領域を設けてユーザ語のエリアとして活用したり、
別ファイルで管理するものもある。
【0010】このうち、揺れ辞書は、同じ意味を持つ単
語の表記方法の違いについての情報を持ち、そのデータ
構造は単語の表記と優先順位及びグループ指定にされ
る。この揺れ辞書の利用には、入力文を形態素解析した
単語に対し、次の方法、 (1)辞書に登録されている単語すべての検索。
【0011】(2)同一揺れグループ内で優先される標
準形と異なる単語すべての検索。
【0012】(3)検索された単語を標準形又は同一揺
れグループ内の単語と置換。
【0013】がある。
【0014】また、類義語辞書は、同様の意味を持つ単
語情報を持ち、そのデータ構造は単語の表記とそれらの
説明及び優先順位にされる。この類義語辞書の利用に
は、形態素解析した単語に対し、次の方法、 (1)辞書に登録されている単語すべての検索。
【0015】(2)類義語群の中で優先順位の最も高い
単語を置換候補とする。
【0016】(3)検索された単語を置換候補又は類義
語別の他の単語と置換。
【0017】がある。
【0018】
【発明が解決しようとする課題】揺れ辞書の標準形とな
る単語は、辞書作成時に固定のものにされ、ユーザによ
る自由な変更ができない。
【0019】これに対し、多数の文からなる文書には、
高い頻度で標準形単語とは異なる単語が繰り返し現れる
ことが多い。
【0020】このため、標準形と異なる単語が現れる度
に、複数の同じ揺れグループの単語を標準形以外の単語
について1つ1つ確認しながら置換処理をしていくこと
になり、ユーザが置換候補を毎回選ぶという繁雑な校正
作業を必要とする。
【0021】また、標準形と異なる揺れの単語は、文書
を解析処理するときにユーザが決めるルールによって
「この単語は、この表記にする」ということがあり、こ
の場合に置換候補となる標準形の単語は固定のため、揺
れグループ内では毎回同じものが現れ、標準形以外の単
語に統一したいときには、毎回置換候補を選び直さなけ
ればならない。
【0022】同様に、類義語辞書の最優先単語は、ユー
ザによる自由な変更ができないため、文書処理で同じ単
語が繰り返し使われている場合、又は「この意味は、こ
の単語を使って統一する」といったルールによって解析
処理する場合、当該単語が現れる度に他の適当な単語に
置換する繁雑な校正作業を必要とする。
【0023】本発明の目的は、揺れ辞書の校正作業及び
文書の揺れ単語の校正作業の効率を高める日本語処理シ
ステムを提供することにある。
【0024】本発明の他の目的は、類義語辞書の校正作
業及び文書の類義語の校正作業の効率を高める日本語処
理システムを提供することにある。
【0025】
【課題を解決するための手段】本発明は、前記課題の解
決を図るため、同じ意味を持つ単語の表記方法の違いに
ついての情報として単語の表記と優先順位の最も高い標
準形単語とその他の単語をグループとして持つ揺れ辞書
を備えた日本語処理システムにおいて、前記揺れ辞書の
標準形単語の変更処理は、文書ファイルから切り出した
入力文書に含まれる単語を揺れ辞書から検索し、検索さ
れた単語とその標準形及び同一揺れグループの他の単語
を一括表示し、表示された各単語の中からユーザが置換
をしようとする単語を選択し、選択された単語を揺れ辞
書の標準形単語として変更することを特徴とする。
【0026】また、本発明は、入力文書の形態素解析で
得る単語について、同じ意味を持つ単語の表記方法の違
いについての情報として単語の表記と優先順位の最も高
い標準形単語とその他の単語をグループとして持つ揺れ
辞書を使って表記の統一を行う日本語処理システムにお
いて、前記形態素解析処理で得る単語の表記の統一処理
は、入力文書の形態素を解析して揺れによる置換対象と
なる単語を取り出し、この置換対象となる単語について
前記揺れ辞書を参照して標準形単語及びグループ単語を
検索表示し、表示された各単語からユーザが標準形単語
と異なる単語に置換しようとするときは当該単語を置換
候補として選択し、選択された置換候補の単語を揺れ辞
書の標準形単語として置換しておくことを特徴とする。
【0027】また、本発明は、類義語辞書の標準形単語
の変更処理、及び単語の表記の統一処理に前記の揺れ辞
書に対する処理と同等の処理を行うことを特徴とする。
【0028】
【作用】 (第1の発明)揺れ辞書の標準形単語をユーザが自由に
変更できるようにする。この校正作業として、文書ファ
イルから適当に切り出した文書に含まれる単語を利用し
て揺れ辞書の自動検索を行い、標準形単語とグループ単
語の自動表示を行い、この表示単語の中からユーザが標
準形単語としようとする単語の選択によって揺れ辞書の
標準形単語の自動変更を行う。
【0029】類義語辞書の標準形単語の自動変更にも同
等の処理で可能とする。
【0030】(第2の発明)入力文書の形態素解析にお
いて、揺れを含む単語が現れたときにその表記を揺れ辞
書の標準形として一回置換しておくことにより、以後に
現れる当該単語の標準形は置換実行した単語表現が標準
形として現れ、表記の統一に置換作業が一回で済むよう
にする。
【0031】類義語辞書の表記の統一のための置換作業
も同等の処理で可能とする。
【0032】
【実施例】図1は、本発明の一実施例を示し、揺れ辞書
の標準形をユーザが変更するための校正処理手順図を示
す。以下、処理手順を説明する。
【0033】(S1)文書ファイルから適当な量の文書
を切り出し、これを入力文書とする。
【0034】(S2)揺れ辞書を利用して、入力した文
書中の単語の検索をする。
【0035】(S3)検索された単語と、その標準形及
び同一揺れグループの他の単語を一括表示する。
【0036】(S4)表示された各単語の中から、ユー
ザが置換をしようとする単語を選択する。この置換結果
は文書ファイルの当該単語を置換する。
【0037】(S5)選択された単語は、優先順位を最
高位とし、揺れ辞書中では標準形として学習される。
【0038】以上の処理により、1つの検索された単語
について揺れ辞書の標準形が変更され、以後は変更され
た単語がグループ内の標準形として利用される。
【0039】したがって、揺れ辞書の揺れの標準形をユ
ーザによって自由に変更できる。
【0040】また、揺れ辞書の標準形の変更は、文書入
力によりそれに含まれる単語についての標準形と揺れグ
ループの単語の一括表示が自動的に行なわれる。これに
より、ユーザは校正しようとする単語を捜し出してその
キー入力をするという作業を不要にし、表示単語の中か
ら標準形としようとする単語を選択操作するのみで済
み、校正作業を簡単にし、作業効率を高める。
【0041】本実施例において、揺れ辞書の標準形変更
に代えて、類義語辞書の標準形単語の変更に応用して同
等の作用効果を得ることができる。
【0042】図2は、本発明の他の実施例を示し、揺れ
辞書を使った文書の形態素解析処理のための校正処理手
順図を示す。以下、処理手順を説明する。
【0043】(S11)形態素解析対象となる文書を入
力する。
【0044】(S12)入力文書の形態素を解析し、揺
れによる置換対象となる単語を取り出す。
【0045】(S13)置換対象となる単語について、
揺れ辞書を利用して標準形単語及びグループ単語を検索
して表示する。
【0046】(S14)表示された各単語から標準形単
語と異なる単語に置換しようとするときは、当該単語を
置換候補として選択する。
【0047】(S15)選択された置換候補の単語を標
準形単語として決定する。
【0048】(S16)置換を実行する。
【0049】(S17)揺れ辞書を検索し、その揺れグ
ループの優先順位を変更し、標準形を変更する(自動学
習)。
【0050】したがって、入力文書の形態素解析におい
て、揺れを含む単語の標準形を一回置換しておけば、以
後に現れる当該単語の標準形は置換実行した単語表現が
標準形として現れ、当該単語が現れる度に置換を行う従
来の作業に比べて、単語置換作業が一回で済む。
【0051】図3は、本発明の他の実施例を示し、類義
語辞書を使った形態素解析処理を示す。本実施例は、図
2の揺れ辞書検索S13を類義語辞書検索S18に代え
た処理のみが異なる。
【0052】この類義語辞書の自動学習においても、一
回の置換処理によって以後の表記の統一に標準形への置
換作業を不要にする効果がある。
【0053】
【発明の効果】以上のとおり、本発明によれば、揺れ辞
書又は類義語辞書の標準形単語をユーザが自由に変更で
きるようにしたため、辞書の校正作業の効率を高める効
果がある。
【0054】また、本発明によれば、入力文書の形態素
解析において、揺れを含む単語又は類義語を持つ単語が
現れたときにその表記を揺れ辞書又は類義語辞書の標準
形として一回置換しておくようにしたため、表記の統一
のための置換作業が一回で済み、文書の校正作業の効率
を高める効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例を示す揺れ辞書の校正処理手
順図。
【図2】本発明の他の実施例を示す文書の単語の揺れ校
正処理手順図。
【図3】本発明の他の実施例を示す文書の類義語の校正
処理手順図。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 同じ意味を持つ単語の表記方法の違いに
    ついての情報として単語の表記と優先順位の最も高い標
    準形単語とその他の単語をグループとして持つ揺れ辞書
    を備えた日本語処理システムにおいて、 前記揺れ辞書の標準形単語の変更処理は、 文書ファイルから切り出した入力文書に含まれる単語を
    揺れ辞書から検索し、検索された単語とその標準形及び
    同一揺れグループの他の単語を一括表示し、表示された
    各単語の中からユーザが置換をしようとする単語を選択
    し、選択された単語を揺れ辞書の標準形単語として変更
    することを特徴とする日本語処理システム。
  2. 【請求項2】 入力文書の形態素解析で得る単語につい
    て、同じ意味を持つ単語の表記方法の違いについての情
    報として単語の表記と優先順位の最も高い標準形単語と
    その他の単語をグループとして持つ揺れ辞書を使って表
    記の統一を行う日本語処理システムにおいて、 前記形態素解析処理で得る単語の表記の統一処理は、 入力文書の形態素を解析して揺れによる置換対象となる
    単語を取り出し、この置換対象となる単語について前記
    揺れ辞書を参照して標準形単語及びグループ単語を検索
    表示し、表示された各単語からユーザが標準形単語と異
    なる単語に置換しようとするときは当該単語を置換候補
    として選択し、選択された置換候補の単語を揺れ辞書の
    標準形単語として置換しておくことを特徴とする日本語
    処理システム。
JP6117981A 1994-05-31 1994-05-31 日本語処理システム Pending JPH07325826A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6117981A JPH07325826A (ja) 1994-05-31 1994-05-31 日本語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6117981A JPH07325826A (ja) 1994-05-31 1994-05-31 日本語処理システム

Publications (1)

Publication Number Publication Date
JPH07325826A true JPH07325826A (ja) 1995-12-12

Family

ID=14725063

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6117981A Pending JPH07325826A (ja) 1994-05-31 1994-05-31 日本語処理システム

Country Status (1)

Country Link
JP (1) JPH07325826A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6047299A (en) * 1996-03-27 2000-04-04 Hitachi Business International, Ltd. Document composition supporting method and system, and electronic dictionary for terminology
JP2009009583A (ja) * 1999-11-17 2009-01-15 Microsoft Corp 構文パースを用いてセグメント化されていないテキストをセグメント化する方法
WO2011033653A1 (ja) * 2009-09-18 2011-03-24 株式会社東芝 用語統一支援装置
JP5696280B1 (ja) * 2014-04-08 2015-04-08 幸治 松村 用語統一システム及び用語統一プログラム、並びに用語統一方法
WO2022254843A1 (ja) * 2021-05-31 2022-12-08 ソニーグループ株式会社 情報処理装置および情報処理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6047299A (en) * 1996-03-27 2000-04-04 Hitachi Business International, Ltd. Document composition supporting method and system, and electronic dictionary for terminology
JP2009009583A (ja) * 1999-11-17 2009-01-15 Microsoft Corp 構文パースを用いてセグメント化されていないテキストをセグメント化する方法
WO2011033653A1 (ja) * 2009-09-18 2011-03-24 株式会社東芝 用語統一支援装置
JP5696280B1 (ja) * 2014-04-08 2015-04-08 幸治 松村 用語統一システム及び用語統一プログラム、並びに用語統一方法
WO2022254843A1 (ja) * 2021-05-31 2022-12-08 ソニーグループ株式会社 情報処理装置および情報処理方法

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
US20030101044A1 (en) Word, expression, and sentence translation management tool
JPH0411906B2 (ja)
JP2000315216A (ja) 自然言語検索方法および装置
JP2001195404A (ja) 句翻訳方法およびシステム
JP2002229981A (ja) 文字列の正規化表示を生成するシステム
US20070011160A1 (en) Literacy automation software
JPH0721183A (ja) 機械翻訳装置
KR20020072092A (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JPH0844771A (ja) 情報検索装置
JPH07325826A (ja) 日本語処理システム
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
JPH0877196A (ja) 文書情報抽出装置
JP2838984B2 (ja) 汎用参照装置
Souter et al. Using Parsed Corpora: A review of current practice
JP3666066B2 (ja) 多言語文書登録検索装置
JPH0561902A (ja) 機械翻訳システム
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JPH01126767A (ja) 辞書参照装置
JP2000029882A (ja) 要約文作成装置
JPH1021242A (ja) 機械翻訳装置及び機械翻訳後編集方法
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法