JPH0869467A - 日本語文書処理装置 - Google Patents

日本語文書処理装置

Info

Publication number
JPH0869467A
JPH0869467A JP6203102A JP20310294A JPH0869467A JP H0869467 A JPH0869467 A JP H0869467A JP 6203102 A JP6203102 A JP 6203102A JP 20310294 A JP20310294 A JP 20310294A JP H0869467 A JPH0869467 A JP H0869467A
Authority
JP
Japan
Prior art keywords
word
words
notation
identity
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6203102A
Other languages
English (en)
Inventor
Jun Ibuki
潤 伊吹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6203102A priority Critical patent/JPH0869467A/ja
Publication of JPH0869467A publication Critical patent/JPH0869467A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】日本語文書処理装置に関し、辞書容量の増大等
を伴うことなく、異なる表記で記述される同一の語句を
含む日本語文書を的確に処理できるものを提供すること
を目的とする。 【構成】テキスト中から単語を抽出する単語抽出部10
と、単語を作る文字種を特定する構成字種判定部11
と、単語の音を解析する発音解析部12と、異表記の単
語ペアを抽出する単語リスト生成部13と、文字種間の
置換可能性を判定する置換可能性判定部14と、音解析
の結果に基づいて異表記の単語ペアの同一性を判定する
同一性判定部15とを設けることにより構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文書に含まれる
同一の単語が、複数の表記を持つことに起因して生じる
様々な問題、例えば辞書容量の増大、辞書中の単語とテ
キスト中の単語との不一致等、を解決するための装置に
関する。
【0002】
【従来の技術】日本語文書では漢字、平仮名、片仮名、
アルファベット等、様々な字種が混在するので、同一単
語が異なる字種によって表現される場合がある。また、
同一単語が同一の字種によって表現される場合でも、長
音や撥音の表記等により様々な差異が存在する。
【0003】これらの差異は自然言語解析システムの形
態素解析部での解析エラーや、キーワード指定によるD
B検索の際の検索洩れ等の言語処理の様々な場面で問題
を引き起こしてきた。
【0004】こうした差異を扱うためには、ある単語に
対し可能と思われる表記を全て洩れなくシステムに登録
することが必要になる。しかし、これは辞書登録、保守
作業に新たな負荷を招き、かつ辞書容量の増大という副
作用をもたらす。
【0005】こうした問題を解決するために、使用する
文字種を限定して片仮名語句の異表記の検出、漢字仮名
混じりの単語の送り仮名のバリエーションなどに対象を
限定した異表記の検出、標準化のためのシステムが数種
考案されている。
【0006】
【発明が解決しようとする問題点】上述のように、使用
する文字種を限定した従来のシステムでは、取り扱うこ
とができる文書対象が限定され、実際にテキスト中に存
在する異表記の全てを扱うことができない、あるいは異
表記の判定ルールが複雑になって異表記のどの部分がル
ールによってカバーされるかが判りにくいなどの問題が
あった。
【0007】この解決手段として、システム中に全ての
表記のバリエーションについて登録する方法が考えられ
るが、そのことは辞書の登録、保守作業に大きな負担と
なり更に辞書容量の増大という新たな問題を引き起こす
ことになる。また、同一単語に複数の表記が並立するテ
キストは他人にとって読みづらく、正式の文書とするた
めには同一表記への統一作業が必要となる。
【0008】本発明は、このような従来の問題点に鑑み
て為されたものであり、辞書容量の増大等を伴うことな
く、異なる表記で記述される同一の語句を含む日本語文
書を処理することができる装置を提供することを目的と
する。
【0009】
【問題点を解決するための手段】本発明によれば、上述
の目的は、前記特許請求の範囲に記載した手段にて達成
される。
【0010】すなわち、請求項1の発明は、図1の原理
図に示されるように、日本語文書のテキスト中から単語
を抽出する単語抽出部10と、単語を作る文字種を特定
する構成字種判定部11と、単語の音を解析する発音解
析部12と、異表記の単語セットを抽出する単語リスト
生成部13と、文字種間の置換可能性を判定する置換可
能性判定部14と、音解析の結果に基づいて前記異表記
の単語セットの同一性を判定する発音同一性判定部15
とを設ける日本語文書処理装置である。
【0011】また、請求項2の発明は、図2(a)の原
理図に示されるように、発音を元にして単語をカテゴリ
別に分類するための指定キーを付与する機能20と、指
定キーに基づいて単語をソートする機能21と、単語を
カテゴリ別に分類する機能22とを有し、カテゴリ別に
単語セットの同一性判定を行う同一性判定部を設ける日
本語文書処理装置である。
【0012】また、請求項3の発明は、図2(b)の原
理図に示されるように、単語セットの単語リストを入力
して、どの表記を標準表記とすべきかを判断する標準表
記判定部25と、標準表記以外の単語を検出して標準表
記への置き換えを行う表記変換部26とを設ける日本語
文書処理装置である。
【0013】また、請求項4の発明は、図3の原理図に
示されるように、日本語文書のテキスト中から単語を抽
出する単語抽出部30と、単語の構成文字種を判定する
字種判定部31と、標準化の必要な単語のみを選択する
標準化必要性判定部32と、単語の発音を解析する発音
解析部33と、単語を発音表現から文字表現へ逆変換す
る単語表記生成部34とを設ける日本語文書処理装置で
ある。
【0014】
【作用】本発明によれば、単語中に様々な表記の揺れ
(カタカナ表記の仕方、アルファベット表記とカタカナ
表記との違い、漢字を平仮名で置き換える等)が存在し
た場合でも、二つの単語が同一のものか否かの判断を、
辞書情報の整備に大きな負担をかけることなく実現でき
る。
【0015】まず、請求項1の発明の作用を図1を参照
して説明する。図中、入力テキストは単語抽出部10に
渡される。単語抽出部10では、テキスト中に出現する
単語群の表記とその出現頻度・生起回数等が調べられ、
例えば語彙リストが生成される。構成字種判定部11で
は、語彙リストにリストアップされた単語を構成する字
種が調べられる。
【0016】発音解析部12では、必要に応じて辞書情
報、発音解析規則等を使用することにより単語の発音解
析が為される。単語リスト生成部13では、リストアッ
プされた単語情報が蓄積され、同一性の比較・判定対象
となる単語ペアのリスト(単語リスト)が生成される。
【0017】置換可能性判定部14では、必要に応じて
置換可能性判定テーブル16が参照され、対応する字種
間の置換が可能であるか否かの判断が為されて、置換可
能なものだけが”どの同一性判定規則を利用すべきか”
の情報と共に出力される。
【0018】同一性判定部15では、指定された同一性
判定規則17が参照され、発音解析部12の解析結果を
受けて、二つの単語の発音が同一のものと判定できるか
否かが判断される。このようにして、異表記の単語ペア
が同一のものか否かの判断ができ、請求項1の発明は最
終結果として異表記をもつ同一単語のリストを生成す
る。
【0019】次に、請求項2の発明の作用を図2(a)
を参照して説明する。図中、カテゴリ指定キーの付与機
能20では、各単語に対してカテゴリを指定するための
キーが付与される。ソート機能21では、カテゴリー指
定キーによるソートが為される。
【0020】カテゴリのグループ化機能22では、カテ
ゴリ指定キーが同一のものを一つのカテゴリとしてまと
めて出力し、この中から同一性判定の候補を生成する。
ここでカテゴリ指定キーは同一性判定規則17を適用し
て、同一と判断できる表記であれば、皆一つのカテゴリ
とみなすように決定することができる。
【0021】次に、請求項3の発明の作用を図2(b)
を参照して説明する。請求項3の発明は、同一性判定部
15の出力である同一単語の異表記のリストを入力す
る。図中、標準表記判定部25では単語の出現頻度等の
情報からどの表記を標準表記として採用するかが判断さ
れる。表記変換部26はテキスト中の標準表記以外の異
表記の検出と標準表記による置換を行う。こうして表記
の標準化されたテキストが最終出力として得られる。
【0022】次に、請求項4の発明の作用を図3を参照
して説明する。請求項4の発明では、請求項3の発明と
同様に表記を標準化することができる。図中、単語抽出
部30ではテキスト解析によりテキストを構成する単語
が抽出される。構成字種判定部31では単語の構成文字
の種別が判定される。標準化必要性判定部32では標準
化の必要な字種で構成される単語だけが選択される。発
音解析部33では単語の表記が一旦発音によるものへ変
換される。単語表記生成部34では、発音表現から単語
の文字表現への逆変換が行われ、表記の標準化が為され
る。
【0023】
【実施例】まず、カタカナ語句同士の表記の揺れを処理
する場合における本願発明の実施例を説明する。図4
(a)はカタカナ単語に対する発音の解析結果の一例を
示すものである。ここではローマ字の表記を利用して母
音、子音に分けて発音の解析結果を得ている。
【0024】図5は置換可能性判定テーブルの実施例を
示すものであり、これを参照するとカタカナ単語同士の
比較が可能であり、同等性判定テーブルとしてはテーブ
ルBが指定されていることが分かる。
【0025】図4(b)はテーブルB(カタカナ語句に
対する同一性判定テーブル)の一例を示すものである。
一つ目のデータは長音記号「ー」がないものとあるもの
同士が同一のものであると判定できることを示してい
る。2つ目のデータは母音ウが連続する場合、その一方
を省略した表記も同等とみなせることを示している。
【0026】次に、アルファベット語句同士の表記の揺
れを処理する場合における本願発明の実施例を説明す
る。図6(a),(b)はアルファベット単語に対する
発音の解析結果を例示するものである。ここでは小文字
から大文字に変化するところにセパレータをつけ、後は
全てを小文字化する処理を行っている。これによって特
にセパレータの種類の違いによる表記の揺れを吸収する
ことができる。
【0027】図5の置換可能性判定テーブルを参照する
と、アルファベット単語同士の比較が可能であり、同等
性判定テーブルとしてはテーブルCが指定されている。
図6(c)はテーブルC(アルファベット語句に対する
同一性判定テーブル)の例である。ここではいわゆる略
語表記と”Full Spelling”の表記を同等
なものと判断するためのデータが示されている。
【0028】図6(c)に示す一つ目のデータにより、 ‘operating’と‘O.’ が同等のものと判断できることが分かる。また、2つ目
のデータにより、 ‘system’と‘S.’ を同等とみなせることが分かる。
【0029】続いて、アルファベット単語とカタカナ単
語との同一性を処理する場合における本願発明の実施例
を説明する。図7(a)はアルファベット単語に対する
発音の解析結果とカタカナ語句の発音解析結果を例示す
るものである。図5の置換可能性判定テーブルを参照す
ると、アルファベット単語とカタカナ単語との比較が可
能であり、同等性判定テーブルとしてはテーブルAが指
定されている。
【0030】図7(b)はテーブルA(アルファベット
語句対カタカナ語句に対する同一性判定テーブル)の例
である。一つ目のデータではいわゆる英語の‘er’の
発音とそれに対するカタカナ表記(ア、アー)の発音の
対応可能性が示されている。また2つ目のデータでは英
語のmの発音が日本語ではn’(ん),m(ま行音)で
示され得ることが示されている。
【0031】最後に、漢字語句の表記の揺れを処理する
場合における本願発明の実施例を説明する。図8(a)
は漢字語句の発音の解析結果を例示するものである。図
5の置換可能性判定テーブルを参照すると、漢字語句同
士の比較が可能であり、同等性判定テーブルとしてはテ
ーブルCが指定されているが、この場合は特に不図示の
データの記述がないため、発音の完全一致する場合のみ
同一のものとして扱うことになる。
【0032】
【発明の効果】以上説明したように、本発明によれば、
辞書情報の整備に大きな負担をかけることなく、テキス
ト中に混在する同一語句の様々な表記を統一して処理す
ることが可能となる。
【0033】また、形態素解析における辞書中の単語と
テキスト中のストリングとの比較をする部分に本発明に
よる同一性判定部を用いることによって、基本的に一つ
の単語に対して一つの辞書データを整備するだけで、単
語のもつ様々な表記全てを未登録の単語とせずに解析す
ることができる。
【0034】さらに、データベース検索におけるDB側
に登録されたキーワードとユーザの指定したキーワード
の比較に本発明による同一性判定部を用いることによっ
て、これまでに検索もれを引き起こしていたような場合
にも所望のデータを検索することができるようになる。
【図面の簡単な説明】
【図1】請求項1の発明に対応する原理図である。
【図2】請求項2及び請求項3の発明に対応する原理図
である。
【図3】請求項4の発明に対応する原理図である。
【図4】カタカナ語句同士の表記の差異の処理例を示す
図である。
【図5】置換可能性判定テーブルの一例を示す図であ
る。
【図6】アルファベット語句同士の表記の差異の処理例
を示す図である。
【図7】カタカナ単語とアルファベット単語との表記の
差異の処理例を示す図である。
【図8】漢字単語同士の表記の差異の処理例を示す図で
ある。
【符号の説明】
10,30 単語抽出部 11,31 構成字種判定部 12,33 発音解析部 13 単語リスト生成部 14 置換可能性判定部 15 同一性判定部 16 置換可能性判定テーブル 17 同一性判定規則 20 指定キーの付与機能 21 指定キーによるソート機能 22 カテゴリのグループ化機能 25 標準表記判定部 26 表記変換部 32 標準化必要性判定部 34 単語表記生成部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】異なる表記で記述される同一の語句を含む
    日本語文書を処理する装置において、 日本語文書のテキスト中から単語を抽出する単語抽出部
    と、単語を作る文字種を特定する構成字種判定部と、単
    語の音を解析する発音解析部と、異表記の単語セットを
    抽出する単語リスト生成部と、文字種間の置換可能性を
    判定する置換可能性判定部と、音解析の結果に基づいて
    前記異表記の単語セットの同一性を判定する同一性判定
    部とを設けることを特徴とする日本語文書処理装置。
  2. 【請求項2】発音を元にして単語をカテゴリ別に分類す
    るための指定キーを付与する機能と、指定キーに基づい
    て単語をソートする機能と、単語をカテゴリ別に分類す
    る機能とを有し、カテゴリ別に単語セットの同一性判定
    を行う同一性判定部を設ける請求項1記載の日本語文書
    処理装置。
  3. 【請求項3】単語セットの単語リストを入力して、どの
    表記を標準表記とすべきかを判断する標準表記判定部
    と、標準表記以外の単語を検出して標準表記への置き換
    えを行う表記変換部とを設ける請求項1記載の日本語文
    書処理装置。
  4. 【請求項4】単語の構成文字種に基づいて、標準化の必
    要な単語のみを選択する標準化必要性判定部と、単語を
    発音表現から文字表現へ逆変換する単語表記生成部とを
    設ける請求項1記載の日本語文書処理装置。
JP6203102A 1994-08-29 1994-08-29 日本語文書処理装置 Withdrawn JPH0869467A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6203102A JPH0869467A (ja) 1994-08-29 1994-08-29 日本語文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6203102A JPH0869467A (ja) 1994-08-29 1994-08-29 日本語文書処理装置

Publications (1)

Publication Number Publication Date
JPH0869467A true JPH0869467A (ja) 1996-03-12

Family

ID=16468428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6203102A Withdrawn JPH0869467A (ja) 1994-08-29 1994-08-29 日本語文書処理装置

Country Status (1)

Country Link
JP (1) JPH0869467A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059389A (ja) * 2006-08-31 2008-03-13 Mizuho Information & Research Institute Inc 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
WO2022029848A1 (ja) * 2020-08-03 2022-02-10 日本電信電話株式会社 判定装置、判定方法、および、判定プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059389A (ja) * 2006-08-31 2008-03-13 Mizuho Information & Research Institute Inc 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
WO2022029848A1 (ja) * 2020-08-03 2022-02-10 日本電信電話株式会社 判定装置、判定方法、および、判定プログラム

Similar Documents

Publication Publication Date Title
US7328404B2 (en) Method for predicting the readings of japanese ideographs
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Lehal et al. A shape based post processor for Gurmukhi OCR
JP4278011B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH0869467A (ja) 日本語文書処理装置
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
KR0123403B1 (ko) 한·영 자동 전환 방법
JPH01266670A (ja) 日本語対象文固有用語抽出処理装置
JPH0363767A (ja) テキスト音声合成装置
Zhdanova Automatic identification of European languages
JPS58192129A (ja) カナ漢字変換装置
Sterneberg Language identification of person names using cascaded SVMs
KR100268297B1 (ko) 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JPS62180462A (ja) 音声入力かな漢字変換装置
Kawada Inputting Japanese from the keyboard
JPS63163956A (ja) 文書作成・校正支援装置
Jung et al. Grapheme-to-phoneme conversion of Arabic numeral expressions for embedded TTS systems
JPH06149872A (ja) 文章入力装置

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20011106