JPH096780A - 自然言語解析方法及びその装置 - Google Patents

自然言語解析方法及びその装置

Info

Publication number
JPH096780A
JPH096780A JP7148727A JP14872795A JPH096780A JP H096780 A JPH096780 A JP H096780A JP 7148727 A JP7148727 A JP 7148727A JP 14872795 A JP14872795 A JP 14872795A JP H096780 A JPH096780 A JP H096780A
Authority
JP
Japan
Prior art keywords
word
importance
natural language
likelihood
language analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7148727A
Other languages
English (en)
Inventor
Makoto Hirota
誠 廣田
Kazue Kaneko
和恵 金子
Michio Aizawa
道雄 相澤
Tsuyoshi Yagisawa
津義 八木沢
Minoru Fujita
稔 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP7148727A priority Critical patent/JPH096780A/ja
Publication of JPH096780A publication Critical patent/JPH096780A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 出現頻度に基づく単語重要度からだけでは明
確な優先度付けが困難な場合でも、適切な同形語判別を
行なうことを可能とする自然言語解析方法及びその装置
を提供することを目的とする。 【構成】 自然言語文中の同形語をその尤度と文中の他
の単語との文法的な関係や意味的な関係とに基づいて判
別する自然言語解析方法であって、単語に関する情報と
して、すくなくとも前記単語の重要度を表すデータ(単
語重要度)と、前記単語の複数の表記法と、前記表記法
のそれぞれに対する重要度を表すデータ(表示重要度)
とを記憶し、前記単語の重要度と単語の表記の重要度と
を用いて、適切な同形語の判別を行なう。前記判別工程
は、前記単語の重要度と単語の表記の重要度とを用いた
尤度の計算を含む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は自然言語解析方法及びそ
の装置、特に自然言語で書かれた文を形態素解析し、同
形語(別の単語でありながらお互いに同じ表記を持つ単
語)の判別を適切に行なうことのできる自然言語解析方
法及びその装置に関するものである。解析結果は、例え
ば機械翻訳システムや音声合成システム、文書検索シス
テム等に使用される。
【0002】
【従来の技術】自然言語を形態素解析する上で重要な処
理の1つに、同形語の判別がある。これは、別の単語で
ありながらお互いに同じ表記を持つ単語が文中に現れた
場合、いずれが正しいかを判別するものである。従来か
ら、同形語を判別する手法としては、単語の出現頻度に
基づく単語重要度を用いる方法、文中の他の単語との文
法的な関係や意味的な関係を用いる方法などがある。一
般にはこれらの方法を互いに融合した形で同形語の選択
が行われる。
【0003】このうち、単語重要度を用いる方法は、単
語の使用頻度等に基づいて定義される重要度をあらかじ
め辞書情報として記憶しておき、同形語の候補の中で単
語重要度の高いものを優先的に選択するというものであ
る。例えば、“心”と表記する単語には名詞の<心>の
他に、「少し」という意味を持つ副詞の<心>がある
(例えば、心もち…等)。この場合、前者の方が単語重
要度が高いため、名詞の<心>が選択される。
【0004】
【発明が解決しようとする課題】しかしながら、単語重
要度は上記のように単語の使用頻度等に基づいて定義さ
れるため、例えば、“数々”と表記する単語には副詞あ
るいは名詞の<かずかず(の)>の他に、<しばしば>
という副詞の使用もあり、単語の使用頻度の点からみて
もどちらも重要な単語であり、明らかに<かずかず
(の)>の方が可能性が高いにも係わらず適切な選択が
できない場合があった。
【0005】本発明は、上述した従来の問題点を解決
し、出現頻度に基づく単語重要度からだけでは明確な優
先度付けが困難な場合でも、適切な同形語判別を行なう
ことを可能とする自然言語解析方法及びその装置を提供
することを目的とする。
【0006】
【課題を解決するための手段】この目的を達成するため
に、本発明の自然言語解析装置は、自然言語文中の同形
語をその尤度と文中の他の単語との文法的な関係や意味
的な関係とに基づいて判別する自然言語解析方法であっ
て、単語に関する情報として、すくなくとも前記単語の
重要度を表すデータと、前記単語の複数の表記法と、前
記表記法のそれぞれに対する重要度を表すデータとを記
憶し、前記単語の重要度と単語の表記の重要度とを用い
て、適切な同形語の判別を行なうことを特徴とする。こ
こで、前記判別工程は、前記単語の重要度と単語の表記
の重要度とを用いた尤度の計算を含む。また、前記尤度
の計算は、前記単語の重要度と単語の表記の重要度との
積である。
【0007】又、前記自然言語解析方法は機械翻訳シス
テム、あるいは音声合成システム、あるいは文書検索シ
ステムに適用される。又、本発明の自然言語解析装置
は、自然言語文中の同形語をその尤度と文中の他の単語
との文法的な関係や意味的な関係とに基づいて判別する
自然言語解析装置であって、単語に関する情報として、
すくなくとも前記単語の重要度を表すデータと、前記単
語の複数の表記法と、前記表記法のそれぞれに対する重
要度を表すデータとを持つ辞書と、前記辞書の単語重要
度と単語の表記重要度を用いて、適切な同形語の判別を
行なう同形語判別手段を備えることを特徴とする。ここ
で、前記同形語判別手段は、前記単語の重要度と単語の
表記の重要度とを用いて尤度を計算する尤度計算手段を
含む。また、前記尤度計算手段は、前記単語の重要度と
単語の表記の重要度との積を尤度とする。
【0008】又、本発明の記憶媒体は、自然言語文中の
同形語をその尤度と文中の他の単語との文法的な関係や
意味的な関係とに基づいて判別する自然言語解析装置に
適用される記憶媒体であって、単語に関する情報とし
て、すくなくとも前記単語の重要度を表すデータと、前
記単語の複数の表記法と、前記表記法のそれぞれに対す
る重要度を表すデータとを持つ辞書を記憶することを特
徴とする。ここで、前記辞書の単語重要度と単語の表記
重要度を用いて尤度を計算し、適切な同形語の判別を行
なう同形語判別プログラムを更に記憶する。
【0009】
【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。 <自然言語解析装置の構成例>図1は、本実施例の自然
言語解析装置のシステム構成例を示すブロック図であ
る。
【0010】同図において、11は、尤度算出部12で
算出された尤度と文法/意味情報抽出部13で抽出され
た文法/意味情報とから同形語を判別する同形語判別
部、12は、単語の重要度と表記の重要度とから尤度を
算出する尤度算出部、13は、単語の品詞や意味から文
法/意味情報を抽出する文法/意味情報抽出部、14は
単語の重要度と表記の重要度とを各単語について記憶す
る辞書である。尚、図1は概念的図であって、同形語判
別部11が尤度算出部12や文法/意味情報抽出部13
を含むと考えても良い。
【0011】同形語判別部11に入力された同形語集合
は、適切な単語を判別されて判別結果として出力され
る。出力された判別結果は、例えば機械翻訳システムに
おいて、同形語が現れても適切な訳語を割り当てる処理
に適用される。また、音声合成システムにおいて、文中
の単語に適切な読みを付与する処理に適用される。図2
は、本実施例の自然言語解析装置のハードウエア構成例
を示すブロック図である。
【0012】21は、本自然言語解析装置を制御する演
算・制御用のCPU、22は、CPU21の制御手順を
記憶する制御メモリで、例えばシステム制御プログラム
22a、同形語判別プログラム22bが格納されてい
る。尚、同形語判別は、本例のようにソフトウエアで実
行しても良いし、ニューロコンピュータ等を使ってハー
ドウエアで実行しても良い。また、ソフトウエアの場
合、以下に示す外部記憶部24からロードされるように
構成しても良い。23は、解析される入力文を保持する
入力文保持部23a、解析結果を保持する解析結果保持
部23b、CPU21による解析中のデータを一時記憶
するワークエリア23c等を有するデータメモリであ
る。上記制御メモリ22及びデータメモリ23は、RO
MあるいはRAMで構成される。
【0013】24は、本実施例の解析で使用される辞書
24aを格納する、フロッピーディスクやハードディス
ク、CDROM等から成る外部記憶部であり、辞書24
a内の各単語は単語重要度24bと表記重要度24cを
有している。25は、キーボード25aやマウス25b
やマイク25c等からのデータ及び指令を入力するため
の入力インタフェースであり、26は、CRT等の表示
部26aやプリンタ26bやスピーカ26c等にデータ
や解析結果を出力するための出力インターフェースであ
る。27は、上記各構成要素をつなぐバスである。尚、
入力文は、外部記憶部24から入力されてもキーボード
25aから入力されても良い。また、マイク26cから
の音声入力を認識し、文字列に変換したものでもよい。
【0014】図4,図5の左側には、辞書24a内の各
単語が有する単語重要度24bと表記重要度24cの例
が示されている。例えば、<しばしば>という単語の単
語重要度は“5”であり、表記重要度は<しばしば>が
“5”、<数々>及び<屡(々)>が“1”である。 <自然言語解析装置の処理例>まず、本実施例の表記重
要度の利用について説明すると、同形語判別は、表記か
ら単語を同定する処理であるから、単語の表記重要度が
重要な情報となる。例えば、“彼の”という表記があっ
た場合、<かれ(名詞)>+<の(格助詞)>という解
釈のほかに、<あの(連体詞)>という解釈がある。こ
れらは、いずれも出現頻度の高い重要語であるから、単
純に単語重要度からだけでは明確な優先度付けはできな
い。ここで表記重要度を考慮すると、<かれ(名詞)>
という単語は“彼”という表記をよく用いる(“彼”の
表記重要度が高い)が<あの(連体詞)>は普通“あ
の”とひらがな表記し、“彼の”という表記はめったに
用いない(“彼の”の表記重要度が低い)、という点か
ら、“彼の”の解釈としては<かれ(名詞)>+<の
(格助詞)>の方が適切と判断できる。
【0015】次に、図3に示すフローチャートを参照し
て、本装置の動作を説明する。まず、表記“S”を持つ
同形語群W1 ,W2 ,…,WN が入力される(S3
1)。次に、変数の初期設定を行なう(S32)。ここ
から、各候補である単語W n について、“S”の解釈が
n である尤度E(Wn |“S”)を算出する。辞書か
らWn の重要度E(Wn )と、Wn を“S”と表記する
表記重要度E(“S”|Wn )を取り出す(S33)。
これらを用いて、E(Wn |“S”)を、 E(Wn |“S”)=E(Wn )×E(“S”|Wn ) のように計算する(S34)。これをn=1,2,…,
Nについて行なう(S35,S36)。こうしてすべて
の候補について尤度計算ができたら、この尤度と文法情
報や意味情報を合わせて、同形語の判別を行なう(S3
7)。
【0016】尚、本実施例では、文法情報や意味情報に
ついて詳細に説明しないが、尤度と文法情報や意味情報
を合わせて同形語の判別を行なう技術は既知であり、本
発明の特徴は表記重要度を用いた尤度の算出方法にあ
る。 <判別の具体例>ここで、図4及び図5を参照して具体
的な例を用いて、本装置の尤度計算例を説明する。
【0017】図4は“数々”が<しばしば;副詞>であ
るか<かずかず;名詞>であるかを判別する例である。
この場合、いずれも重要度は高いが、<しばしば;副詞
>と表記する表記重要度が低いため、<かずかず;名詞
>の方が尤度が高くなる。一方、図5は“心”が<ここ
ろ;名詞>であるか<こころ;副詞(少し、の意味)>
であるかを判別する例である。この場合は逆に表記重要
度の差はないかわりに、単語重要度の差で<こころ;名
詞>の尤度が高いと判断される。
【0018】尚、上記実施例では、単語重要度、表記重
要度をいずれも1〜5の5段階の数値で表現したが、何
段階でも、また、離散値ではなく連続値でも構わない。
又、上記実施例では、辞書登録されているすべての単語
に単語重要度、表記重要度を付与するものとしたが、同
形語が存在する単語だけに付与して、辞書サイズを軽減
してもよい。
【0019】又、上記実施例では、同形の単語同志の尤
度比較を行なう場合を示したが、文節動詞の比較でもよ
い。例えば、“彼の”なる表記に対して、<かれ;名詞
>+<の;格助詞>と<あの;連体詞>のような解釈が
存在するが、前者は複数単語からなるので、この場合は
単語対単語ではなく、文節対文節の比較になる。このよ
うな場合には、各単語の単語重要度や表記重要度から文
節の尤度を計算して両者の比較を行なうようにしても良
い。
【0020】更に、本発明は、複数の機器から構成され
るシステムに適用しても、1つの機器から成る装置に適
用しても良い。また、本発明はシステム或は装置にプロ
グラムを供給することによって達成される場合にも適用
できることはいうまでもない。
【0021】
【発明の効果】本発明により、出現頻度に基づく単語重
要度からだけでは明確な優先度付けが困難な場合でも、
適切な同形語判別を行なうことを可能とする自然言語解
析方法及びその装置を提供できる。すなわち、辞書に登
録されている各単語に対し、その出現頻度に基づく重要
度と、その単語の表記の候補(一般に複数)の各々につ
いて表記重要度を付与しておき、文中の表記“S”の単
語がWであるもっともらしさを、単語Wの重要度だけで
なく、単語Wを“S”と表記する表記重要度との組合わ
せによって定義し、素の尤もらしさを同形語判別のため
の情報の1つとするようにしたので、単語の出現頻度に
基づく重要度からだけでは明確な優先度付けが困難な場
合でも、適切な同形語判別を行なうことを可能となる、
という効果が得られる。
【図面の簡単な説明】
【図1】本実施例の自然言語解析装置のシステム構成例
を示すブロック図である。
【図2】本実施例の自然言語解析装置のハードウエア構
成例を示す基本構成図である。
【図3】本実施例の処理手順を示す動作フローチャート
である。
【図4】本実施例の尤度計算例を示す図である。
【図5】本実施例の尤度計算例を示す図である。
【符号の説明】
1 同形語判別部 2 尤度算出部 3 文法/意味情報抽出部 4 辞書 21 制御メモリ 22 中央処理装置(CPU) 23 データメモリ 24 外部記憶部 25 バス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 八木沢 津義 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 (72)発明者 藤田 稔 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 自然言語文中の同形語をその尤度と文中
    の他の単語との文法的な関係や意味的な関係とに基づい
    て判別する自然言語解析方法であって、 単語に関する情報として、すくなくとも前記単語の重要
    度を表すデータと、前記単語の複数の表記法と、前記表
    記法のそれぞれに対する重要度を表すデータとを記憶
    し、 前記単語の重要度と単語の表記の重要度とを用いて、適
    切な同形語の判別を行なうことを特徴とする自然言語解
    析方法。
  2. 【請求項2】 前記判別工程は、前記単語の重要度と単
    語の表記の重要度とを用いた尤度の計算を含むことを特
    徴とする請求項1記載の自然言語解析方法。
  3. 【請求項3】 前記尤度の計算は、前記単語の重要度と
    単語の表記の重要度との積であることを特徴とする請求
    項2記載の自然言語解析方法。
  4. 【請求項4】 前記請求項1乃至3のいずれかに記載の
    自然言語解析方法が適用された機械翻訳システム。
  5. 【請求項5】 前記請求項1乃至3のいずれかに記載の
    自然言語解析方法が適用された音声合成システム。
  6. 【請求項6】 前記請求項1乃至3のいずれかに記載の
    自然言語解析方法が適用された文書検索システム。
  7. 【請求項7】 自然言語文中の同形語をその尤度と文中
    の他の単語との文法的な関係や意味的な関係とに基づい
    て判別する自然言語解析装置であって、 単語に関する情報として、すくなくとも前記単語の重要
    度を表すデータと、前記単語の複数の表記法と、前記表
    記法のそれぞれに対する重要度を表すデータとを持つ辞
    書と、 前記辞書の単語重要度と単語の表記重要度を用いて、適
    切な同形語の判別を行なう同形語判別手段を備えること
    を特徴とする自然言語解析装置。
  8. 【請求項8】 前記同形語判別手段は、前記単語の重要
    度と単語の表記の重要度とを用いて尤度を計算する尤度
    計算手段を含むことを特徴とする請求項7記載の自然言
    語解析装置。
  9. 【請求項9】 前記尤度計算手段は、前記単語の重要度
    と単語の表記の重要度との積を尤度とすることを特徴と
    する請求項8記載の自然言語解析装置。
  10. 【請求項10】 自然言語文中の同形語をその尤度と文
    中の他の単語との文法的な関係や意味的な関係とに基づ
    いて判別する自然言語解析装置に適用される記憶媒体で
    あって、 単語に関する情報として、すくなくとも前記単語の重要
    度を表すデータと、前記単語の複数の表記法と、前記表
    記法のそれぞれに対する重要度を表すデータとを持つ辞
    書を記憶することを特徴とする記憶媒体。
  11. 【請求項11】 前記辞書の単語重要度と単語の表記重
    要度を用いて尤度を計算し、適切な同形語の判別を行な
    う同形語判別プログラムを更に記憶することを特徴とす
    る請求項10記載の記憶媒体。
JP7148727A 1995-06-15 1995-06-15 自然言語解析方法及びその装置 Withdrawn JPH096780A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7148727A JPH096780A (ja) 1995-06-15 1995-06-15 自然言語解析方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7148727A JPH096780A (ja) 1995-06-15 1995-06-15 自然言語解析方法及びその装置

Publications (1)

Publication Number Publication Date
JPH096780A true JPH096780A (ja) 1997-01-10

Family

ID=15459268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7148727A Withdrawn JPH096780A (ja) 1995-06-15 1995-06-15 自然言語解析方法及びその装置

Country Status (1)

Country Link
JP (1) JPH096780A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186765A (ja) * 2010-03-08 2011-09-22 Toshiba Corp 形態素解析装置及び形態素解析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011186765A (ja) * 2010-03-08 2011-09-22 Toshiba Corp 形態素解析装置及び形態素解析方法

Similar Documents

Publication Publication Date Title
US5930746A (en) Parsing and translating natural language sentences automatically
US5852801A (en) Method and apparatus for automatically invoking a new word module for unrecognized user input
EP1110205B1 (en) Interactive user interface using speech recognition and natural language processing
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US5680511A (en) Systems and methods for word recognition
US7136802B2 (en) Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system
EP1482414B1 (en) Translating method for emphasised words
JPH0756957A (ja) ユーザへの情報提供方法
CN110444198A (zh) 检索方法、装置、计算机设备和存储介质
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
EP1886231A1 (en) Method and apparatus for creating a language model and kana-kanji conversion
JPH08248971A (ja) テキスト朗読読み上げ装置
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JPH11194793A (ja) 音声ワープロ
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JPH07191687A (ja) 自然言語処理装置及びその方法
JPH096780A (ja) 自然言語解析方法及びその装置
JP2004151527A (ja) 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP3956730B2 (ja) 言語処理装置
JP2001265792A (ja) 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020903