JPH11338863A - 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体 - Google Patents

未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体

Info

Publication number
JPH11338863A
JPH11338863A JP10149272A JP14927298A JPH11338863A JP H11338863 A JPH11338863 A JP H11338863A JP 10149272 A JP10149272 A JP 10149272A JP 14927298 A JP14927298 A JP 14927298A JP H11338863 A JPH11338863 A JP H11338863A
Authority
JP
Japan
Prior art keywords
katakana
word
words
unknown
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10149272A
Other languages
English (en)
Inventor
Hiroto Inagaki
博人 稲垣
Kazuo Tanaka
一男 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10149272A priority Critical patent/JPH11338863A/ja
Publication of JPH11338863A publication Critical patent/JPH11338863A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 本発明は、自動的に未知の名詞やカタカナ語
を収集し、新しい未知の名詞やカタカナ語を自動的に辞
書に登録できるようにすることを目的としている。 【解決手段】 文字列を入力し、入力された文字列を単
語単位に分割し、単語単位に分割・形態素解析された文
字列を蓄積し、蓄積された文字列のうち、解析できない
文字列または、解析できない文字列とその周辺の単語を
組み合わせた語のうち、所定回数以上繰り返し用いられ
る名詞を自動的に判定抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ワープロや自然言
語解析で用いられるかな漢字変換や形態素解析に必要と
される名詞の未知語や頻出する新しいカタカナ語を自動
的に収集し、さらに自動的に認識することにより、未知
の名詞、カタカナ語を辞書に登録可能とする、未知名詞
および表記ゆれカタカナ語自動収集・認定装置、ならび
にそのための処理手順を記録した記録媒体に関する。
【0002】
【従来の技術】従来は、ワープロや自然言語解析に用い
られている単語辞書は、いろいろの文を解析・評価する
ことにより、単語が認定され・登録されてきた。また、
通常のワープロであれば、ユーザ辞書機能により、ユー
ザが自分で使用する単語を私用用語辞書として登録する
ことができる。
【0003】
【発明が解決しようとする課題】しかし、自動的に未知
の名詞やカタカナ語を収集し、登録する機能がないた
め、新しい未知の名詞やカタカナ語を解析したり、かな
漢字変換する場合、解析誤りが発生していた。
【0004】本発明は、自動的に未知の名詞やカタカナ
語を収集し、新しい未知の名詞やカタカナ語を自動的に
辞書に登録できるようにすることを目的としている。
【0005】
【課題を解決するための手段】本発明は、従来のワープ
ロであればユーザ辞書機能によりユーザが自分で使用す
る単語を私用用語辞書として登録することしかできなか
った辞書登録機能を、自動的に行うようにする。即ち文
字列を入力する情報入力部と、該情報入力部に入力され
た文字列を単語単位に分割する入力情報形態素解析部
と、該入力情報形態素解析部により単語単位に分割・形
態素解析された文字列を蓄積する形態素情報蓄積部と、
該形態素情報蓄積部に蓄積された文字列のうち、解析で
きない文字列または、解析できない文字列とその周辺の
単語を組み合わせた語のうち、所定回数以上繰り返し用
いられる名詞を自動的に判定抽出する名詞自動抽出部
と、をもつようにしている。
【0006】従来のワープロであれば、ユーザ辞書機能
により、ユーザが自分で使用する単語を私用用語辞書と
して登録することしかできなかった辞書登録機能を自動
的に行うことにより、自動的に未知の名詞やカタカナ語
を収集し、新しい未知の名詞やカタカナ語を自動的に辞
書に登録することにより、入力作業におけるかな漢字機
能や、文書校正などの自然言語解析アプリケーションを
効率的に、かつ正確に実施することが可能となる。
【0007】
【発明の実施の形態】次に、本発明の実施例について、
図面を参照して説明する。図1は本発明の実施例のブロ
ックダイヤグラムを示す。
【0008】情報入力部1は、蓄積された情報に対して
種々の処理を行うために、名詞または、複数の名詞から
構成された複合語相当語句が文字列(キーワード)とし
て入力される。
【0009】入力情報形態素解析部2は、該情報入力部
1に入力されたキーワードを単語単位に分割する。形態
素情報蓄積部3は、入力情報形態素解析部2により単語
単位に分割・形態素解析されたキーワードを蓄積する。
【0010】名詞自動抽出部4は、形態素情報蓄積部3
に蓄積されたキーワードのうち、解析できない文字列ま
たは、解析できない文字列とその周辺の単語を組み合わ
せた語のうち、繰り返し用いられる語と判定できる名詞
を自動的に判定抽出する。
【0011】英単語音素辞書5は、英語の各単語に付与
されている音素を蓄積している。音素・音声変換部6
は、当該音素を母音と子音または長音に変換する。未知
カタカナ語判定部7は、形態素情報蓄積部3に蓄積され
たキーワードのうち、解析できない文字列または、解析
できない文字列とその周辺の単語を組み合わせた語のう
ち、すべてカタカナ語で記述される語について、英単語
音素辞書5の各単語の音素を索引し、音素・音声変換部
6で変換することにより発生するカタカナ語の集合に含
まれている場合、適切な未知のカタカナ語であると判定
する。
【0012】表記ゆれカタカナ語自動抽出部8は、該未
知カタカナ語判定部7で未知のカタカナ語であると判定
したカタカナ語の中で、音素・音声変換部6で変換する
ことにより発生するカタカナ語の集合に含まれるカタカ
ナ語が形態素情報蓄積部3や入力情報形態素解析部2の
辞書中に存在する場合、当該カタカナ群を表記のゆれカ
タカナとして登録する。
【0013】情報入力部1では、蓄積された種々の情報
を処理するために入力された名詞または、複数の名詞か
ら構成された複合語相当語句を入力とする。たとえば、
インターネットサーチエンジンのように、種々のweb の
データが蓄積された情報に対し、検索という処理を行っ
ている。その検索の際において、検索するキーワードと
して入力される語句をここでは入力とする。
【0014】入力情報形態素解析部2は、情報入力部1
に入力されたキーワードを単語単位に分割する。形態素
解析では、入力された文字列を単語辞書に対して、検索
を行い、品詞情報(品詞)、文頭可否情報(文頭可)、
前方接続情報(前接)、後方接続情報(後接)などの情
報を取得する。本発明の単語辞書では、TREI辞書構
造という特別な辞書構造を行うことにより高速な検索を
行えるようになっている。
【0015】図2にTREI辞書構造の例を示す。辞書
項目として、“ああ”、“あいさつ”、“あい”、など
がある場合、それぞれ、の第一文字(ここでは、日本語
であるので、C言語の文字である。アルファベットと異
なり、日本語文字2byteを指し示す)が同じもの、第二
文字目が同じものなど、それぞれ順次に、木構造的に構
成される。そして、最後の文字まで、一致した場合に
は、その単語辞書項目に対する品詞情報(品詞)、文頭
可否情報(文頭可)、前方接続情報(前接)、後方接続
情報(後接)などの情報記述される。
【0016】なお文頭可否情報とは、文頭にあってよい
かどうかを示すフラグである。文頭可であれば、文頭に
存在してもよいが、文頭否であれば、文頭にあることが
許可されない単語ということになる。
【0017】前方接続情報とは、前の単語の品詞または
属性が適正な場合だけ接続が許可され、前接で接続が許
可されない単語の場合、候補として削除される。同様に
後方接続情報も、後の単語の品詞または属性が適正な場
合だけ接続が許可され、後接で接続が許可されない単語
の場合、候補として削除される。
【0018】このような、品詞接続により、候補を選択
する。最尤候補は、コスト最小法と呼ぶ方法により選択
する。最小コスト法とは、最もコストが最小となる形態
素候補を最尤候補とする処理方式である。形態素解析に
おいて利用されるコストは、以下の2種類のコストがあ
る。
【0019】● 接続コスト ● 単語コスト 接続コストは、ある単語と単語とを接続する場合に必要
なコストである。単語と単語とであるため、単語+該活
用に対する接続コストは0となる。また単語コストと
は、その単語に関するコストであり、例えば、使用頻度
が高い単語は、コストが低くなる。また、活用は単語で
はないので、コストは0となる。
【0020】図3に、解析の例を示す。入力が、“あい
することは、”という文があった場合、“あ”という単
語と“い”という単語、“する”という単語、“こと”
という単語は、“は”と言う単語で構成されるという解
析について、図示の最初の候補はその解析を行ってい
る。一方、2番目の候補は、“あい(する)”、“こ
と”、“は”の3単語から構成されているものとみなし
ている。それぞれの候補のコストを計算すると最初の候
補が、107点、2番目の候補が、37点ということに
なり、2番目の候補が、最小コストの候補(最尤候補)
ということになる。但し、単語辞書に登録されている語
については以上のようなTREI構造の単語辞書を検索
することにより、形態素解析が行われる。
【0021】一方、単語辞書にないような言葉がある
と、形態素解析では、その周辺で、最も次に解析できる
単語の部分まで、処理を進め、解析ができない部分につ
いては未知語として解析される。たとえば、単語辞書
に、“プリクラ”という単語が登録されていないとす
る。形態素解析では、“プ”の部分を未知語として仮
に、蓄積し、“リクラ”の部分に対しTREI構造の単
語辞書を検索する。“リクラ”が単語辞書にない場合に
は、“プリ”が未知語として登録される。そして、“ク
ラ”が単語辞書から検索される。同様にして、字種の切
れ目まで同様な処理を行う。字種の切れ目まできても単
語辞書に適合する単語がない場合には、同一字種の部分
が未知語として解析される。
【0022】もちろん、未知語では、複数の字種(たと
えば、漢字、ひらがな、カタカナ、英語など)にまたが
る場合には、各字種単位を未知語として単語分割する。
形態素情報蓄積部3では、入力情報形態素解析部2によ
り単語単位に分割・形態素解析されたキーワードを蓄積
する。先の例では、“あい”“こと”が自立語として登
録される。形態素情報蓄積部3では、形態素解析された
単語の表記および、それらが出現した頻度を記録する。
【0023】 名詞自動抽出部4では、形態素情報蓄積部3に蓄積され
たキーワードのうち、解析できない文字列または、解析
できない文字列とその周辺の単語を組み合わせた語のう
ち、繰り返し用いられる語と判定できる名詞を自動的に
判定抽出する。
【0024】たとえば、“プリクラ倶楽部”のような単
語が情報入力部1に入力され、入力情報形態素解析部2
で、形態素解析を行うと、“プリクラ”の部分が未知語
となり“倶楽部”が名詞として形態素解析されたとす
る。
【0025】この例では、解析できない文字列または、
解析できない文字列とその周辺の単語を組み合わせた語
とは、“プリクラ”+“倶楽部”がまず、最初の名詞候
補として登録される。登録されるだけでは、未知名詞と
しては判定されない。この未知単語の使用頻度がある一
定のしきい値を超えた場合、未知単語を未知名詞として
認定し、抽出を行う。たとえば、頻度しきい値が「10
0」であるとすると、100回の出現頻度がなければ、
“プリクラ倶楽部”は未知名詞としては認定されない。
認定されない未知語は、形態素情報蓄積部3に頻度情報
とともに記録される。さらに、情報入力部1から次々に
情報を入力し、新たな未知語が発生した際に、形態素情
報蓄積部3に蓄積されている単語(未知語も含む)に一
致する部分文字列があった場合、一致した部分を分離し
て、形態素情報蓄積部3にそれぞれの頻度を記録する。
たとえば、情報入力部1に“プリクラ”の入力があった
場合には、“プリクラ倶楽部”が、“プリクラ”と“倶
楽部”とに分割され形態素情報蓄積部3に蓄積される。
そして、それぞれの頻度情報に基づき、頻度の閾値を超
えた場合、当該未知語を未知名詞として認定して、抽出
する。
【0026】英単語音素辞書5は、英語の各単語に付与
されている音素を蓄積している。これは、英語の各単語
の発音記号を蓄積している辞書である。
【0027】
【表1】
【0028】上記の例のように、英単語と、音素(発音
記号)とが対になっている。発音記号が複数ある場合
は、1単語に対して複数の発音記号が付与される。音素
・音声変換部6は、当該音素を基に変換する処理を行う
部分である。音素を音声(日本語で言えば、母音と子音
との組み合わせ)で表現することになる。各音素(発音
記号)または、音素・音声変換部では音素群に対して、
母音と子音または、長音などの音声情報を付与する、音
素・音声テーブルを持つ。音素・音声テーブルでは、各
音素または音素群に対して、複数の音声情報を持つこと
も可能である。以下に、音素・音声変換テーブルの例を
示す。
【0029】 先の例では、英単語"intake"は、音素は、[inteik]で
表現されている。音素・音声変換テーブルにより、"int
ake"は音声情報として、“インテイク”、“インテー
ク”、“インテーカ”、“インテイカ”の4種類の音声
表現群で表現される可能性があることを示している。こ
のような、音声表現群をここでは、カタカナ表記ゆれ集
合と呼ぶ。ある音素に対して、音声は、複数個、音素・
音声変換テーブルに登録することができるため、すべて
の組み合わせを音声表現群とする。
【0030】未知カタカナ語判定部7では、形態素情報
蓄積部3に蓄積されたキーワードのうち、解析できない
未知語または、未知語とその周辺の単語を組み合わせた
語のうち、すべてカタカナ語で記述される語について、
英単語音素辞書5の各単語の音素を索引し、音素・音声
変換部6で変換する。音声変換したことにより発生した
音声表現群(カタカナ表記ゆれ集合)に、上記の、未知
語または、未知語とその周辺の単語を組み合わせた語が
含まれている場合、適切な未知のカタカナ語であると判
定する。
【0031】たとえば、“エアーインテイク”という単
語が、情報入力部1に入力され、入力情報形態素解析部
2により、“エアー”と“インテイク”とに単語分割さ
れる。“エアー”のほうは、単語辞書として登録されて
おり、“インテイク”が未知語として形態素解析情報蓄
積部3に蓄積されている場合、先のように"intake"は、
“インテイク”、“インテーク”、“インテーカ”、
“インテイカ”と音声化されることが、音素・音声変換
部6の処理により判明しており、この“インテイク”
は、"intake"のカタカナ表現であると判断される。
【0032】表記ゆれカタカナ語自動抽出部8は、未知
カタカナ語判定部7で未知のカタカナ語であると判定し
たカタカナ語の中で、音素・音声変換部6で変換するこ
とにより発生するカタカナ語の集合に含まれるカタカナ
語が、形態素情報蓄積部3や、入力情報形態素解析部2
の辞書中に存在する場合、当該カタカナ群を表記のゆれ
カタカナとして登録する。
【0033】先の、“インテイク”の例では、音素・音
声変換部6では、以下のカタカナ語の集合が変換され
た。(“インテイク”、“インテーク”、“インテー
カ”、“インテイカ”)以上の4つのカタカナ表現が同
じ英単語intakeの音声表現群、つまり、表記のゆれであ
ると判定している。そこで、もし、形態素情報蓄積部3
に“インテーク”や、“インテーカ”などが蓄積されて
いる場合には、“インテイク”のカタカナ表記のゆれと
して登録する。最終的に形態素情報辞書10には以下の
リストで示される単語群(“インテーク”、“インテー
カ”、“インテイク”)が登録される。
【0034】図4は本発明の実施例における処理態様を
表すフローチャートである。なお図1において「○○
部」とある構成における処理に対応する処理を実行する
部分を、図4においては「○○手段」として示して、両
者を対応づけている。 (ステップS1):情報が入力されたか否かをチェック
する。 (ステップS2):入力されたら情報入力部1が発動さ
れる。 (ステップS3):入力情報形態素解析部2の処理が行
われる。 (ステップS4):形態素情報蓄積部3の処理を、図示
の形態素解析辞書10を利用して、実行する。 (ステップS5):形態素解析の際に解析できない文字
があるか否かを調べる。
【0035】あればステップS6へ向かう。 (ステップS6):名詞自動抽出部4の処理を行う。 (ステップS7):名詞自動抽出部4での処理結果から
名詞情報を出力して未知カタカナ語判定部7に供給す
る。 (ステップS8):英単語音素辞書5からの英単語につ
いて、音素・音声変換部6の処理を行う。 (ステップS9):カタカナ候補データ11を利用して
未知カタカナ語判定部7の処理を行う。 (ステップS10):未知カタカナ語を出力する。 (ステップS11):表記ゆれカタカナ語自動抽出部8の
処理を行う。 (ステップS12):表記ゆれカタカナ語を出力する。 (ステップS13):出力された表記ゆれカタカナ語を辞
書に登録する。
【0036】図4に示した処理態様は、図1に示す構成
に対応する処理をデータ処理装置によって実行するため
のプログラムで記述することができ、本発明は当該プロ
グラムを記述した記録媒体をも対象としていることは言
うまでもない。
【0037】
【発明の効果】以上説明した如く、本発明によれは、従
来のワープロではユーザ辞書機能によりユーザが自分で
使用する単語を私用用語辞書として登録することしかで
きなかった辞書登録機能を自動的に行うことにより、自
動的に未知の名詞やカタカナ語を収集し、新しい未知の
名詞やカタカナ語を自動的に辞書に登録することによ
り、入力作業におけるかな漢字機能や、文字校正などの
自然言語解析アプリケーションを効率的に、かつ正確に
実施することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施例のブロックダイヤグラムであ
る。
【図2】TREI辞書構造の例を示す。
【図3】解析の例を示す。
【図4】本発明の実施例における処理態様を示す。
【符号の説明】
1 情報入力部 2 入力情報形態素解析部 3 形態素情報蓄積部 4 名詞自動抽出部 5 英単語音素辞書 6 音素・音声変換部 7 未知カタカナ語判定部 8 表記ゆれカタカナ語自動抽出部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文字列を入力する情報入力部と、 該情報入力部に入力された文字列を単語単位に分割する
    入力情報形態素解析部と、 該入力情報形態素解析部により単語単位に分割・形態素
    解析された文字列を蓄積する形態素情報蓄積部と、 該形態素情報蓄積部に蓄積された文字列のうち、解析で
    きない文字列または、解析できない文字列とその周辺の
    単語を組み合わせた語のうち、所定回数以上繰り返し用
    いられる名詞を自動的に判定抽出する名詞自動抽出部
    と、 をもつことを特徴とする未知名詞および表記ゆれカタカ
    ナ語自動収集・認定装置。
  2. 【請求項2】 英語の各単語に付与されている音素を蓄
    積している英単語音素辞書と、 当該音素を音に変換する音素・音声変換部と、 前記形態素情報蓄積部に蓄積された文字列のうち、解析
    できない文字列または解析できない文字列と、その周辺
    の単語を組み合わせた語のうち、すべてカタカナ語で記
    述される語とについて、前記英単語音素辞書の各単語の
    音素を索引し、前記音素・音声変換部で変換することに
    より発生するカタカナ語の集合に含まれている場合に未
    知のカタカナ語であると判定する未知カタカナ語判定部
    と、 をもつことを特徴とする請求項1記載の未知名詞および
    表記ゆれカタカナ語自動収集・認定装置。
  3. 【請求項3】 前記未知カタカナ語判定部で未知のカタ
    カナ語であると判定したカタカナ語の中で、前記音素・
    音声変換部で変換することにより発生するカタカナ語の
    集合に含まれるカタカナ語が前記形態素情報蓄積部およ
    び前記入力情報形態素解析部の辞書中に存在する場合、
    当該カタカナ群を表記のゆれカタカナとして登録する表
    記ゆれカタカナ語自動抽出部をもつことを特徴とする請
    求項2記載の未知名詞および表記ゆれカタカナ語自動収
    集・認定装置。
  4. 【請求項4】 文字列を入力し、 該入力された文字列を単語単位に分割し、 該単語単位に分割・形態素解析された文字列を蓄積し、 該蓄積された文字列のうち、解析できない文字列また
    は、解析できない文字列とその周辺の単語を組み合わせ
    た語のうち、所定回数以上繰り返し用いられる名詞を自
    動的に判定抽出する処理手順をプログラムの形で記録し
    た記録媒体。
  5. 【請求項5】 英語の各単語に付与されている音素を蓄
    積している英単語音素辞書を用い、 音素を音に変換し、 前記蓄積された文字列のうち、解析できない文字列また
    は解析できない文字列と、その周辺の単語を組み合わせ
    た語のうち、すべてカタカナ語で記述される語とについ
    て、前記英単語音素辞書の各単語の音素を索引し、前記
    音素を音に変換した際にカタカナ語の集合に含まれてい
    る場合に未知のカタカナ語であると判定する処理手順を
    プログラムの形で記録したことを特徴とする請求項4記
    載の記録媒体。
  6. 【請求項6】 未知のカタカナ語であると判定したカタ
    カナ語の中で、音素を音に変換した際にカタカナ語の集
    合に含まれるカタカナ語が辞書中に存在する場合、当該
    カタカナ群を表記のゆれカタカナとして登録する処理手
    順をプログラムの形で記録するようにしたことを特徴と
    する請求項5記載の記録媒体。
JP10149272A 1998-05-29 1998-05-29 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体 Pending JPH11338863A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10149272A JPH11338863A (ja) 1998-05-29 1998-05-29 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10149272A JPH11338863A (ja) 1998-05-29 1998-05-29 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11338863A true JPH11338863A (ja) 1999-12-10

Family

ID=15471602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10149272A Pending JPH11338863A (ja) 1998-05-29 1998-05-29 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11338863A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020054254A (ko) * 2000-12-27 2002-07-06 오길록 사전구조를 이용한 한국어 형태소 분석방법
WO2004049193A1 (ja) * 2002-11-28 2004-06-10 Matsushita Electric Industrial Co.,Ltd. 電子メール作成支援のための装置、プログラムおよび方法
KR100481598B1 (ko) * 2003-05-26 2005-04-08 한국전자통신연구원 복합 형태소 분석 장치 및 방법
US7788327B2 (en) 2002-11-28 2010-08-31 Panasonic Corporation Device, program and method for assisting in preparing email
JP2010204487A (ja) * 2009-03-04 2010-09-16 Toyota Motor Corp ロボット、対話装置及び対話装置の動作方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020054254A (ko) * 2000-12-27 2002-07-06 오길록 사전구조를 이용한 한국어 형태소 분석방법
WO2004049193A1 (ja) * 2002-11-28 2004-06-10 Matsushita Electric Industrial Co.,Ltd. 電子メール作成支援のための装置、プログラムおよび方法
US7788327B2 (en) 2002-11-28 2010-08-31 Panasonic Corporation Device, program and method for assisting in preparing email
KR100481598B1 (ko) * 2003-05-26 2005-04-08 한국전자통신연구원 복합 형태소 분석 장치 및 방법
JP2010204487A (ja) * 2009-03-04 2010-09-16 Toyota Motor Corp ロボット、対話装置及び対話装置の動作方法

Similar Documents

Publication Publication Date Title
US6922809B2 (en) Method and apparatus providing capitalization recovery for text
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10207910A (ja) 関連語辞書作成装置
Brown et al. Capitalization recovery for text
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
JP3009636B2 (ja) 音声言語解析装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP3526063B2 (ja) 音声認識装置
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP2002510075A (ja) 派生された単語を使用する音声認識辞書の拡張
JPH11250063A (ja) 検索装置及び検索方法
JP3348909B2 (ja) 形態素解析装置
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JP3698454B2 (ja) 並列句解析装置および学習データ自動作成装置
JP3956730B2 (ja) 言語処理装置
JP3324910B2 (ja) 日本語解析装置
JP2897942B2 (ja) 日本語形態素解析システム及び形態素解析方式
JP4140248B2 (ja) データベース検索装置
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
JP3907106B2 (ja) 翻訳ルール作成装置およびプログラム