JPH04130578A - 未登録語検索方法および装置 - Google Patents

未登録語検索方法および装置

Info

Publication number
JPH04130578A
JPH04130578A JP2253896A JP25389690A JPH04130578A JP H04130578 A JPH04130578 A JP H04130578A JP 2253896 A JP2253896 A JP 2253896A JP 25389690 A JP25389690 A JP 25389690A JP H04130578 A JPH04130578 A JP H04130578A
Authority
JP
Japan
Prior art keywords
word
search
unregistered
words
unregistered word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2253896A
Other languages
English (en)
Inventor
Toshiya Yamazaki
利哉 山嵜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2253896A priority Critical patent/JPH04130578A/ja
Publication of JPH04130578A publication Critical patent/JPH04130578A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要〕 辞書に記載されていない未登録語を省略語とみなし省略
前の元の形を推定する方法および装置に関し、 未登録語を所定の文字数よりなる部分文字列に分割し、
辞書や文、書中から省略前の元の形を検索する方法およ
び装置を提供することを目的とし、辞書に登録されてい
ない未登録語と認定された単語を略称とみなし、この単
語を構成する文字が、その構成される順序で含まれる単
語1語句を検索することにより省略前の元の形を推定す
るよう構成し、また単語および複数の単語からなる語句
を蓄積した単語・語句辞書と、この単語・語句辞書に登
録されていない未登録語が入力されるとこの未登録語を
略称とみなし、未登録語を構成する文字がその構成され
る順序で含まれる単語1語句を検索することにより省略
前の元の形を推定する検索部と、この検索部の推定した
単語1語句を出方する出力部とを備えるよう構成する。
また、文書中に記載された未登録語においてこの未登録
語が記載された文を含みその文より前方の文を検索し、
この未登録語の省略前の形を示す語または語句を見出す
よう構成する。
〔産業上の利用分野〕
本発明は、辞書に記載されていない未登録語を省略語と
みなし省略前の元の形を推定する方法および装置に関す
る。
機械翻訳技術などにおいては、未登録語と判定された場
合、これを省略語とみなし省略前の元の形を推定するこ
とにより正解を得る場合が多い。
また人間が利用する形態の辞書検索においては、未登録
語であっても、これを略称とみなし、省略前の元の形を
推定することにより、人間の単語に対する理解を増進す
ることができる。
〔従来の技術〕
言葉というものは人類発生の時から使用され発展してき
たものであり、理論的に扱えない範囲を多く含んでいる
。しかし部分的には理論的に扱えるものもあり、辞書に
登録されていない未登録語についても、その解明にいく
つかの方法が提案される。特開昭60−112174号
公報には、仮名漢字変換装置における略称変換方式につ
いて、略称語の入力仮名文字列を前、後段に分割し、そ
れぞれを含む見出し語を辞書メモリから検索して、対応
する変換語から対応する漢字を読み出して変換語を得る
技術が開示されている。また特開昭60−112175
号公報には、辞書メモリに、見出し語に対応する変換語
に関連して接続可能な漢字等を示す付加情報を設け、入
力仮名文字列を前後に分割して対応する漢字について含
むか否かを判定することにより略称語を元の形に変換す
る技術が開示されている。
〔発明が解決しようとする課題〕
言語は前述のように必ずしも理論的に構成されていない
ため、未登録語の正しい解を得る方法としてこの方法の
みでよいというような方法はありえない、それ故多くの
方法を考え、できるだけ効率よく、正しい解を得る方法
を見出してゆかなければならない。
この一つの試みとして未登録語を略称とみなし、所定の
アルゴリズムを設けて検索範囲を限定するとともに検索
に対して幾多の制約を設けることにより推定候補を減少
させる方法を提案するものであり、 本発明は、未登録語を所定の文字数よりなる部分文字列
に分割し、辞書や文書中から省略前の元の形を検索する
方法および装置を捷供することを目的とする。
〔課題を解決するための手段〕
第1図は本発明の原理図である。同図において1は単語
および複数の単語からなる語句を蓄積した単語・語句辞
書であり、2はこの単語・語句辞書1に登録されていな
い未登録語が入力されると、これを略称とみなし、この
未登録語を構成する文字が、その構成される順序で含ま
れる語または語句を単語・語句辞書1から検索して省略
前の元の形を推定する検索部であり、3はこの検索部2
の検索結果を出力する出力部である。第2図は第1図に
示す装置の辞書機能を拡大したもので、文書の形態素解
析、構文解析を行う構成要素解析部5と、この構成要素
解析部5の出力から文書中の検索範囲の文字列を名詞ま
たは名詞句単位に切り出す語句切り出し部6を設け、こ
の語句切り出し部6の出力を検索部2の検索候補の語ま
たは語句とする。また、未登録語がカタカナ語である場
合は、この未登録語を所定の数の文字からなる部分文字
列に分け、この部分文字列が未登録語を構成する順に現
れる語又は語句を検索する。この際部分文字列の先頭文
字が検索対象の語又は語句の文字と一致し、この部分文
字列の2文字以降の文字と対応する検索対象の語または
語句の文字列にr −4またはrツ1があった場合、二
〇r、またはrッ」の存在を無視して文字の一致を確か
め検索してゆくとよい、また、単語・語句辞書1を検索
する際に(未登録語長)X2−1以上の語長をもつ単語
1語句に限定して検索するとよい、また欧米系の言語な
どのように1つの単語が他の単語と離れて表記される言
語においては、未登録語の各文字は単語列の各単語の頭
文字が各単語の現れる順に並んだものとして元の単語列
を検索するとよい、この際、冠詞、前置詞、接続詞など
の付属詞が含まれるときは、これを無視して検索すると
よい、また単語・語句辞書1は、ひらがな、漢字などの
字種ごと、または文字数ごと、または語句を構成する単
語数ごと、またはこれらの組み合わせごとに分割して構
成するとよい、または単語・語句辞書1を、字種ごと、
または文字数ごと、または語句を構成する単語数ごと、
またはこれらの組み合わせごとにインデックスを設けた
インデックス構成とするとよい、また、文書中に記載さ
れた未登録語があまり一般的でない場合、その元の形を
定義として表示している場合があるので、この未登録語
が記載されている文を含みその文より前方の文書を検索
するとよい。
〔作 用〕
上記構成により、未登録語が入力されると検索部2は、
この未登録語を構成する文字が、この構成される順に含
まれる単語1語句を単語・語句辞書1から検索し省略前
の元の形を推定して出力部3から出力する0文書中から
の未登録語が入力される場合、構成要素解析部5で文書
の形態素解析や構文解析を行い、この結果から語句切り
出し部6は文書中の検索範囲の文字列を名詞または名詞
句単位に切り出して省略前の元の形の語又は語句候補を
作成することによ゛す、単語・語句辞書lの機能を補強
することができる。また、未登録語がカタカナの場合、
元の語や語句を構成する単位の頭の1文字や2文字をと
って省略することが多いのて、所定の数の文字よりなる
部分文字列単位に元の語又は語句の候補を検索してゆく
と正解を得る確率が高い、この際カタカナは外国語を表
す表音文字として使用されることが多く、r、やrフj
は省略語を作るときに除去される場合が多い、それ故’
  J、’7Jを除去して検索を行った方が正解を得る
確率が高い。また省略語はその言葉通り元の語や語句を
短くしたものである。この際元の語と同しような長さの
ものでは省略語とする意味がない、そこで元の語のほぼ
半分以下ぐらいに短縮される場合が多いので(未登録語
長)×2−1以上の語長に正解が含まれる確率が高い。
また、欧米語などのように単語が独立して表示される場
合、未登録語は単語列の各単語の頭文字をとった場合が
多いので、この頭文字を有する語句を検索することによ
り正解を得る確率が高い。この際この単語列には冠詞、
前置詞、接続詞等の付属詞が入る場合があるが、これら
の頭文字は無視して省略語を作ることが多いので検索に
あたってはこれらの付属詞を無視すると正解を得る確率
が高くなる。
単語・語句辞書1を構成するに当たっては、般の辞書の
ように、あいうえお順に並べるよりも、ひらがな、カタ
カナ、漢字などの字種ごと、または文字数ごと、または
1つの見出しを構成する語句の単語数ごと、またはこれ
らの組み合わせ、例えば漢字を例にとると、1字のもの
ごと、2字のものごと−に分割して辞書を構成すること
により検索を高速に行うことができる。また、あいうえ
お順に並んだ辞書であっても、字種ごと、文字数ごと、
1つの見出しを構成する語句の単語数ごと、またはこれ
らの組み合わせに分割してインデックスを設けることに
より、上記の辞書と同し効果を有する。また、あまり一
般的でない未登録語の場合、その未登録語が初めて使用
される時に省略前の元の形を併記して説明している場合
が多いので、その未登録語が記載されている文を含みそ
の文より前方の文書を検索すると、この説明個所を検索
できる確率が高い。
〔実 施 例〕
以下、本発明の実施例を図面を参照して説明する。
第3図は未登録語検索の基本的アルゴリズムを示す、未
登録語が入力されると(ステップ11)、ステップ12
で検索は終了したかチエツクするが、当然終了していな
いので省略前の元の形の候補語句を取り出しくステップ
13)、正しい語句か検索しくステップ14)、正しい
ものであれば出力部3より出力しくステップ15)、正
しいものでなければステシブ12に戻って再度検索を行
う。第4図は第3図のステップ13で行う候補語句取り
出しの詳細を示すフロー図である。同図において、候補
語句の取り出しは単語・語句辞書1や第2図に示す文書
4から構成要素解析部5を介し語句切り出し部6より取
り出す(ステップ131)。そして省略語句の長さに制
限があるときは、このチエツクを行い(ステップ132
)、該当するもののみ候補語句として検索部2に出力す
る。第5A図は第3図のステップ14で行う検索の基本
アルゴリズムを示すフロー図である。ステップ141は
未登録語を構成する全ての文字の検索が終わったか否か
チエツクし、終わってなければ次の文字を取り上げる(
ステップ142)、そして未登録語を構成するある文字
が候補語句の文字と一致しており、このある文字の次の
文字が、この候補語句の前記ある文字が一致した文字よ
り後の文字と一致するか否かを調べ(ステップ143)
、一致していればステップ141に戻り、一致しなけれ
ばこの候補語句は正解でないものとする。
次に具体的な未登録語を用いて説明する。
第6図は、通常の辞書検索によって未登録語と認定され
たrt機労連Jという単語を略称とみなし、rll、、
r機J、r労J+  r連」と−文字ごとに分割し、辞
書検索を行う場合を示す。検索のアルゴリズムは第5A
図に示す基本アルゴリズムを適用する。この検索の結果
、前述の4文字をこの順に含む、r全日本電機機器労働
組合連合会」という正式名称を含む辞書内容を検索し、
出力する。
第5B図は、カタカナ語の検索アルゴリズムを示すフロ
ー図である。カタカナ語検索は、未登録語の検索が終わ
ったか否かチエツクしくステップ144)、この場合初
めてであるのでまず、未登録語を1字又は複数の文字ご
との部分文字列に分割しくステップ145)、各部分文
字列が候補語句の部分文字列に適合するか否か検索して
ゆ((ステップ146)、第7図はカタカナ語の具体例
を示す。
まず、未登録語rトラボン1をrトラJ、  rポJ、
rン」という文字列に分割してみるとrトライフォーポ
イント」、「トランスポーチ−ジョン1も正解となる。
次に未登録語rトラポン1を部分文字列rトラJ+  
rボン1の2つの組に分割し、それぞれの部分文字列が
順に現れるような辞書検索を行う。
このように分割文字数にも制限を加えるとrトライフォ
ーポイント」や、rトランスポーチ−ジョン1などの単
語は正解とならず、正解として「トランスポンダ1を得
ることができる。故に分割の仕方によって出力に優先順
位をつけるとよいことがわかる。カタカナ語の場合、省
略時に、元の語句を構成する部分文字列の類1文字か2
文字を並べることが多いので、未登録語の分割は、2文
字ごとに部分文字列に分割すると正解を得る確率が高く
なる。
第5C図は、同じくカタカナ語の検索で、候補語句とr
、やrツ」の文字部分のみが一致しない場合の検索アル
ゴリズムを示す。まず、検索が終わっていないか否かチ
エツクしくステップ147)、次に未登録語を例えば数
文字づつの部分文字列に分割しくステップ148)、こ
の部分文字列の先頭文字が一致しくステップ149)、
この部分文字列の2文字以降が候補語又は語句のr、や
rツ1を無視した場合一致したとき(ステップ150)
、正解として検索を続ける。カタカナ語では省略時に長
音や促音を飛ばすことがあるので上記アルゴリズムのよ
うに検索するとよい場合が多い。
第8図は、未登録語をパソコンとして第5C図のアルゴ
リズムで検索した場合を示す。第5B図に示したアルゴ
リズムでは、パソコンショップ。
パソコンソフトだけが正解となるが、第5C図のアルゴ
リズムを採用し長音を無視して検索することによりパー
ソナルコンピュータも得ることができる。
第5D図は、欧米言語の検索アルゴリズムを示す、欧米
系言語の場合、単語は1つづつ独立して表され単語列が
1つの名詞句を構成し、各単語の頭文字を並べて略称と
する場合が多い。この場合、第9図に示すように省略の
仕方が語呂合わせとなり第3語のPを除いてRAS T
 Cとしているが、このような場合よりも第1O図に示
すように各単語の頭文字を並べて、UNESCOという
ようにする場合が多い、なおこのようなときでも冠詞、
前置詞、接続詞などは除かれる場合が多いので、これら
は無視して検索を行うとよい、第5D図において検索が
終わりかチエツクしくステップ151)、未登録語の次
の文字を比較の対象としくステップ152)、現在比較
対象としている未登録文字の前の未登録文字が候補語句
の単語の頭文字と一致した場合、この単語より後方(ま
たは次)の単語の頭文字と現在比較対象としている未登
録文字が一致したか否かチエツクしくステップ153)
、−敗した場合はステップ151に戻り検索を続は正解
に達するようにする。
第11図は、未登録語長から省略前の元の語長の範囲を
限定して検索範囲を少なくする場合で、第4図のステッ
プ132の例を示す、略称を作る場合、元の語句の構成
語の一つ一つを少しづつ省略する場合が多い、ことに漢
字語の場合には2文字の単語の連続による複合語が多く
、その場合には各単語の先頭1文字をつなげて略称を作
成する傾向がある。このようにすると略称は元の文字数
の半分程度になる。これは漢字の読みから見ると3,4
文字の読みで、2文字取るような読み方となる場合が多
い、このような傾向はカタカナ語においてもみられる。
そこで未登録語の部分文字列が全て一致した場合でも(
未登録語長)X2−1文字よりも短い語句は、元の語句
ではないという限定を設けることにより推定速度および
精度を向上することができる。第11図に示すようにイ
ンテリの元の語句候補としてインテリアは第5B図に示
したアルゴリズムでは正解となるが、4X2−1−7文
字以上と限定することによりインテリゲンツィア、イン
テリジェンスを正解どして検索することができる。
第12図は、単語・語句辞書1にインデックスを設は検
索範囲を限定する例を示したものである。
辞書のカタカナの語句を文字の数ごとにインデックスを
付け、未登録語がパソコンの場合、第11図で説明した
元の語句の長さ制限を利用して7文字以上のみ検索する
場合を示す。なお欧米語インデックスの場合はカタカナ
語の場合のr文字単語jをr単語語句Jとする。
第13図は、未登録語の省略前の元の言葉が文書の内で
説明されている例を示す。
一般的でない略称を用いる場合、文書中でその略称を最
初に使用する位置で元の形が定義されている場合が多い
、このようなとき未登録語を見出とした文を含んでそれ
より前の文書を検索すると定義を容易に見出すことがで
きる。第13図に示すようにr富士通が新しく発売した
パソコン(パーソナルコンピュータ)−」などのように
略称の直後、同一文章中に元の形を示すことが多い。ま
た、以降はr−0このパソコンは従″来の製品より−1
等と使われるため、未登録語が出現した文を含むその文
書の前方を参照すればよい。また機械翻訳などでは最初
に出現した時の検索結果を保持しておけば2度目以降の
出現では検索の必要がないので高速に処理ができる。
以上説明したように、未登録語を略称とみなし元の語又
は語句を検索する場合、どのような検索アルゴリズムを
用いるかによって迅速に正解を得る場合もあるが、誤っ
たものを検索してしまう場合もある。故に本発明は単独
で使用したのでは効果があがらない場合もあるので、例
えば、言語理解装置の前処理として用いると本発明が十
分生かされる。例えば「パソコン1という未登録語をそ
のままにして先の解析(例えば意味解析)を行った場合
、「パソコン1という言葉は最後まで未知のものとして
処理されるが、本発明を用いることにより、rパソコン
1はrパーソナルコンピュータj、rパソコンショップ
1.rパソコンソフト1などと推定できれば、この後の
処理で「パソコン1の正解は1パーソナルコンピユータ
1である可能性が一番高いと推定ができる。例えば、r
富士通が開発した新しいパソコンは、32bit CP
Uを用いたものである。Jという場合、開発したのはr
店jではないし、’32bit CP Uを用いるもの
1はrソフトJでもないことがらrパーソナルコンピュ
ータ1と判断できる。
次に第2図に示した構成要素解析部5と語句切り出し部
6による候補語句の切り出しの一例を説明する。例えば
文書中にr−・全日本電機機器労働組合連合会等による
−1という語句があった場合、字種のみで判断するとr
全日本電機機器労働組合連合等1という文字列が一つの
語句とされるおそれがあるが、構成要素解析部5で形態
素解析を行うことによりr等1というのは接尾辞のよう
なものであると判断され、r全日本電機機器労働組合連
合会1を推定候補として語句切り出し部6より出力する
ことができる。このように漢字語の場合は形態素解析や
構文解析を行った方がよい推定候補を得ることが多い。
[発明の効果] 以上の説明から明らかなように、本発明は、未登録語を
略称とみなし、未登録語の各文字を、この未登録語を構
成する文字順に含む語や語句から省略前の元の形を検索
することを基本とし、未登録語の特徴に応じた検索アル
ゴリズムを用いることにより精度よく、また迅速に正解
に達する方法および装置を提供する。
【図面の簡単な説明】
第1図、第2図は本発明の原理図、第3図、第4図、第
5A図は語句検索のアルゴリズムを示す図、第5B図、
第5C図はカタカナ梧の検索アルゴリズムを示す図、第
5D図は欧米系言語の検索アルゴリズムを示す図、第6
図〜第11図は未登録語の具体例から省略前の元の形を
検索する例を示す図、第12図は辞書にインデックスを
設は検索範囲制限のある場合の検索を示す図、第13図
は文書中に未登録語の定義がある場合を示す図である。 図において、 1−・−単語・語句辞書、 2−・−検索部、3・−出
力部、      4・−・文゛書、5・−構成要素解
析部、 ・・語句切り出し部。

Claims (1)

  1. 【特許請求の範囲】 1)辞書に登録されていない未登録語と認定された単語
    を略称とみなし、この単語を構成する文字が、その構成
    される順序で含まれる単語、語句を検索することにより
    省略前の元の形を推定することを特徴とする未登録語検
    索方法。 2)単語および複数の単語からなる語句を蓄積した単語
    ・語句辞書(1)と、この単語・語句辞書(1)に登録
    されていない未登録語が入力されるとこの未登録語を略
    称とみなし、未登録語を構成する文字がその構成される
    順序で含まれる単語、語句を検索することにより省略前
    の元の形を推定する検索部(2)と、この検索部(2)
    の推定した単語、語句を出力する出力部(3)とを備え
    たことを特徴とする未登録語検索装置。 3)文書の形態素解析、構文解析を行う構成要素解析部
    (5)と、この構成要素解析部(5)の出力から文書中
    の検索範囲の文字列を名詞または名詞句単位に切り出す
    語句切り出し部(6)とを備え、この語句切り出し部(
    6)の出力を前記検索部(2)の検索候補の語または語
    句として検索を行う請求項2記載の未登録語検索装置。 4)未登録語がカタカナ語である場合、前記検索部(2
    )は、この未登録語を所定の数の文字よりなる部分文字
    列に分割し、この部分文字列が前記未登録語を構成する
    順に現れる単語、語句を検索することを特徴とする請求
    項2または3記載の未登録語検索装置。 5)前記部分文字列の先頭文字が検索対象の語又は語句
    の文字と一致し、前記部分文字列の2番目以降の文字と
    対応する前記検索対象の語又は語句の文字列に「−」ま
    たは「ッ」があった場合、この「−」または「ッ」の存
    在を無視して文字の一致を確かめ検索することを特徴と
    する請求項4記載の未登録語検索装置。 6)前記単語・語句辞書(1)を検索する際に、(未登
    録語長)×2−1以上の語長を持つ単語、語句に限定し
    て検索することを特徴とする請求項2〜5のいずれかに
    記載の未登録語検索装置。 7)1つの単語がそれぞれ単独に表記される言語におい
    て、前記検索部(2)は、未登録語の各文字は、単語列
    の各単語の頭文字が各単語の現れる順に並んだものとし
    て、元の単語列を検索することを特徴とする請求項2ま
    たは3記載の未登録語検索装置。 8)前記単語列に冠詞、前置詞、接続詞などの付属詞が
    含まれるときは、これを無視して検索することを特徴と
    する請求項7記載の未登録語検索装置。 9)前記単語・語句辞書(1)を、字種ごと、または文
    字数ごと、または1つの見出しを構成する語句の単語数
    ごと、またはこれらの組み合わせに分割して辞書構成し
    たことを特徴とする請求項2〜8のいずれかに記載の未
    登録語検索装置。 10)前記単語、語句辞書(1)を、字種ごと、または
    文字数ごと、または1つの見出しを構成する語句の単語
    数ごと、またはこれらの組み合わせに分割して、インデ
    ックス構成としたことを特徴とする請求項2〜8のいず
    れかに記載の未登録語検索装置。 11)文書中に記載された未登録語においてこの未登録
    語が記載された文を含みその文より前方の文を検索し、
    この未登録語の省略前の形を示す語または語句を見出す
    ことを特徴とする未登録語検索方法。
JP2253896A 1990-09-20 1990-09-20 未登録語検索方法および装置 Pending JPH04130578A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2253896A JPH04130578A (ja) 1990-09-20 1990-09-20 未登録語検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2253896A JPH04130578A (ja) 1990-09-20 1990-09-20 未登録語検索方法および装置

Publications (1)

Publication Number Publication Date
JPH04130578A true JPH04130578A (ja) 1992-05-01

Family

ID=17257602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2253896A Pending JPH04130578A (ja) 1990-09-20 1990-09-20 未登録語検索方法および装置

Country Status (1)

Country Link
JP (1) JPH04130578A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011227749A (ja) * 2010-04-21 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 略語完全語復元装置とその方法と、プログラム
JP2012022447A (ja) * 2010-07-13 2012-02-02 Fujitsu Ltd 音声合成装置、音声合成プログラムおよび音声合成方法
JP2013117978A (ja) * 2006-09-27 2013-06-13 Academia Sinica タイピング効率向上のためのタイピング候補の生成方法
JP2018032187A (ja) * 2016-08-24 2018-03-01 日本電信電話株式会社 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013117978A (ja) * 2006-09-27 2013-06-13 Academia Sinica タイピング効率向上のためのタイピング候補の生成方法
JP2011227749A (ja) * 2010-04-21 2011-11-10 Nippon Telegr & Teleph Corp <Ntt> 略語完全語復元装置とその方法と、プログラム
JP2012022447A (ja) * 2010-07-13 2012-02-02 Fujitsu Ltd 音声合成装置、音声合成プログラムおよび音声合成方法
JP2018032187A (ja) * 2016-08-24 2018-03-01 日本電信電話株式会社 正式名称・省略表現リスト生成装置、正式名称・省略表現リスト生成方法、プログラム

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US7523102B2 (en) Content search in complex language, such as Japanese
JPH0724056B2 (ja) コンピュータによる形態論的テキスト解析方法
US20070011132A1 (en) Named entity translation
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
Rehman et al. Morpheme matching based text tokenization for a scarce resourced language
Samir et al. Stemming and lemmatization for information retrieval systems in amazigh language
KR101616031B1 (ko) 위키피디아의 언어자원과 병렬 코퍼스를 이용한 교차언어 검색기의 질의어 번역 시스템 및 방법
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
JPH04130578A (ja) 未登録語検索方法および装置
Nagy et al. Noun compound and named entity recognition and their usability in keyphrase extraction
Long et al. Longest matching and rule-based techniques for Khmer word segmentation
US20170220557A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Ahmed et al. Arabic/english word translation disambiguation approach based on naive bayesian classifier
JP2007122525A (ja) 言い換え処理方法及び装置
Al-Taani et al. Searching concepts and keywords in the Holy Quran
EP1605371A1 (en) Content search in complex language, such as japanese
Chaware et al. Rule-based phonetic matching approach for Hindi and Marathi
Gaya A study of building an reverse dictionary
Singh et al. A survey on parts of speech tagging for Indian languages
Yahia et al. An intelligent algorithm for Arabic soundex function using intuitionistic fuzzy logic
Babu et al. An information retrieval system for Malayalam using query expansion technique
Al-Shammari A novel algorithm for normalizing noisy Arabic text
JPH03229367A (ja) テキストベース検索方式
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体