JPH11250063A - 検索装置及び検索方法 - Google Patents

検索装置及び検索方法

Info

Publication number
JPH11250063A
JPH11250063A JP10048425A JP4842598A JPH11250063A JP H11250063 A JPH11250063 A JP H11250063A JP 10048425 A JP10048425 A JP 10048425A JP 4842598 A JP4842598 A JP 4842598A JP H11250063 A JPH11250063 A JP H11250063A
Authority
JP
Japan
Prior art keywords
foreign language
phoneme
pronunciation
voice
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10048425A
Other languages
English (en)
Inventor
Takehiko Yokota
健彦 横田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10048425A priority Critical patent/JPH11250063A/ja
Publication of JPH11250063A publication Critical patent/JPH11250063A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 発音の一部が欠落したり、発音が一部変化し
たりしている場合でも検索可能な外国語検索装置を提供
すること。 【解決手段】 カナから特徴的音素を抽出する特徴発音
抽出規則テーブルと、日本語の音素から外国語の音素へ
の変換規則を格納する発音変換テーブルと、外国語の綴
りと発音記号の組を格納する辞書ファイルとを設け、入
力手段と、入力されたカナ表記の外国語から長音記号
「ー」と促音記号「っ」を削除して1文字単位の特徴的
な音素のみを抽出する特徴発音記号作成手段と、特徴発
音記号の各音素を対応する外国語の音素に置換する外国
語発音記号作成手段と、外国語発音記号の先頭、末尾及
び各音素の間にワイルドカード記号を挿入するワイルド
カードつき外国語発音記号作成手段と、ワイルドカード
つき外国語発音記号にマッチする外国語発音記号を持つ
外国語の綴りを検索する外国語検索手段と、出力手段と
を有することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索装置及び検索
方法に関し、特に外国語の発音の全体または一部をカナ
表記で入力することにより、該当する外国語を検索する
検索装置及び検索方法に関する。
【0002】
【従来の技術】従来から、カナ表記の発音から外国語を
検索する外国語検索装置が知られているが、従来のこの
種の装置では、検索したい外国語の発音の全体を入力す
る必要があった。
【0003】しかしながら、外国語の発音は前後の単語
の発音や話される速さによって発音の一部が欠落した
り、変化したりすることがあり、さらに聞き取りが苦手
な日本人が外国語を聞いた場合には発音を一部聞き落と
したり、聞き間違えたりすることもある。
【0004】このため、検索したい外国語の発音の全体
を入力しなければ検索できない従来の外国語検索装置で
は、例えば耳で聞いた発音から該当する外国語を検索し
たい場合において、利用者が耳で聞いたとおりの発音を
入力しても目的とする外国語を検索できないことがある
という問題があった。
【0005】発音の部分的なゆらぎを考慮したシステム
としては、例えば特開平8−339376号公報におい
て提案されている情報検索システムがある。
【0006】このシステムでは、入力されたカタカナ表
記の発音とデータベースに登録されているカタカナ単語
とを比較して該当する外国語単語を検索する際に、文字
毎の類似度を計算し、算出された文字毎の類似度から単
語類似度を算出し、既定値以上の単語類似度を持つカタ
カナ単語に対する外国語単語を検索結果として出力する
ようになっている。このため、例えば英単語「libr
ary」を検索する場合に、「ライブラリ」と「ライブ
レリ」のどちらの発音表記でも検索を行っても求める結
果を得ることができる。
【0007】しかしながら、かかる情報検索システムの
類似度算出方法では、発音が一部欠落している場合には
検索を正しく行なうことができなくなるという問題があ
る。例えば、英単語「identification」
を検索する楊合、「アイデンティフィケーション」と表
記すれば検索は可能であるが、先頭の「アイ」を聞き落
とし、「identi−」の「t」の発音が欠落した
「デネフィケーション」ではもとの「identifi
cation」を検索することはできない。
【0008】
【発明が解決しようとする課題】上述したように、従来
の外国語検索装置では、検索したい外国語の発音の全体
を入力する必要があり、発音の一部が欠落したり、変化
したりしている場合には検索することができず、このた
め聞き取りが苦手な日本人にとって不便であるという問
題がある。
【0009】また、発音の部分的なゆらぎを考慮した情
報検索システムの類似度算出方法も提案されているが、
この方法を用いる場合にも、発音が一部欠落している場
合には検索を正しく行なうことができなくなるという問
題がある。
【0010】本発明は、かかる従来の問題を解消すべく
なされたもので、欠落・変化・聞き落とし・聞き間違い
を含む発音のカナ表記を入力した場合でも、意図する外
国語を検索することができる外国語検索装置を提供する
ことを目的とする。
【0011】
【課題を解決するための手段】この目的を達成するため
に、請求項1記載の検索装置は、音声を入力するための
手段と、前記入力された音声に適応的に音素を補う手段
と、前記音素を補われた音声に対応する綴りを検索する
手段とを具備する。
【0012】請求項2記載の検索装置は、音声を入力す
るための手段と、前記入力された音声から第1の音素を
抽出する手段と、前記抽出された第1の音素を対応する
第2の音素に変換し、この第2の音素と変数記号とを組
み合わせて変数記号付発音記号を求める手段と、前記求
められた変数記号付発音記号に適合する綴りを発音記号
と綴りとを対応させて記録させた記録部から検索する検
索手段とを具備する。請求項3記載の検索装置は、請求
項2記載の検索装置において、前記検索手段により検索
された綴りの数をカウントし、このカウントされた数が
所定値を越えたときには前記検索手段の処理を中断させ
る手段をさらに具備する。
【0013】請求項4記載の検索装置は、音声を入力す
るための手段と、前記入力された音声に適応的に音素を
補う手段と、前記音素を補われた音声に対応する綴りを
画面に表示する手段とを具備する。
【0014】請求項5記載の検索方法は、音声を入力す
るためのステップと、前記入力された音声に適応的に音
素を補うステップと、前記音素を補われた音声に対応す
る綴りを検索するステップとを具備する。
【0015】請求項6記載の検索方法は、検索の対象の
音声を入力するためのステップと、前記入力された音声
から第1の音素を抽出するステップと、前記抽出された
第1の音素を対応する第2の音素に変換し、この第2の
音素と変数記号とを組み合わせて変数記号付発音記号を
求めるステップと、前記求められた変数記号付発音記号
に適合する綴りを発音記号と綴りとを対応させて記録さ
せた記録部から検索するステップとを具備する。
【0016】外国語検索装置は、入力手段からカナ表記
の外国語を入力すると、特徴発音記号作成手段は、特徴
発音抽出規則テーブルを用いて入力されたカナ表記の外
国語から長音記号「ー」と促音記号「っ」を削除して1
文字単位の特徴的な音素のみを抽出して特徴発音記号を
作成する。
【0017】外国語発音記号作成手段は、発音変換テー
ブルを用いて特徴発音記号の各音素を対応する外国語の
音素に置換して外国語発音記号を作成し、ワイルドカー
ドつき外国語発音記号作成手段は外国語発音記号の先
頭、末尾及び各音素の間にワイルドカード記号を挿入し
てワイルドカードつき外国語発音記号を作成する。
【0018】そして、外国語検索手段は、辞書ファイル
を用いてワイルドカードつき外国語発音記号にマッチす
る外国語発音記号を持つ外国語の綴りを検索し、出力手
段により、この外国語の綴りを直接又は対応するメッセ
ージとして出力する。
【0019】外国語検索手段により検索された外国語の
数が非常に多くなることが予想される場合には、外国語
検索数制限手段により外国語検索手段により検索された
外国語の数をカウントさせ、カウントされた数が予め設
定したしきい値を越えたとき外国語検索手段の処理を中
断させる。
【0020】
【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて説明する。
【0021】図1は本発明の一実施形態に係る外国語検
索装置の構成を示すブロック図、図2はこの外国語検索
装置の動作を説明するためのフローチャート、図3はこ
の外国語検索装置の動作を説明するための概念図であ
る。
【0022】なお、図3で用いている正規表現の記号の
意味は次のとおりである。
【0023】・*:ワイルドカード記号(0個以上の任
意の個数の文字にマッチする)。・(A|B):Aまた
はBとマッチする。
【0024】また、この外国語検索装置は、変換対象が
英語の場合についてのものである。この外国語検索装置
は、カナ入力部1と、特徴発音抽出部2と、発音変換部
3と、ワイルドカード挿入部4と、検索処理部5と、検
索結果出力部6と、特徴発音抽出規則テーブル7と、発
音変換テーブル8と、辞書ファイル9から構成されてい
る。
【0025】カナ入力部1は、検索したい外国語を入力
する機能を有するように構成され、例えばキーボード、
マウス、音声入力装置などによって実現される。
【0026】特徴発音抽出部2は、カナ入力部1に入力
された外国語から特徴発音抽出規則テーブル7を用いて
特徴発音を抽出する機能を有するように構成される。
【0027】発音変換部3は、特徴発音抽出部2で抽出
された特徴発音を発音変換テーブル8を用いて外国語発
音記号に変換する機能を有するように構成される。
【0028】ワイルドカード挿入部4は、発音変換部3
で変換された外国語発音記号の各音素間にワイルドカー
ドを挿入する機能を有するように構成される。
【0029】検索処理部5は、ワイルドカード挿入部4
でワイルドカードを挿入された外国語発音記号にマッチ
する外国語の綴りを辞書ファイル9から取り出す機能を
有するように構成される。
【0030】検索結果出力部6は、検索処理部5の検索
結果を出力する機能を有するように構成され、例えばデ
ィスプレイ、プリンタなどによって実現される。
【0031】特徴発音抽出規則テーブル7は、例えば図
3のテーブル309のように構成されており、それぞれ
のカナ文字の発音を特徴づけている音素を容易に求める
ことができるようになっている。一般に外国語をカナ表
記した場合には子音に付随する母音は定まりにくいの
で、カ行以下のカナ文字については子音の部分が特徴的
音素とされている。
【0032】発音変換テーブル8は、例えば図3のテー
ブル310のように構成されており、それぞれの日本語
音素に対応する外国語音素を容易に求めることができる
ようになっている。なお、例えば英語の「s」と「t
h」の音は、日本語の発音で表記する場含どちらも
「ス」になってしまうように、日本語の音素に対応する
外国語の音素は複数存在することがある。このため、外
国語音素が正規表現で書かれることもある。前述の例で
は、日本語の音素「s」には外国語の音素として正規表
現(s|θ)が対応する。同様に日本語の音素「N」に
は外国語の音素として(n|m)が対応する。
【0033】辞書フアイル9は、例えば図3のファイル
311のように構成されており、外国語の綴りが当該外
国語の発音記号と組になって格納されている。各組は発
音記号の長さをキーとして昇順にソートしてある。
【0034】次に図1、図2及び図3に基づいてこの外
国語検索装置の動作を説明する。
【0035】「identification」を「デ
ネフィケーション」と誤って認識した利用者はカナ入力
部1より、カナ表記の発音「デネフィケーション」を入
力する(ステップ201,301)。
【0036】入力されたカナを受け取った特徴発音抽出
部2は、特徴発音抽出規則テーブル7に格納されている
抽出規則に従ってこのカナ「デネフィケーション」から
特徴発音を抽出し、特徴発音記号「d,n,f,k,s
h,N」を作成する(ステップ202,302,30
3)。この際、長音記号「一」及び促音「っ」は削除さ
れる。
【0037】作成された特徴発音記号「d,n,f,
k,sh,N」を受け取った発音変換部3は、発音変換
テーブル8に格納されている変換規則に従って特徴発音
記号を外国語発音記号
【数1】 に変換する(ステップ203,304,305)。
【0038】変換された外国語発音記号を受け取ったワ
イルドカード挿入部4は、外国語発音記号の先頭、末尾
及び各音素の間にワイルドカード記号「*」を挿入し、
ワイルドカードつき外国語発音記号
【数2】 を作成する(ステップ204,306)。ただし、図3
で括弧でくくられた部分は1つの音素のように扱うこと
にする。すなわち、括弧の中にはワイルドカード記号を
挿入しない。
【0039】作成されたワイルドカードつき外国語発音
記号を受け取った検索処理部5は、辞書ファイル9から
外国語の綴りと当該外国語の発音記号の組を先頭から順
次取り出し(ステップ205,307)、取り出した外
国語の発音記号が前記ワイルドカードつき外国語発音記
号とマッチするかどうかを調べる(ステップ206、3
07)。
【0040】マッチした場合、当該発音記号を持つ外国
語の綴り「identification」を検索結果
出力部6より出力する(ステップ207、308)。
【0041】以上の処理を、辞書ファイル9に格納され
ている総ての外国語について行なう(ステップ20
9)。なお、場合によってはマッチする外国語の個数が
膨大になるため、あるしきい値を設けておき、しきい値
より多くの外国語かマッチした場合、それまでにマッチ
した外国語だけを得られた結果とし、処理を中断する
(ステップ208)。総ての発音記号を辞書ファイル9
から取り出し終えると処理を終了する。
【0042】このように本発明の一実施形態に係る外国
語検索装置によれば、ワイルドカード付発音記号に合う
ものを辞書ファイルから検索するので、不完全な発音か
らも意図する外国語を検索することができる。
【0043】なお、本発明は、上述した実施形態には限
定されず、本発明の技術思想の範囲内で様々な変形が可
能である。
【0044】例えば、上述した実施形態では、本発明を
具現化する対象として外国語検索装置を例にとり説明し
たが、上述した実施形態を外国語検索としてとらえるこ
とも可能である。
【0045】また、検索結果は、外国語をそのまま出力
させずに、対応する他のメッセージの形式で出力させる
ようにしてもよい。
【0046】以上の実施例では、変換対象として英語を
考えたが、これに限られることはなく、他の外国語でも
特徴発音抽出テーブル7と発音変換テーブル8と辞書フ
ァイル9のデータを変換することにより同様の効果を得
ることができる。
【0047】また、入力したカナ表記に誤りがない場合
に対応する外国語の検索が誤りなく行われることはもち
ろんである。
【0048】
【発明の効果】以上説明したように、本発明の外国語検
索装置においては、利用者が検索したい単語の正しい発
音を知っている必要はなく、欠落・変化・聞き落とし・
聞き間違いがあるような不完全な発音からも意図する外
国語を検索することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る外国語検索装置の構
成を示すブロック図である。
【図2】本外国語検索装置の動作を示すフローチャート
である。
【図3】本外国語検索装置の動作を説明するための概念
図である。
【符号の説明】
1……カナ入力部 2……特徴発音抽出部 3……発音変換部 4……ワイルドカード挿入部 5……検索処理部 6……検索結果出力部 7……特徴発音抽出規則テーブル 8……発音変換テーブル 9……辞書ファイル
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/40 370J 15/403 310Z

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力するための手段と、 前記入力された音声に適応的に音素を補う手段と、 前記音素を補われた音声に対応する綴りを検索する手段
    とを具備することを特徴とする検索装置。
  2. 【請求項2】 音声を入力するための手段と、 前記入力された音声から第1の音素を抽出する手段と、 前記抽出された第1の音素を対応する第2の音素に変換
    し、この第2の音素と変数記号とを組み合わせて変数記
    号付発音記号を求める手段と、 前記求められた変数記号付発音記号に適合する綴りを発
    音記号と綴りとを対応させて記録させた記録部から検索
    する検索手段とを具備することを特徴とする検索装置。
  3. 【請求項3】 前記検索手段により検索された綴りの数
    をカウントし、このカウントされた数が所定値を越えた
    ときには前記検索手段の処理を中断させる手段をさらに
    具備することを特徴とする請求項2記載の検索装置。
  4. 【請求項4】 音声を入力するための手段と、 前記入力された音声に適応的に音素を補う手段と、 前記音素を補われた音声に対応する綴りを画面に表示す
    る手段とを具備することを特徴とする検索装置。
  5. 【請求項5】 音声を入力するためのステップと、 前記入力された音声に適応的に音素を補うステップと、 前記音素を補われた音声に対応する綴りを検索するステ
    ップとを具備することを特徴とする検索方法。
  6. 【請求項6】 検索の対象の音声を入力するためのステ
    ップと、 前記入力された音声から第1の音素を抽出するステップ
    と、 前記抽出された第1の音素を対応する第2の音素に変換
    し、この第2の音素と変数記号とを組み合わせて変数記
    号付発音記号を求めるステップと、 前記求められた変数記号付発音記号に適合する綴りを発
    音記号と綴りとを対応させて記録させた記録部から検索
    するステップとを具備することを特徴とする検索方法。
JP10048425A 1998-02-27 1998-02-27 検索装置及び検索方法 Withdrawn JPH11250063A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10048425A JPH11250063A (ja) 1998-02-27 1998-02-27 検索装置及び検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10048425A JPH11250063A (ja) 1998-02-27 1998-02-27 検索装置及び検索方法

Publications (1)

Publication Number Publication Date
JPH11250063A true JPH11250063A (ja) 1999-09-17

Family

ID=12802990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10048425A Withdrawn JPH11250063A (ja) 1998-02-27 1998-02-27 検索装置及び検索方法

Country Status (1)

Country Link
JP (1) JPH11250063A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2007079072A (ja) * 2005-09-13 2007-03-29 National Institute Of Advanced Industrial & Technology 音声認識方法および音声認識装置
JP2012014699A (ja) * 2010-06-30 2012-01-19 Business Objects Software Ltd 日本語のための音声キー

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188556A (ja) * 1999-12-27 2001-07-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及び装置
JP2002041081A (ja) * 2000-07-28 2002-02-08 Sharp Corp 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体
JP2007079072A (ja) * 2005-09-13 2007-03-29 National Institute Of Advanced Industrial & Technology 音声認識方法および音声認識装置
JP4576612B2 (ja) * 2005-09-13 2010-11-10 独立行政法人産業技術総合研究所 音声認識方法および音声認識装置
JP2012014699A (ja) * 2010-06-30 2012-01-19 Business Objects Software Ltd 日本語のための音声キー

Similar Documents

Publication Publication Date Title
JP2836159B2 (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US5680511A (en) Systems and methods for word recognition
US7580835B2 (en) Question-answering method, system, and program for answering question input by speech
US7177795B1 (en) Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
CN109635270A (zh) 双向概率性的自然语言重写和选择
JPH01501977A (ja) 言語翻訳システム
JPWO2018097091A1 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム
Pennell et al. Normalization of text messages for text-to-speech
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
CN107967250B (zh) 一种信息处理方法及装置
JP2012194245A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4738847B2 (ja) データ検索装置および方法
JP3309174B2 (ja) 文字認識方法及び装置
JPH11250063A (ja) 検索装置及び検索方法
KR100487716B1 (ko) 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
JP2003162524A (ja) 言語処理装置
Grishman Information extraction and speech recognition
JP3758241B2 (ja) 音声情報検索装置
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP3029403B2 (ja) 文章データ音声変換システム
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
JPS6229796B2 (ja)
JP2001265792A (ja) 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体
JP2008249761A (ja) 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
TWI220206B (en) System and method for searching a single word in accordance with speech

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050510