JP2011039468A

JP2011039468A - 電子辞書で音声認識を用いた単語探索装置及びその方法

Info

Publication number: JP2011039468A
Application number: JP2009234214A
Authority: JP
Inventors: Sanghun Kim; サンフンキム; Jun Park; ジュンパク; Sang Kyu Park; サンキュパク
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2009-08-14
Filing date: 2009-10-08
Publication date: 2011-02-24
Also published as: KR101250897B1; KR20110017600A

Abstract

【課題】電子辞書の音声認識機能にＮ−ｂｅｓｔ認識結果を出力して単語検索を迅速に行える電子辞書で音声認識を用いた単語探索装置及びその方法を提供する。
【解決手段】本発明は電子辞書で音声認識を用いた単語探索技術に関するものであり、音声認識誤りが発生しても多数の音声認識候補（Ｎ−ｂｅｓｔ）に対する認識結果を出力してユーザがそのうちの１つを選択できるようにすることで、音声認識誤りの不便さを軽減し、特に英韓辞書の検索において、本来の辞書的単語の発音はもちろん、発音を知らない場合にアルファベットの連続発音の組み合わせをその単語の発音として認識できるように発音の変移を多重で提供してユーザが発音を知らない英文単語でも音声で容易に検索することを特徴とする。本発明によれば、既存の英語アルファベット単位の音声認識方法に比べて高い正確率で英韓辞書の検索を非常に迅速に行うことができ、音声認識誤りが発生してもＮ−ｂｅｓｔ候補から正解を選択でき、電子辞書のユーザ利便性を大幅に改善できる。
【選択図】図２

Description

本発明は電子辞書を通じた単語検索技術に関し、特に、英韓辞書及び英語アルファベットで構成された外国言語に対する辞書検索を音声認識技術で行う場合、Ｎ−ｂｅｓｔ認識結果を出力して音声認識誤りの不便さを軽減し、辞書的単語の発音はもちろん、アルファベットの連続発音の組み合わせもその単語の発音として認識できるように発音の変移を多重で提供することが可能な電子辞書で音声認識を用いた単語探索装置及びその方法に関する。

一般に、電子辞書は韓国語、英語、日本語、中国語などの各国言語の辞書を記憶媒体に入れて電子化したものであって、膨大な量のデータを検索アプリケーションが内蔵されたコンピューティング装置、或いは携帯用機器を通じて容易に検索でき、検索された情報に関するテキスト情報以外に写真、動画、音響などを共に入れて情報を容易に理解できるように実現された機器である。

このような電子辞書機器には、検索しようとする言語の入力のための入力パネルが備えられている。ユーザが入力パネルであるキーボード又はタッチスクリーンを用いて単語の綴りを入力すれば、入力された綴りに部分的にパターンマッチングされる単語が順次ディスプレイされる。検索しようとする単語がディスプレイされてユーザがキーボード又はタッチスクリーンで選択すれば、電子辞書機器は選択された単語に関する辞書情報を提供する。

キーパッドボタンの個数が限定されてキーボードの検索が困難な移動通信端末の場合には内蔵された辞書情報を便利に検索するために音声認識技術を用いることができる。キーボードが備えられたコンピューティング装置及び携帯用電子辞書でも辞書の検索を迅速に行うために音声認識技術を用いることができる。

音声認識技術は、入力音声信号を音声信号処理技術を用いて文字列に変換する技術であって、音声合成と共に音声信号処理の最も核心的な技術分野の１つである。音声認識技術は、独立して発声された単語を認識する数十単語規模の孤立単語の認識から連続単語の認識、連続的な文章よりキーワードのみ検出して認識するキーワードの検出、そして、文章単位の発話を認識する連続音声の認識などに発展しており、近年は人と人との間で自然に発声する対話体音声を認識できるようにする対話体認識技術が活発に研究されている。

しかしながら、このような音声認識技術を用いた電子辞書検索の場合には音声認識誤りによる不便さの方が更に大きいことがあり得る。特に、英韓辞書を音声認識を通じて検索する場合には、英文単語の発音がこれを発声するユーザ毎に偏差が大きいので、現実的に認識し難いことから、アルファベット単位の音声認識により検索を行わざるを得ないが、アルファベット単位の音声認識は誤りが発生する可能性が高く、実質的に電子辞書の検索に適用し難い。

このように、従来技術による電子辞書で音声認識技術を用いた単語検索方式は、電子辞書に備えられたキーボードを用いて特定言語の綴りを入力する方式よりも容易に利用することはできるが、ユーザの発音や、周辺ノイズなどにより音声認識率が大きく低下し、これによる音声認識誤りによって更に大きい不便さを招くという問題がある。

特開２００４−３０９９２８号公報

本発明は、上記事情に鑑みてなされたものであって、その目的は、電子辞書の音声認識機能にＮ−ｂｅｓｔ認識結果を出力して単語検索を迅速に行える電子辞書で音声認識を用いた単語探索装置及びその方法を提供することにある。

また、本発明の目的は、音声認識誤りが発生してもＮ−ｂｅｓｔ認識結果を出力してユーザがそのうちの１つを選択できるようにすることで、音声認識誤りの不便さを軽減し、特に、英韓辞書の検索において本来の辞書的（ｌｅｘｉｃａｌ）単語の発音はもちろん、発音を知らない場合にアルファベットの連続発音の組み合わせをその単語の発音として認識できるように発音の変移を多重で提供してユーザが発音を知らない英文単語でも音声で容易に検索できる電子辞書で音声認識を用いた単語探索装置及びその方法を提供することにある。

本発明の一観点による電子辞書で音声認識を用いた単語探索装置は、単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号から音素列を抽出する前処理部と、既に格納された多重発音辞書の発音列と前記抽出された音素列をマッチングしてネットワークを構成する単語ネットワーク構成部と、スピーチコーパスから前記音声信号の特徴を抽出して前記多重発音辞書を参照してトライフォン単位の音響モデルをモデリングする訓練部と、前記構成されたネットワークと、前記訓練部から伝達された前記トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する単語探索部とを含む。

本発明の他の観点による電子辞書で音声認識を用いた単語探索装置は、単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号の入力を受ける音声入力部と、前記入力された音声信号から音素列を抽出し、これを既に格納された多重発音辞書の発音列とマッチングした後、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する音声認識部とを含む。

本発明の更に他の観点による電子辞書で音声認識を用いた単語探索方法は、単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号から音素列を抽出する前処理工程と、既に格納された多重発音辞書情報から発音列の伝達を受けて前記抽出された音素列とのマッチングを通じて単語ネットワークを構成する工程と、前記構成された単語ネットワークと、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する工程とを含む。

本発明の更に別の観点による電子辞書で音声認識を用いた単語探索方法は、単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号の入力を受ける工程と、前記入力された音声信号から音素列を抽出し、これを既に格納された多重発音辞書情報の発音列とマッチングした後、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する工程と、前記探索された単語をディスプレイ部を通じて出力する工程とを含む。

本発明に係る電子辞書で音声認識を用いた単語探索装置及びその方法によれば、既存の英語アルファベット単位の音声認識方法に比べて高い正確率で英韓辞書の検索を非常に迅速に行うことができ、音声認識誤りが発生してもＮ−ｂｅｓｔ候補から正解を選択でき、電子辞書のユーザ利便性を大幅に改善できるという効果を奏する。

また、英語以外の言語に対してもアルファベットを用いる言語に対して音声により辞書の検索を可能にできるという効果が得られる。

本発明の実施形態による音声認識用電子辞書機器の構造を示すブロック図である。本発明の実施形態による音声認識用電子辞書機器の動作手順を示すフローチャートである。本発明の実施形態による音声認識部内の訓練部の構造を示すブロック図である。本発明の実施形態による訓練部の動作手順を示すフローチャートである。本発明の実施形態による音声認識部内のデコード部の構造を示すブロック図である。本発明の実施形態によるデコード部の動作手順を示すフローチャートである。

本発明の実施形態を説明するにおいて公知となった又は構成についての具体的な説明が本発明の要旨を不要に曖昧にするおそれがあると判断される場合にはその詳細な説明を省略する。そして、後述する用語は、本発明の実施形態での機能を考慮して定義された用語であって、これはユーザ、運用者の意図又は慣例などによって変わり得る。従って、その定義は本明細書全般にわたる内容に基づいて下されるべきである。明細書全体にわたって同一の参照符号は、同一の構成要素を示す。

以下、添付する図面を参照して本発明の実施形態を詳細に説明する。
図１は、本発明の実施形態による音声認識用電子辞書機器の構造を示すブロック図である。

図１を参照すれば、音声認識用電子辞書機器１００は、音声入力を通じて認識された単語に対する辞書機能を提供するものであって、音声入力部１０２、音声認識部１０４、メモリ１０６とディスプレイ部１０８などを含む。

音声入力部１０２は、マイクを通じて既に設定された時間にユーザの音声の入力を受け、入力されたユーザの音声は音声認識部１０４に伝達される。このとき、入力されるユーザの音声は辞書的発音又は文字連続発音の組み合わせになり得る。音声認識部１０４は、音声入力部１０２から伝達されたユーザの音声を認識してメモリ１０６に格納された音響モデルを参照して、ディスプレイ部１０８を通じてＮ−ｂｅｓｔ認識結果を出力する。

一方、ユーザが音声入力部１０２を通じて音声を入力する時、検索しようとする単語に対する辞書的発音を知っている場合には辞書的発音を入力でき、辞書的発音を知らない場合には文字連続発音の組み合わせを入力できる。或いは音声入力時に音声認識部１０４でディスプレイ部１０８を通じて辞書的発音の入力又は文字連続発音の組み合わせの入力メニューをユーザが選択できるようにしてユーザが選択したメニューに該当する音声の入力を受けることもできる。

メモリ１０６は、音響モデルを格納しており、該当言語に対する辞書的発音モデルと文字連続発音の組み合わせモデルが別々に区分されていることができる。これにより、音声認識部１０４でメニュー選択を通じてユーザの音声の入力を受けた場合には該当音響モデルのみを音声認識部１０４に提供するようになる。

ディスプレイ部１０８は、音声認識部１０４から導き出されたＮ−ｂｅｓｔ認識結果を画面上に出力する役割をするが、タッチパネルが内蔵されたタッチスクリーン方式が使用され得る。

ディスプレイ部１０８を通じて出力されたＮ−ｂｅｓｔ認識結果でタッチスクリーン又はユーザ命令の入力が可能な入力パネルを通じて特定単語が選択された場合、選択された単語に関する辞書情報が画面上に提供される。

図２は、本発明の実施形態による音声認識用電子辞書機器の動作手順を示すフローチャートである。

図２を参照すれば、２０２段階で電子辞書機器１００を動作させて２０４段階で音声認識機能が駆動されるようにする。２０６段階では電子辞書機器１００内の音声入力部１０２を通じて特定言語、例えば、英語単語に対する辞書的発音及び単語のアルファベット連続発音の組み合わせをユーザから入力を受けるようになる。

このとき、電子辞書機器１００では辞書的発音及び単語の連続発音の組み合わせのうちのいずれか１つをユーザが選択した後、音声を入力できるように音声入力メニューを提供することもできる。

続いて、２０８段階で音声認識部１０４でユーザの発声に対してメモリ１０６に格納された音響モデルを参照してＮ−ｂｅｓｔ音声認識結果を出力する。２１０段階で出力されたＮ−ｂｅｓｔ音声認識結果のうち、ユーザの所望する単語が導き出されてユーザが該当単語を選択すれば、２１２段階では選択された単語に関する辞書情報をディスプレイ部１０８を通じてディスプレイする。

仮に、２１０段階でユーザの所望する単語が導き出されず、既に設定された時間ユーザから選択された単語がなかったり、選択する単語がないという情報の入力を受けた場合は、２１４段階に進んでユーザに再び発声を要請した後、２０６段階に戻り、再びユーザの発声の入力を受けるようになる。

一方、図１を再び参照すれば、電子辞書機器１００の音声認識部１０４は、オフラインで音響モデリングを行う訓練部３００とオンラインで最も近い単語を検索するデコード部５００とに分けられる。これにより、図３〜図６を参照して訓練部３００及びデコード部５００の実現方式及び動作手順を具体的に説明する。

図３は、本発明の実施形態による音声認識部内の訓練部３００の構造を示すブロック図である。

図３を参照すれば、音響モデリングを行う訓練部３００は、スピーチコーパス情報部３０２と、特徴抽出部３０４と、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、以下「ＨＭＭ」という）訓練部３０６と、メモリ３０８と音響モデル格納部３１０などを含む。訓練部３００は、単語の辞書的発音とその単語の文字別連続発音の組み合わせを多重発音とするＨＭＭ訓練を通じて、トライフォン単位の音響モデリングを行うことで、最終的な訓練の結果であるトライフォン単位の音響モデルをデコード部に伝達するようになる。

訓練部３００のスピーチコーパス情報部３０２は、スピーチコーパスに関する情報を格納しているものであって、ここで、スピーチコーパスは、いつでも再使用が可能なように付加的な情報化ドキュメントが備えられており、コンピュータで読み取れる形態で構成された多数の話者に対するスピーチ資料の集まり、即ち、発声のまとまりになり得る。

特徴抽出部３０４は、このようなスピーチコーパス情報部３０２から伝達されるスピーチコーパス情報別に音声のパターンや、音素列などの特徴を抽出した後、抽出された特徴情報をＨＭＭ訓練部３０６に伝達する。

ＨＭＭ訓練部３０６は、抽出された特徴情報をメモリ３０８上に既に格納された多重発音辞書とのパターンマッチング及び音素列の比較などを通じて訓練を行い、抽出された特徴情報と多重発音辞書による副単語モデルの結合を通じてＨＭＭを構成する。即ち、ＨＭＭ訓練部３０６は、不特定多数の話者の音声に対する認識と単語の辞書的発音とその単語の文字別連続発音の組み合わせを含む多重発音辞書を通じて統計的なモデルを形成するが、これを音響モデリングという。

音響モデリングとは、音声認識に用いられる統計的モデルの基本単位を定め、これらを学習させることを意味し、このとき、音響モデリングは各音素の前音素と後音素まで考慮するトライフォン単位の音響モデルを形成するようになる。

このようなトライフォン単位の音響モデルは音素の前後音素まで考慮することで、学習させなければならないトライフォンが幾何級数的に多くなることができ、このような場合には類似した特性を示すトライフォンを互いにグループ化して学習させるようにする。

このように、ＨＭＭ訓練部３０６では単語の辞書的発音とその単語の文字別連続発音の組み合わせ、特に、英文単語の辞書的発音とその単語のアルファベット連続発音の組み合わせを多重発音とするＨＭＭ訓練を通じてトライフォン単位の音響モデリングを形成し、形成された音響モデルは音響モデル格納部３１０に格納されるようにして、後でデコード部に伝達される。

図４は、本発明の実施形態による訓練部３００の動作手順を示すフローチャートである。

図４を参照すれば、４００段階で特徴抽出部３０４は、スピーチコーパス情報部３０２からスピーチ情報の入力を受けて４０２段階で入力されたスピーチ情報に関する音声のパターンや音素、各音素の前後音素などに対する特徴を抽出してこれをＨＭＭ訓練部３０６に伝達する。

これにより、４０４段階でＨＭＭ訓練部３０６では抽出された特徴情報に単語の辞書的発音とその単語の文字別連続発音の組み合わせに対するマッチングを通じてトライフォン単位の音響モデリングを行うようになり、トライフォン単位の音響モデリングを通じて出力された音響モデルは４０６段階で音響モデル格納部３１０に格納される。

図５は、本発明の実施形態による音声認識部内のデコード部５００の構造を示すブロック図である。

図５を参照すれば、デコード部５００は、音声認識部１０４に入力されたユーザの音声を認識した後、認識された音声に該当する最適の単語を検索するものであって、前処理部５１０、単語ネットワーク構成部５１２、単語探索部５１４、認識結果出力部５１６などを含み、このとき、前処理部５１０は音声区間検出器５０２と、特徴パラメータ抽出器５０４などを含む。

前処理部５１０は、入力されたユーザの音声、即ち、単語に対する発音又は文字別連続発音から単語を認識するものであって、前処理部５１０内の音声区間検出器５０２では入力された音声信号の標本化及び終点の検出を行い、特徴パラメータ抽出器５０４ではプリエンファシス（ｐｒｅｅｍｐｈａｓｉｓ）のように音声信号領域の周波数振幅を高めてノイズを低減した後、時変的な特性を代表できる特徴ベクトルの列に変換した後、音声別区間を検出してＮ個で構成された音素列を出力するようになる。

その後、単語ネットワーク構成部５１２ではメモリ３０８に格納された多重発音辞書から発音列を持ってきて各単語の発音、即ち、前処理部５１０から出力された各音素列に該当するＨＭＭモデルを連結してネットワークを構成する。

これにより、単語探索部５１４では構成されたネットワーク情報と訓練部３００から伝達されたトライフォン単位の音響モデルを用いて話者の発声に最も近い単語に対する探索を行ってユーザが入力した音声で認識された単語に近い順にＮ個の認識結果を認識結果出力部５１６に伝達することで、認識結果出力部５１６で既に設定されたＮ個の順（Ｎ−ｂｅｓｔ）に認識結果を出力するようになる。

例えば、英語単語に対する多重発音は、あらゆる英語辞書の表題語（ｅｎｔｒｙ）に対して（表１）のように構成されることができる。

（表１）は、一部の表題語に対する多重発音構成を示すものであって、英語辞書の表題語及び多重発音辞書のリストを示す。

また、Ｎ−ｂｅｓｔ認識結果は、例えば、ユーザから入力された音声、即ち、話者の発声が“ｃｏｍｐｕｔｅｒ”である場合に対して（表２）及び（表３）のように出力される。

（表２）は、“ｃｏｍｐｕｔｅｒ”を／コンピュータ／と発音した場合であって、Ｎ＝５であるＮ−ｂｅｓｔ出力結果を示す。

更に、（表３）は“ｃｏｍｐｕｔｅｒ”を／シーオーエムピーユーティーイーアール／と発音した場合であって、Ｎ＝５であるＮ−ｂｅｓｔ出力結果を示す。

その後、電子辞書機器１００のタッチスクリーン及びキーボードのような入力パネルを通じてユーザから特定単語が選択された場合、電子辞書機器１００では該当単語に関する辞書情報をユーザにディスプレイするようになる。

図６は、本発明の実施形態によるデコード部の動作手順を示すフローチャートである。

図６を参照すれば、６００段階でユーザは検索しようとする単語を音声で入力する。このとき、ユーザが単語の発音を知っている場合と発音を知らない場合とに分けて適用できる。即ち、ユーザが“ｃｏｍｐｕｔｅｒ”という単語を検索する時にその単語の発音を知っている場合には／コンピュータ／と発声した音声を入力するようになるが、“ｃｏｍｐｕｔｅｒ”という単語の発音を知らない場合には、その単語に該当する英語アルファベットの連続発音の組み合わせである／シーオーエムピーユーティーイーアール／を音声で入力する。

６０２段階では前処理部５１０内の音声区間検出器５０２から入力された発音、即ち、英語の辞書的発音又はアルファベットの連続発音の組み合わせに対する音声区間を検出し、６０４段階で特徴パラメータを抽出して前処理された単語情報を単語ネットワーク構成部５１２に伝達し、６０６段階では多重発音辞書の発音列を参照して該当単語の発音に該当するＨＭＭモデルを連結してネットワークを構成する。

即ち、これはメモリ３０８に格納された多重発音辞書から発音列の伝達を受けた単語ネットワーク構成部５１２から抽出された音素列とのマッチングを通じてネットワークを構成することを意味する。ここで、メモリ３０８に含まれている多重発音辞書には“ｃｏｍｐｕｔｅｒ”に対する多重発音である／コンピュータ／と／シーオーエムピーユーティーイーアール／の両方を有しているため、アルファベットの連続発音に対しても認識が可能となる。

そして、６０８段階で単語探索部５１４は、認識された単語に関するネットワーク情報とトライフォン単位の音響モデルを用いて話者の発声に最も近い単語に対する探索を行う。６１０段階では探索された単語のうち、最上位順に既に設定されたＮ個の認識単語を認識結果出力部５１６を通じて出力するようになる。

その後、電子辞書機器１００のディスプレイ部１０８を通じてＮ個の音声認識結果を出力するようになれば、ユーザは出力されたＮ−ｂｅｓｔ認識結果を確認した後、ユーザが発音した単語が存在する場合、ディスプレイ部１０８のタッチスクリーンを用いて該当単語を選択することで、従来の音声認識方法に比べて高い認識性能で短時間内に単語を検索できる。

また、既存の音声認識方法がアルファベットを個別単位で認識し、また１個の単語に対する認識結果を出力するようにすることで、認識誤りが発生する可能性が非常に高いのに対し、本発明の実施形態はアルファベットの連続発音の組み合わせを認識し、Ｎ個の認識候補のうち最終的に１個を選択するようにすることで、音声認識の誤りによる不便さを大幅に改善できる。

このように音声認識の音響モデル単位は、音韻環境が考慮されたトライフォンになり、トライフォン単位の音響モデルが連結された単語認識を通じて既存のアルファベット単位の音声認識より音声認識率もかなり改善できるという効果がある。もちろん、既存の辞書が大部分大規模な単語（例えば、１０万単語レベル）で構成されて単語単位の音声認識を行うのに計算量が多く要求されるが、アルファベット間の音韻環境は多くないため、計算しなければならない音響モデルの数が少なく、最近、電子辞書端末の仕様が大語彙の音声認識を可能にする水準にまで発展しているので、本発明の実施形態を実現又は適用する上では特に問題がない。

このような本発明の実施形態を通じて中国語辞書、フランス語辞書など発音を知らなくても英語アルファベットの連続発音の組み合わせを単語の多重発音で処理することで、英語アルファベットを使用したり、英語アルファベットで単語検索が可能な多様な外国語に対して電子辞書を通じて容易に検索できる機能を提供する。

以上説明した通り、本発明の実施形態による電子辞書で音声認識を用いた単語探索装置及びその方法は、電子辞書の音声認識機能にＮ-ｂｅｓｔ認識結果を出力して単語検索を迅速に行うことができ、特に、英韓辞書の検索において本来の辞書的単語の発音はもちろん、発音を知らない場合、アルファベットの連続発音の組み合わせをその単語の発音として選択できるように発音の変移を多重で提供してユーザが発音を知らない英文単語でも音声で容易に検索を行う。

一方、本発明の詳細な説明では電子辞書で音声認識を用いた単語探索装置及びその方法に対する具体的な実施形態について説明したが、本発明の範囲から逸脱しない範囲内で様々な変形が可能であることはもちろんである。即ち、本発明の実施形態では英文単語及びアルファベットを例に挙げて説明しているが、特定言語の辞書的発音及び該当言語の単語に対して一文字ずつ発音する連続発音の組み合わせに基づいて音声認識を行い、音声認識されたデータに基づいてＮ−ｂｅｓｔ認識結果及び選択された単語に対する辞書機能を提供する方式であらゆる言語に対して適用可能であることはもちろんである。

従って、本発明の範囲は、説明された実施形態に限定されず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なものなどにより定められるべきである。

１００音声認識用電子辞書機器
１０２音声入力部
１０４音声認識部
１０６メモリ
１０８ディスプレイ部
３００訓練部
３０２スピーチコーパス情報部
３０４特徴抽出部
３０６ＨＭＭ訓練部
３０８メモリ（多重発音辞書）
３１０音響モデル格納部
５００デコード部
５０２音響区画検出部
５０４特徴パラメータ抽出部
５１０前処理部
５１２単語ネットワーク構成部
５１４単語探索部
５１６認識結果出力部

Claims

単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号から音素列を抽出する前処理部と、
既に格納された多重発音辞書の発音列と前記抽出された音素列をマッチングしてネットワークを構成する単語ネットワーク構成部と、
スピーチコーパスから前記音声信号の特徴を抽出して前記多重発音辞書を参照してトライフォン単位の音響モデルをモデリングする訓練部と、
前記構成されたネットワークと、前記訓練部から伝達された前記トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する単語探索部と
を含む電子辞書で音声認識を用いた単語探索装置。
前記単語探索装置は、
前記単語探索部の探索結果、多数の音声認識候補を最上位の認識結果の順に既に設定された個数だけ出力する認識結果出力部を更に含むことを特徴とする請求項１に記載の電子辞書で音声認識を用いた単語探索装置。
前記前処理部は、
前記音声信号の標本化及び終点の検出を行う音声区間検出器と、
前記検出された情報に基づいて前記音声信号の特徴を抽出し、音声別区間を検出して前記音素列を形成する特徴パラメータ抽出器と
を含むことを特徴とする請求項１に記載の電子辞書で音声認識を用いた単語探索装置。
前記訓練部は、
スピーチコーパスから前記音声信号のパターン及び音素列の特徴を抽出する特徴抽出部と、
前記抽出された特徴と、前記多重発音辞書情報による副単語モデルの結合を通じて隠れマルコフモデル（ＨＭＭ）を構成し、これをトライフォン単位で学習させて前記トライフォン単位の音響モデルをモデリングするＨＭＭ訓練部と、
前記モデリングされたトライフォン単位の音響モデルを格納する音響モデル格納部と
を含むことを特徴とする請求項１に記載の電子辞書で音声認識を用いた単語探索装置。
前記多重発音辞書は、
各言語別単語に対する辞書的発音及び該当単語の文字別連続発音を含むことを特徴とする請求項４に記載の電子辞書で音声認識を用いた単語探索装置。
前記音声信号は、
英韓辞書の検索のための英単語の辞書的発音又はアルファベットの連続発音の組み合わせであることを特徴とする請求項１に記載の電子辞書で音声認識を用いた単語探索装置。
単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号の入力を受ける音声入力部と、
前記入力された音声信号から音素列を抽出し、これを既に格納された多重発音辞書の発音列とマッチングした後、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する音声認識部と
を含む電子辞書で音声認識を用いた単語探索装置。
前記音声認識部は、
スピーチコーパスから音声に対する特徴を抽出し、前記多重発音辞書を参照して前記トライフォン単位の音響モデルをモデリングする訓練部と、
前記音声信号から前記音素列を抽出し、前記前記抽出された音素列と前記多重発音辞書をマッチングして単語ネットワークを構成し、前記トライフォン単位の音響モデルを参照して探索された多数の音声認識候補を最上位の認識結果の順に既に設定された個数だけ出力するデコード部と
を含むことを特徴とする請求項７に記載の電子辞書で音声認識を用いた単語探索装置。
前記音声信号は、
英韓辞書の検索のための英単語の辞書的発音又はアルファベットの連続発音組み合わせであることを特徴とする請求項７に記載の電子辞書で音声認識を用いた単語探索装置。
前記単語探索装置は、
前記探索された単語のうちのいずれか１つの単語が選択された場合、前記選択された単語の辞書情報が提供されることを特徴とする請求項７に記載の電子辞書で音声認識を用いた単語探索装置。
単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号から音素列を抽出する前処理工程と、
既に格納された多重発音辞書情報から発音列の伝達を受けて前記抽出された音素列とのマッチングを通じて単語ネットワークを構成する工程と、
前記構成された単語ネットワークと、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する工程と
を含む電子辞書で音声認識を用いた単語探索方法。
前記単語探索方法は、
前記探索された多数の音声認識候補を最上位の認識結果の順に既に設定された個数だけ出力する工程を更に含むことを特徴とする請求項１１に記載の電子辞書で音声認識を用いた単語探索方法。
前記前処理過程は、
前記音声信号の標本化及び終点の検出を行う工程と、
前記検出された情報に基づいて前記音声信号の特徴抽出及び音声別区間を検出して前記音素列を形成する工程と
を含むことを特徴とする請求項１１に記載の電子辞書で音声認識を用いた単語探索方法。
前記単語探索方法は、
スピーチコーパスから各音声のパターン及び音素列の特徴を抽出する工程と、
前記抽出された特徴と、前記多重発音辞書情報による副単語モデルの結合を通じて隠れマルコフモデル（ＨＭＭ）を構成し、これをトライフォン単位で学習させて前記トライフォン単位の音響モデルをモデリングする工程と、
前記モデリングされたトライフォン単位の音響モデルを格納する工程と
を更に含むことを特徴とする請求項１１に記載の電子辞書で音声認識を用いた単語探索方法。
前記多重発音辞書は、
各言語別単語に対する辞書的発音及び該当単語の文字別連続発音を含むことを特徴とする請求項１４に記載の電子辞書で音声認識を用いた単語探索方法。
前記音声信号は、
英韓辞書の検索のための英単語の辞書的発音又はアルファベットの連続発音の組み合わせで入力されることを特徴とする請求項１１に記載の電子辞書で音声認識を用いた単語探索方法。
単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号の入力を受ける工程と、
前記入力された音声信号から音素列を抽出し、これを既に格納された多重発音辞書情報の発音列とマッチングした後、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する工程と、
前記探索された単語をディスプレイ部を通じて出力する工程と
を含む電子辞書で音声認識を用いた単語探索方法。
前記単語を探索する工程は、
スピーチコーパスから音声の特徴を抽出し、前記多重発音辞書を参照して前記トライフォン単位の音響モデルをモデリングする工程と、
前記音声信号から音素列を抽出し、前記抽出された音素列と前記多重発音辞書をマッチングして単語ネットワークを構成し、前記トライフォン単位の音響モデルを参照して探索された多数の音声認識候補を最上位の認識結果の順に既に設定された個数だけ出力する工程と
を含むことを特徴とする請求項１７に記載の電子辞書で音声認識を用いた単語探索方法。
前記音声信号は、
英韓辞書の検索のための英単語の辞書的発音又はアルファベットの連続発音組み合わせであることを特徴とする請求項１７に記載の電子辞書で音声認識を用いた単語探索方法。
前記単語探索方法は、
前記探索された単語のうちのいずれか１つの単語が選択された場合、前記ディスプレイ部を通じて前記選択された単語の辞書情報を提供することを特徴とする請求項１７に記載の電子辞書で音声認識を用いた単語探索方法。