JP2011039468A - 電子辞書で音声認識を用いた単語探索装置及びその方法 - Google Patents

電子辞書で音声認識を用いた単語探索装置及びその方法 Download PDF

Info

Publication number
JP2011039468A
JP2011039468A JP2009234214A JP2009234214A JP2011039468A JP 2011039468 A JP2011039468 A JP 2011039468A JP 2009234214 A JP2009234214 A JP 2009234214A JP 2009234214 A JP2009234214 A JP 2009234214A JP 2011039468 A JP2011039468 A JP 2011039468A
Authority
JP
Japan
Prior art keywords
word
pronunciation
dictionary
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009234214A
Other languages
English (en)
Inventor
Sanghun Kim
サンフン キム
Jun Park
ジュン パク
Sang Kyu Park
サン キュ パク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2011039468A publication Critical patent/JP2011039468A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】電子辞書の音声認識機能にN−best認識結果を出力して単語検索を迅速に行える電子辞書で音声認識を用いた単語探索装置及びその方法を提供する。
【解決手段】本発明は電子辞書で音声認識を用いた単語探索技術に関するものであり、音声認識誤りが発生しても多数の音声認識候補(N−best)に対する認識結果を出力してユーザがそのうちの1つを選択できるようにすることで、音声認識誤りの不便さを軽減し、特に英韓辞書の検索において、本来の辞書的単語の発音はもちろん、発音を知らない場合にアルファベットの連続発音の組み合わせをその単語の発音として認識できるように発音の変移を多重で提供してユーザが発音を知らない英文単語でも音声で容易に検索することを特徴とする。本発明によれば、既存の英語アルファベット単位の音声認識方法に比べて高い正確率で英韓辞書の検索を非常に迅速に行うことができ、音声認識誤りが発生してもN−best候補から正解を選択でき、電子辞書のユーザ利便性を大幅に改善できる。
【選択図】図2

Description

本発明は電子辞書を通じた単語検索技術に関し、特に、英韓辞書及び英語アルファベットで構成された外国言語に対する辞書検索を音声認識技術で行う場合、N−best認識結果を出力して音声認識誤りの不便さを軽減し、辞書的単語の発音はもちろん、アルファベットの連続発音の組み合わせもその単語の発音として認識できるように発音の変移を多重で提供することが可能な電子辞書で音声認識を用いた単語探索装置及びその方法に関する。
一般に、電子辞書は韓国語、英語、日本語、中国語などの各国言語の辞書を記憶媒体に入れて電子化したものであって、膨大な量のデータを検索アプリケーションが内蔵されたコンピューティング装置、或いは携帯用機器を通じて容易に検索でき、検索された情報に関するテキスト情報以外に写真、動画、音響などを共に入れて情報を容易に理解できるように実現された機器である。
このような電子辞書機器には、検索しようとする言語の入力のための入力パネルが備えられている。ユーザが入力パネルであるキーボード又はタッチスクリーンを用いて単語の綴りを入力すれば、入力された綴りに部分的にパターンマッチングされる単語が順次ディスプレイされる。検索しようとする単語がディスプレイされてユーザがキーボード又はタッチスクリーンで選択すれば、電子辞書機器は選択された単語に関する辞書情報を提供する。
キーパッドボタンの個数が限定されてキーボードの検索が困難な移動通信端末の場合には内蔵された辞書情報を便利に検索するために音声認識技術を用いることができる。キーボードが備えられたコンピューティング装置及び携帯用電子辞書でも辞書の検索を迅速に行うために音声認識技術を用いることができる。
音声認識技術は、入力音声信号を音声信号処理技術を用いて文字列に変換する技術であって、音声合成と共に音声信号処理の最も核心的な技術分野の1つである。音声認識技術は、独立して発声された単語を認識する数十単語規模の孤立単語の認識から連続単語の認識、連続的な文章よりキーワードのみ検出して認識するキーワードの検出、そして、文章単位の発話を認識する連続音声の認識などに発展しており、近年は人と人との間で自然に発声する対話体音声を認識できるようにする対話体認識技術が活発に研究されている。
しかしながら、このような音声認識技術を用いた電子辞書検索の場合には音声認識誤りによる不便さの方が更に大きいことがあり得る。特に、英韓辞書を音声認識を通じて検索する場合には、英文単語の発音がこれを発声するユーザ毎に偏差が大きいので、現実的に認識し難いことから、アルファベット単位の音声認識により検索を行わざるを得ないが、アルファベット単位の音声認識は誤りが発生する可能性が高く、実質的に電子辞書の検索に適用し難い。
このように、従来技術による電子辞書で音声認識技術を用いた単語検索方式は、電子辞書に備えられたキーボードを用いて特定言語の綴りを入力する方式よりも容易に利用することはできるが、ユーザの発音や、周辺ノイズなどにより音声認識率が大きく低下し、これによる音声認識誤りによって更に大きい不便さを招くという問題がある。
特開2004−309928号公報
本発明は、上記事情に鑑みてなされたものであって、その目的は、電子辞書の音声認識機能にN−best認識結果を出力して単語検索を迅速に行える電子辞書で音声認識を用いた単語探索装置及びその方法を提供することにある。
また、本発明の目的は、音声認識誤りが発生してもN−best認識結果を出力してユーザがそのうちの1つを選択できるようにすることで、音声認識誤りの不便さを軽減し、特に、英韓辞書の検索において本来の辞書的(lexical)単語の発音はもちろん、発音を知らない場合にアルファベットの連続発音の組み合わせをその単語の発音として認識できるように発音の変移を多重で提供してユーザが発音を知らない英文単語でも音声で容易に検索できる電子辞書で音声認識を用いた単語探索装置及びその方法を提供することにある。
本発明の一観点による電子辞書で音声認識を用いた単語探索装置は、単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号から音素列を抽出する前処理部と、既に格納された多重発音辞書の発音列と前記抽出された音素列をマッチングしてネットワークを構成する単語ネットワーク構成部と、スピーチコーパスから前記音声信号の特徴を抽出して前記多重発音辞書を参照してトライフォン単位の音響モデルをモデリングする訓練部と、前記構成されたネットワークと、前記訓練部から伝達された前記トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する単語探索部とを含む。
本発明の他の観点による電子辞書で音声認識を用いた単語探索装置は、単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号の入力を受ける音声入力部と、前記入力された音声信号から音素列を抽出し、これを既に格納された多重発音辞書の発音列とマッチングした後、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する音声認識部とを含む。
本発明の更に他の観点による電子辞書で音声認識を用いた単語探索方法は、単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号から音素列を抽出する前処理工程と、既に格納された多重発音辞書情報から発音列の伝達を受けて前記抽出された音素列とのマッチングを通じて単語ネットワークを構成する工程と、前記構成された単語ネットワークと、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する工程とを含む。
本発明の更に別の観点による電子辞書で音声認識を用いた単語探索方法は、単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号の入力を受ける工程と、前記入力された音声信号から音素列を抽出し、これを既に格納された多重発音辞書情報の発音列とマッチングした後、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する工程と、前記探索された単語をディスプレイ部を通じて出力する工程とを含む。
本発明に係る電子辞書で音声認識を用いた単語探索装置及びその方法によれば、既存の英語アルファベット単位の音声認識方法に比べて高い正確率で英韓辞書の検索を非常に迅速に行うことができ、音声認識誤りが発生してもN−best候補から正解を選択でき、電子辞書のユーザ利便性を大幅に改善できるという効果を奏する。
また、英語以外の言語に対してもアルファベットを用いる言語に対して音声により辞書の検索を可能にできるという効果が得られる。
本発明の実施形態による音声認識用電子辞書機器の構造を示すブロック図である。 本発明の実施形態による音声認識用電子辞書機器の動作手順を示すフローチャートである。 本発明の実施形態による音声認識部内の訓練部の構造を示すブロック図である。 本発明の実施形態による訓練部の動作手順を示すフローチャートである。 本発明の実施形態による音声認識部内のデコード部の構造を示すブロック図である。 本発明の実施形態によるデコード部の動作手順を示すフローチャートである。
本発明の実施形態を説明するにおいて公知となった又は構成についての具体的な説明が本発明の要旨を不要に曖昧にするおそれがあると判断される場合にはその詳細な説明を省略する。そして、後述する用語は、本発明の実施形態での機能を考慮して定義された用語であって、これはユーザ、運用者の意図又は慣例などによって変わり得る。従って、その定義は本明細書全般にわたる内容に基づいて下されるべきである。明細書全体にわたって同一の参照符号は、同一の構成要素を示す。
以下、添付する図面を参照して本発明の実施形態を詳細に説明する。
図1は、本発明の実施形態による音声認識用電子辞書機器の構造を示すブロック図である。
図1を参照すれば、音声認識用電子辞書機器100は、音声入力を通じて認識された単語に対する辞書機能を提供するものであって、音声入力部102、音声認識部104、メモリ106とディスプレイ部108などを含む。
音声入力部102は、マイクを通じて既に設定された時間にユーザの音声の入力を受け、入力されたユーザの音声は音声認識部104に伝達される。このとき、入力されるユーザの音声は辞書的発音又は文字連続発音の組み合わせになり得る。音声認識部104は、音声入力部102から伝達されたユーザの音声を認識してメモリ106に格納された音響モデルを参照して、ディスプレイ部108を通じてN−best認識結果を出力する。
一方、ユーザが音声入力部102を通じて音声を入力する時、検索しようとする単語に対する辞書的発音を知っている場合には辞書的発音を入力でき、辞書的発音を知らない場合には文字連続発音の組み合わせを入力できる。或いは音声入力時に音声認識部104でディスプレイ部108を通じて辞書的発音の入力又は文字連続発音の組み合わせの入力メニューをユーザが選択できるようにしてユーザが選択したメニューに該当する音声の入力を受けることもできる。
メモリ106は、音響モデルを格納しており、該当言語に対する辞書的発音モデルと文字連続発音の組み合わせモデルが別々に区分されていることができる。これにより、音声認識部104でメニュー選択を通じてユーザの音声の入力を受けた場合には該当音響モデルのみを音声認識部104に提供するようになる。
ディスプレイ部108は、音声認識部104から導き出されたN−best認識結果を画面上に出力する役割をするが、タッチパネルが内蔵されたタッチスクリーン方式が使用され得る。
ディスプレイ部108を通じて出力されたN−best認識結果でタッチスクリーン又はユーザ命令の入力が可能な入力パネルを通じて特定単語が選択された場合、選択された単語に関する辞書情報が画面上に提供される。
図2は、本発明の実施形態による音声認識用電子辞書機器の動作手順を示すフローチャートである。
図2を参照すれば、202段階で電子辞書機器100を動作させて204段階で音声認識機能が駆動されるようにする。206段階では電子辞書機器100内の音声入力部102を通じて特定言語、例えば、英語単語に対する辞書的発音及び単語のアルファベット連続発音の組み合わせをユーザから入力を受けるようになる。
このとき、電子辞書機器100では辞書的発音及び単語の連続発音の組み合わせのうちのいずれか1つをユーザが選択した後、音声を入力できるように音声入力メニューを提供することもできる。
続いて、208段階で音声認識部104でユーザの発声に対してメモリ106に格納された音響モデルを参照してN−best音声認識結果を出力する。210段階で出力されたN−best音声認識結果のうち、ユーザの所望する単語が導き出されてユーザが該当単語を選択すれば、212段階では選択された単語に関する辞書情報をディスプレイ部108を通じてディスプレイする。
仮に、210段階でユーザの所望する単語が導き出されず、既に設定された時間ユーザから選択された単語がなかったり、選択する単語がないという情報の入力を受けた場合は、214段階に進んでユーザに再び発声を要請した後、206段階に戻り、再びユーザの発声の入力を受けるようになる。
一方、図1を再び参照すれば、電子辞書機器100の音声認識部104は、オフラインで音響モデリングを行う訓練部300とオンラインで最も近い単語を検索するデコード部500とに分けられる。これにより、図3〜図6を参照して訓練部300及びデコード部500の実現方式及び動作手順を具体的に説明する。
図3は、本発明の実施形態による音声認識部内の訓練部300の構造を示すブロック図である。
図3を参照すれば、音響モデリングを行う訓練部300は、スピーチコーパス情報部302と、特徴抽出部304と、隠れマルコフモデル(Hidden Markov Model、以下「HMM」という)訓練部306と、メモリ308と音響モデル格納部310などを含む。訓練部300は、単語の辞書的発音とその単語の文字別連続発音の組み合わせを多重発音とするHMM訓練を通じて、トライフォン単位の音響モデリングを行うことで、最終的な訓練の結果であるトライフォン単位の音響モデルをデコード部に伝達するようになる。
訓練部300のスピーチコーパス情報部302は、スピーチコーパスに関する情報を格納しているものであって、ここで、スピーチコーパスは、いつでも再使用が可能なように付加的な情報化ドキュメントが備えられており、コンピュータで読み取れる形態で構成された多数の話者に対するスピーチ資料の集まり、即ち、発声のまとまりになり得る。
特徴抽出部304は、このようなスピーチコーパス情報部302から伝達されるスピーチコーパス情報別に音声のパターンや、音素列などの特徴を抽出した後、抽出された特徴情報をHMM訓練部306に伝達する。
HMM訓練部306は、抽出された特徴情報をメモリ308上に既に格納された多重発音辞書とのパターンマッチング及び音素列の比較などを通じて訓練を行い、抽出された特徴情報と多重発音辞書による副単語モデルの結合を通じてHMMを構成する。即ち、HMM訓練部306は、不特定多数の話者の音声に対する認識と単語の辞書的発音とその単語の文字別連続発音の組み合わせを含む多重発音辞書を通じて統計的なモデルを形成するが、これを音響モデリングという。
音響モデリングとは、音声認識に用いられる統計的モデルの基本単位を定め、これらを学習させることを意味し、このとき、音響モデリングは各音素の前音素と後音素まで考慮するトライフォン単位の音響モデルを形成するようになる。
このようなトライフォン単位の音響モデルは音素の前後音素まで考慮することで、学習させなければならないトライフォンが幾何級数的に多くなることができ、このような場合には類似した特性を示すトライフォンを互いにグループ化して学習させるようにする。
このように、HMM訓練部306では単語の辞書的発音とその単語の文字別連続発音の組み合わせ、特に、英文単語の辞書的発音とその単語のアルファベット連続発音の組み合わせを多重発音とするHMM訓練を通じてトライフォン単位の音響モデリングを形成し、形成された音響モデルは音響モデル格納部310に格納されるようにして、後でデコード部に伝達される。
図4は、本発明の実施形態による訓練部300の動作手順を示すフローチャートである。
図4を参照すれば、400段階で特徴抽出部304は、スピーチコーパス情報部302からスピーチ情報の入力を受けて402段階で入力されたスピーチ情報に関する音声のパターンや音素、各音素の前後音素などに対する特徴を抽出してこれをHMM訓練部306に伝達する。
これにより、404段階でHMM訓練部306では抽出された特徴情報に単語の辞書的発音とその単語の文字別連続発音の組み合わせに対するマッチングを通じてトライフォン単位の音響モデリングを行うようになり、トライフォン単位の音響モデリングを通じて出力された音響モデルは406段階で音響モデル格納部310に格納される。
図5は、本発明の実施形態による音声認識部内のデコード部500の構造を示すブロック図である。
図5を参照すれば、デコード部500は、音声認識部104に入力されたユーザの音声を認識した後、認識された音声に該当する最適の単語を検索するものであって、前処理部510、単語ネットワーク構成部512、単語探索部514、認識結果出力部516などを含み、このとき、前処理部510は音声区間検出器502と、特徴パラメータ抽出器504などを含む。
前処理部510は、入力されたユーザの音声、即ち、単語に対する発音又は文字別連続発音から単語を認識するものであって、前処理部510内の音声区間検出器502では入力された音声信号の標本化及び終点の検出を行い、特徴パラメータ抽出器504ではプリエンファシス(preemphasis)のように音声信号領域の周波数振幅を高めてノイズを低減した後、時変的な特性を代表できる特徴ベクトルの列に変換した後、音声別区間を検出してN個で構成された音素列を出力するようになる。
その後、単語ネットワーク構成部512ではメモリ308に格納された多重発音辞書から発音列を持ってきて各単語の発音、即ち、前処理部510から出力された各音素列に該当するHMMモデルを連結してネットワークを構成する。
これにより、単語探索部514では構成されたネットワーク情報と訓練部300から伝達されたトライフォン単位の音響モデルを用いて話者の発声に最も近い単語に対する探索を行ってユーザが入力した音声で認識された単語に近い順にN個の認識結果を認識結果出力部516に伝達することで、認識結果出力部516で既に設定されたN個の順(N−best)に認識結果を出力するようになる。
例えば、英語単語に対する多重発音は、あらゆる英語辞書の表題語(entry)に対して(表1)のように構成されることができる。
(表1)は、一部の表題語に対する多重発音構成を示すものであって、英語辞書の表題語及び多重発音辞書のリストを示す。
Figure 2011039468
また、N−best認識結果は、例えば、ユーザから入力された音声、即ち、話者の発声が“computer”である場合に対して(表2)及び(表3)のように出力される。
(表2)は、“computer”を/コンピュータ/と発音した場合であって、N=5であるN−best出力結果を示す。
Figure 2011039468
更に、(表3)は“computer”を/シーオーエムピーユーティーイーアール/と発音した場合であって、N=5であるN−best出力結果を示す。
Figure 2011039468
その後、電子辞書機器100のタッチスクリーン及びキーボードのような入力パネルを通じてユーザから特定単語が選択された場合、電子辞書機器100では該当単語に関する辞書情報をユーザにディスプレイするようになる。
図6は、本発明の実施形態によるデコード部の動作手順を示すフローチャートである。
図6を参照すれば、600段階でユーザは検索しようとする単語を音声で入力する。このとき、ユーザが単語の発音を知っている場合と発音を知らない場合とに分けて適用できる。即ち、ユーザが“computer”という単語を検索する時にその単語の発音を知っている場合には/コンピュータ/と発声した音声を入力するようになるが、“computer”という単語の発音を知らない場合には、その単語に該当する英語アルファベットの連続発音の組み合わせである/シーオーエムピーユーティーイーアール/を音声で入力する。
602段階では前処理部510内の音声区間検出器502から入力された発音、即ち、英語の辞書的発音又はアルファベットの連続発音の組み合わせに対する音声区間を検出し、604段階で特徴パラメータを抽出して前処理された単語情報を単語ネットワーク構成部512に伝達し、606段階では多重発音辞書の発音列を参照して該当単語の発音に該当するHMMモデルを連結してネットワークを構成する。
即ち、これはメモリ308に格納された多重発音辞書から発音列の伝達を受けた単語ネットワーク構成部512から抽出された音素列とのマッチングを通じてネットワークを構成することを意味する。ここで、メモリ308に含まれている多重発音辞書には“computer”に対する多重発音である/コンピュータ/と/シーオーエムピーユーティーイーアール/の両方を有しているため、アルファベットの連続発音に対しても認識が可能となる。
そして、608段階で単語探索部514は、認識された単語に関するネットワーク情報とトライフォン単位の音響モデルを用いて話者の発声に最も近い単語に対する探索を行う。610段階では探索された単語のうち、最上位順に既に設定されたN個の認識単語を認識結果出力部516を通じて出力するようになる。
その後、電子辞書機器100のディスプレイ部108を通じてN個の音声認識結果を出力するようになれば、ユーザは出力されたN−best認識結果を確認した後、ユーザが発音した単語が存在する場合、ディスプレイ部108のタッチスクリーンを用いて該当単語を選択することで、従来の音声認識方法に比べて高い認識性能で短時間内に単語を検索できる。
また、既存の音声認識方法がアルファベットを個別単位で認識し、また1個の単語に対する認識結果を出力するようにすることで、認識誤りが発生する可能性が非常に高いのに対し、本発明の実施形態はアルファベットの連続発音の組み合わせを認識し、N個の認識候補のうち最終的に1個を選択するようにすることで、音声認識の誤りによる不便さを大幅に改善できる。
このように音声認識の音響モデル単位は、音韻環境が考慮されたトライフォンになり、トライフォン単位の音響モデルが連結された単語認識を通じて既存のアルファベット単位の音声認識より音声認識率もかなり改善できるという効果がある。もちろん、既存の辞書が大部分大規模な単語(例えば、10万単語レベル)で構成されて単語単位の音声認識を行うのに計算量が多く要求されるが、アルファベット間の音韻環境は多くないため、計算しなければならない音響モデルの数が少なく、最近、電子辞書端末の仕様が大語彙の音声認識を可能にする水準にまで発展しているので、本発明の実施形態を実現又は適用する上では特に問題がない。
このような本発明の実施形態を通じて中国語辞書、フランス語辞書など発音を知らなくても英語アルファベットの連続発音の組み合わせを単語の多重発音で処理することで、英語アルファベットを使用したり、英語アルファベットで単語検索が可能な多様な外国語に対して電子辞書を通じて容易に検索できる機能を提供する。
以上説明した通り、本発明の実施形態による電子辞書で音声認識を用いた単語探索装置及びその方法は、電子辞書の音声認識機能にN-best認識結果を出力して単語検索を迅速に行うことができ、特に、英韓辞書の検索において本来の辞書的単語の発音はもちろん、発音を知らない場合、アルファベットの連続発音の組み合わせをその単語の発音として選択できるように発音の変移を多重で提供してユーザが発音を知らない英文単語でも音声で容易に検索を行う。
一方、本発明の詳細な説明では電子辞書で音声認識を用いた単語探索装置及びその方法に対する具体的な実施形態について説明したが、本発明の範囲から逸脱しない範囲内で様々な変形が可能であることはもちろんである。即ち、本発明の実施形態では英文単語及びアルファベットを例に挙げて説明しているが、特定言語の辞書的発音及び該当言語の単語に対して一文字ずつ発音する連続発音の組み合わせに基づいて音声認識を行い、音声認識されたデータに基づいてN−best認識結果及び選択された単語に対する辞書機能を提供する方式であらゆる言語に対して適用可能であることはもちろんである。
従って、本発明の範囲は、説明された実施形態に限定されず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なものなどにより定められるべきである。
100 音声認識用電子辞書機器
102 音声入力部
104 音声認識部
106 メモリ
108 ディスプレイ部
300 訓練部
302 スピーチコーパス情報部
304 特徴抽出部
306 HMM訓練部
308 メモリ(多重発音辞書)
310 音響モデル格納部
500 デコード部
502 音響区画検出部
504 特徴パラメータ抽出部
510 前処理部
512 単語ネットワーク構成部
514 単語探索部
516 認識結果出力部

Claims (20)

  1. 単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号から音素列を抽出する前処理部と、
    既に格納された多重発音辞書の発音列と前記抽出された音素列をマッチングしてネットワークを構成する単語ネットワーク構成部と、
    スピーチコーパスから前記音声信号の特徴を抽出して前記多重発音辞書を参照してトライフォン単位の音響モデルをモデリングする訓練部と、
    前記構成されたネットワークと、前記訓練部から伝達された前記トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する単語探索部と
    を含む電子辞書で音声認識を用いた単語探索装置。
  2. 前記単語探索装置は、
    前記単語探索部の探索結果、多数の音声認識候補を最上位の認識結果の順に既に設定された個数だけ出力する認識結果出力部を更に含むことを特徴とする請求項1に記載の電子辞書で音声認識を用いた単語探索装置。
  3. 前記前処理部は、
    前記音声信号の標本化及び終点の検出を行う音声区間検出器と、
    前記検出された情報に基づいて前記音声信号の特徴を抽出し、音声別区間を検出して前記音素列を形成する特徴パラメータ抽出器と
    を含むことを特徴とする請求項1に記載の電子辞書で音声認識を用いた単語探索装置。
  4. 前記訓練部は、
    スピーチコーパスから前記音声信号のパターン及び音素列の特徴を抽出する特徴抽出部と、
    前記抽出された特徴と、前記多重発音辞書情報による副単語モデルの結合を通じて隠れマルコフモデル(HMM)を構成し、これをトライフォン単位で学習させて前記トライフォン単位の音響モデルをモデリングするHMM訓練部と、
    前記モデリングされたトライフォン単位の音響モデルを格納する音響モデル格納部と
    を含むことを特徴とする請求項1に記載の電子辞書で音声認識を用いた単語探索装置。
  5. 前記多重発音辞書は、
    各言語別単語に対する辞書的発音及び該当単語の文字別連続発音を含むことを特徴とする請求項4に記載の電子辞書で音声認識を用いた単語探索装置。
  6. 前記音声信号は、
    英韓辞書の検索のための英単語の辞書的発音又はアルファベットの連続発音の組み合わせであることを特徴とする請求項1に記載の電子辞書で音声認識を用いた単語探索装置。
  7. 単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号の入力を受ける音声入力部と、
    前記入力された音声信号から音素列を抽出し、これを既に格納された多重発音辞書の発音列とマッチングした後、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する音声認識部と
    を含む電子辞書で音声認識を用いた単語探索装置。
  8. 前記音声認識部は、
    スピーチコーパスから音声に対する特徴を抽出し、前記多重発音辞書を参照して前記トライフォン単位の音響モデルをモデリングする訓練部と、
    前記音声信号から前記音素列を抽出し、前記前記抽出された音素列と前記多重発音辞書をマッチングして単語ネットワークを構成し、前記トライフォン単位の音響モデルを参照して探索された多数の音声認識候補を最上位の認識結果の順に既に設定された個数だけ出力するデコード部と
    を含むことを特徴とする請求項7に記載の電子辞書で音声認識を用いた単語探索装置。
  9. 前記音声信号は、
    英韓辞書の検索のための英単語の辞書的発音又はアルファベットの連続発音組み合わせであることを特徴とする請求項7に記載の電子辞書で音声認識を用いた単語探索装置。
  10. 前記単語探索装置は、
    前記探索された単語のうちのいずれか1つの単語が選択された場合、前記選択された単語の辞書情報が提供されることを特徴とする請求項7に記載の電子辞書で音声認識を用いた単語探索装置。
  11. 単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号から音素列を抽出する前処理工程と、
    既に格納された多重発音辞書情報から発音列の伝達を受けて前記抽出された音素列とのマッチングを通じて単語ネットワークを構成する工程と、
    前記構成された単語ネットワークと、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する工程と
    を含む電子辞書で音声認識を用いた単語探索方法。
  12. 前記単語探索方法は、
    前記探索された多数の音声認識候補を最上位の認識結果の順に既に設定された個数だけ出力する工程を更に含むことを特徴とする請求項11に記載の電子辞書で音声認識を用いた単語探索方法。
  13. 前記前処理過程は、
    前記音声信号の標本化及び終点の検出を行う工程と、
    前記検出された情報に基づいて前記音声信号の特徴抽出及び音声別区間を検出して前記音素列を形成する工程と
    を含むことを特徴とする請求項11に記載の電子辞書で音声認識を用いた単語探索方法。
  14. 前記単語探索方法は、
    スピーチコーパスから各音声のパターン及び音素列の特徴を抽出する工程と、
    前記抽出された特徴と、前記多重発音辞書情報による副単語モデルの結合を通じて隠れマルコフモデル(HMM)を構成し、これをトライフォン単位で学習させて前記トライフォン単位の音響モデルをモデリングする工程と、
    前記モデリングされたトライフォン単位の音響モデルを格納する工程と
    を更に含むことを特徴とする請求項11に記載の電子辞書で音声認識を用いた単語探索方法。
  15. 前記多重発音辞書は、
    各言語別単語に対する辞書的発音及び該当単語の文字別連続発音を含むことを特徴とする請求項14に記載の電子辞書で音声認識を用いた単語探索方法。
  16. 前記音声信号は、
    英韓辞書の検索のための英単語の辞書的発音又はアルファベットの連続発音の組み合わせで入力されることを特徴とする請求項11に記載の電子辞書で音声認識を用いた単語探索方法。
  17. 単語の辞書的発音又は単語を構成する文字別連続発音の組み合わせの音声信号の入力を受ける工程と、
    前記入力された音声信号から音素列を抽出し、これを既に格納された多重発音辞書情報の発音列とマッチングした後、トライフォン単位の音響モデルを参照して前記音声信号に該当する単語を探索する工程と、
    前記探索された単語をディスプレイ部を通じて出力する工程と
    を含む電子辞書で音声認識を用いた単語探索方法。
  18. 前記単語を探索する工程は、
    スピーチコーパスから音声の特徴を抽出し、前記多重発音辞書を参照して前記トライフォン単位の音響モデルをモデリングする工程と、
    前記音声信号から音素列を抽出し、前記抽出された音素列と前記多重発音辞書をマッチングして単語ネットワークを構成し、前記トライフォン単位の音響モデルを参照して探索された多数の音声認識候補を最上位の認識結果の順に既に設定された個数だけ出力する工程と
    を含むことを特徴とする請求項17に記載の電子辞書で音声認識を用いた単語探索方法。
  19. 前記音声信号は、
    英韓辞書の検索のための英単語の辞書的発音又はアルファベットの連続発音組み合わせであることを特徴とする請求項17に記載の電子辞書で音声認識を用いた単語探索方法。
  20. 前記単語探索方法は、
    前記探索された単語のうちのいずれか1つの単語が選択された場合、前記ディスプレイ部を通じて前記選択された単語の辞書情報を提供することを特徴とする請求項17に記載の電子辞書で音声認識を用いた単語探索方法。
JP2009234214A 2009-08-14 2009-10-08 電子辞書で音声認識を用いた単語探索装置及びその方法 Pending JP2011039468A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090075145A KR101250897B1 (ko) 2009-08-14 2009-08-14 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법

Publications (1)

Publication Number Publication Date
JP2011039468A true JP2011039468A (ja) 2011-02-24

Family

ID=43767270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009234214A Pending JP2011039468A (ja) 2009-08-14 2009-10-08 電子辞書で音声認識を用いた単語探索装置及びその方法

Country Status (2)

Country Link
JP (1) JP2011039468A (ja)
KR (1) KR101250897B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844978A (zh) * 2016-05-18 2016-08-10 华中师范大学 一种小学语文词语学习辅助语音机器人装置及其工作方法
JP2017058545A (ja) * 2015-09-17 2017-03-23 本田技研工業株式会社 音声処理装置および音声処理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102117082B1 (ko) * 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123472A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声認識装置及び該装置の構文制御グラフの生成方法
JPH1165590A (ja) * 1997-08-25 1999-03-09 Nec Corp 音声認識ダイアル装置
JPH11344990A (ja) * 1998-04-29 1999-12-14 Matsushita Electric Ind Co Ltd 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置
JP2000267693A (ja) * 1999-03-12 2000-09-29 Fuji Xerox Co Ltd 音声処理装置及び索引作成装置
JP2000357167A (ja) * 1999-06-15 2000-12-26 Ricoh Co Ltd 音声入出力機能付き翻訳機
JP2001343995A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体
JP2002073081A (ja) * 2000-08-28 2002-03-12 Hitachi Ulsi Systems Co Ltd 音声認識方法と電子装置
JP2004309928A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2005227794A (ja) * 2002-11-21 2005-08-25 Matsushita Electric Ind Co Ltd 標準モデル作成装置及び標準モデル作成方法
JP2006048058A (ja) * 2004-08-06 2006-02-16 Motorola Inc 多言語による名称の音声認識のための方法とシステム
JP2007219286A (ja) * 2006-02-17 2007-08-30 Tokyo Institute Of Technology 音声のスタイル検出装置、その方法およびそのプログラム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
JP2008268571A (ja) * 2007-04-20 2008-11-06 Xanavi Informatics Corp 音声認識装置、その音声認識方法
JP2008275731A (ja) * 2007-04-26 2008-11-13 Asahi Kasei Corp テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100736496B1 (ko) * 2001-06-26 2007-07-06 엘지전자 주식회사 연속 음성인식기의 성능 개선 방법
KR101424193B1 (ko) * 2007-12-10 2014-07-28 광주과학기술원 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123472A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声認識装置及び該装置の構文制御グラフの生成方法
JPH1165590A (ja) * 1997-08-25 1999-03-09 Nec Corp 音声認識ダイアル装置
JPH11344990A (ja) * 1998-04-29 1999-12-14 Matsushita Electric Ind Co Ltd 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置
JP2000267693A (ja) * 1999-03-12 2000-09-29 Fuji Xerox Co Ltd 音声処理装置及び索引作成装置
JP2000357167A (ja) * 1999-06-15 2000-12-26 Ricoh Co Ltd 音声入出力機能付き翻訳機
JP2001343995A (ja) * 2000-05-31 2001-12-14 Toshiba Corp 音声入力処理装置、音声入力処理方法及び音声入力処理プログラムを記録した記録媒体
JP2002073081A (ja) * 2000-08-28 2002-03-12 Hitachi Ulsi Systems Co Ltd 音声認識方法と電子装置
JP2005227794A (ja) * 2002-11-21 2005-08-25 Matsushita Electric Ind Co Ltd 標準モデル作成装置及び標準モデル作成方法
JP2004309928A (ja) * 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2006048058A (ja) * 2004-08-06 2006-02-16 Motorola Inc 多言語による名称の音声認識のための方法とシステム
JP2007219286A (ja) * 2006-02-17 2007-08-30 Tokyo Institute Of Technology 音声のスタイル検出装置、その方法およびそのプログラム
WO2008105263A1 (ja) * 2007-02-28 2008-09-04 Nec Corporation 重み係数学習システム及び音声認識システム
JP2008268571A (ja) * 2007-04-20 2008-11-06 Xanavi Informatics Corp 音声認識装置、その音声認識方法
JP2008275731A (ja) * 2007-04-26 2008-11-13 Asahi Kasei Corp テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058545A (ja) * 2015-09-17 2017-03-23 本田技研工業株式会社 音声処理装置および音声処理方法
CN105844978A (zh) * 2016-05-18 2016-08-10 华中师范大学 一种小学语文词语学习辅助语音机器人装置及其工作方法

Also Published As

Publication number Publication date
KR101250897B1 (ko) 2013-04-04
KR20110017600A (ko) 2011-02-22

Similar Documents

Publication Publication Date Title
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US9640175B2 (en) Pronunciation learning from user correction
CN106663424B (zh) 意图理解装置以及方法
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
Kumar et al. Development of Indian language speech databases for large vocabulary speech recognition systems
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP2016521383A (ja) 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
US20120221335A1 (en) Method and apparatus for creating voice tag
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
JP4966324B2 (ja) 音声翻訳装置、および方法
US20040006469A1 (en) Apparatus and method for updating lexicon
KR102069697B1 (ko) 자동 통역 장치 및 방법
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP2016161935A (ja) 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
Goto Speech Completion: New Speech Interface with On-demand Completion Assistance Masataka Goto, Katunobu Itou, Tomoyosi Akiba, and Satoru Hayamizu National Institute of Advanced Industrial Science and Technology (former Electrotechnical Laboratory) 1-1-1 Umezono, Tsukuba, Ibaraki 305-8568, JAPAN.
Syadida et al. Sphinx4 for indonesian continuous speech recognition system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120518

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121012