JP2017016131A

JP2017016131A - 音声認識装置及び方法と電子装置

Info

Publication number: JP2017016131A
Application number: JP2016128918A
Authority: JP
Inventors: 尚賢柳; Sang Hyun Yoo; 喜烈崔; Hee Youl Choi
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-06-30
Filing date: 2016-06-29
Publication date: 2017-01-19
Anticipated expiration: 2036-06-29
Also published as: JP6637848B2; CN106328127B; KR102371188B1; EP3113176A1; US20170004824A1; KR20170003246A; US20210272551A1; CN106328127A; EP3113176B1

Abstract

【課題】音声認識装置及び方法と電子装置とを提供する。【解決手段】一例による音声認識装置は、音響モデルを用いて音声信号の音素確率を計算する確率計算部と、認識対象リストから候補セットを抽出する候補セット抽出部と、計算された音素確率及び抽出された候補セットに基づいて音声信号の認識結果を返還する結果返還部と、を含む。【選択図】図１

Description

本発明は、音声認識技術に関する。

音声認識システムが、ＴＶ、セットトップボックス、家電機器、及び他の装置に搭載される場合、音声認識システムのためのコンピューティング資源が十分ではないという問題点がある。しかし、このような問題点は、限定された個数の命令語に対する音声認識が行われる組み込み環境では、大きく問題にならない。一方、一般的な音声認識環境では、人が使えるあらゆる単語及びその組合わせを認識するために、デコーダが多くのコンピューティング資源を使う。対照的に、組み込み環境では、ただ数個から数千個の与えられた単語のみを認識すれば良い。

一般的な音声認識システムの場合、音響モデルが音声信号から発音確率（ｐｈｏｎｅｔｉｃｐｒｏｂａｂｉｌｉｔｙ）を獲得すれば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）デコーダが、このような確率を組み合わせ、確率を単語のシーケンスに変換する。しかし、ＨＭＭデコーダは、多くのコンピューティング資源及び演算を必要とし、ＨＭＭデコーダで使われるビタビ復号方法は、多量の情報損失を起こしうる。

本発明が解決しようとする課題は、音声認識装置及び方法と電子装置とを提供するところにある。

要約に記載の内容は、本明細書に記載の内容を簡単に紹介するために提供される。このような要約の内容が、請求された構成の核心特徴または必須的な特徴を識別するか、請求項の請求範囲を限定させるためのものではない。

一態様によれば、音声認識装置は、音響モデルを用いて音声信号の音素確率を計算する確率計算部と、対象シーケンスの認識対象リストから候補セットを抽出する候補セット抽出部と、計算された音素確率及び抽出された候補セットに基づいて音声信号の認識結果を返還する結果返還部と、を含む。

音響モデルは、ＣＴＣ（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）を含む学習アルゴリズムを用いて学習されうる。

結果返還部は、計算された音素確率に基づいて候補セットに含まれた各対象シーケンスの生成確率を計算し、対象シーケンスの生成確率のうちから最も高い確率を有する候補対象シーケンスを認識結果として返還することができる。

音声認識装置は、計算された音素確率に基づいて音素シーケンスを獲得するシーケンス獲得部をさらに含みうる。

候補セット抽出部は、獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度を計算し、該計算された類似度に基づいて候補セットを抽出することができる。

候補セット抽出部は、編集距離アルゴリズムを含む類似度アルゴリズムを用いて類似度を計算することができる。

シーケンス獲得部は、最適経路解釈及び先行検索解釈アルゴリズムを含む解釈技法のうちの１つを用いて計算された音素確率に基づいて音素シーケンスを獲得することができる。

他の態様によれば、音声認識方法は、音響モデルを用いて音声信号の音素確率を計算する確率計算段階と、対象シーケンスの認識対象リストから候補セットを抽出する候補セット抽出段階と、計算された音素確率及び抽出された候補セットに基づいて音声信号の認識結果を返還する結果返還段階と、を含む。

音響モデルは、ＣＴＣを含む学習アルゴリズムを用いて学習されうる。

結果返還段階は、計算された音素確率に基づいて候補セットに含まれた各対象シーケンスを生成する確率を計算し、対象シーケンスを生成する確率のうちから最も高い確率を含む候補対象シーケンスを認識結果として返還することができる。

音声認識方法は、計算された音素確率に基づいて音素シーケンスを獲得するシーケンス獲得段階をさらに含みうる。

候補セット抽出段階は、獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度を計算し、該計算された類似度に基づいて候補セットを抽出することができる。

候補セット抽出段階は、編集距離アルゴリズムを含む類似度アルゴリズムを用いて類似度を計算することができる。

シーケンス獲得段階は、最適経路解釈及び先行検索解釈アルゴリズムを含む解釈技法のうちの１つを用いて計算された音素確率に基づいて音素シーケンスを獲得することができる。

他の態様によれば、電子装置は、ユーザの音声信号を受信する音声受信部と、音響モデルを用いて受信された音声信号の音素確率を計算し、該計算された音素確率に基づいて認識対象リストに含まれた対象シーケンスのうちの何れか１つを認識結果として返還する音声認識部と、返還された認識結果に基づいて所定の演算を行う処理部と、を含みうる。

音声認識部は、認識対象リストから候補セットを抽出し、計算された音素別の確率に基づいて候補セットに含まれた各候補対象シーケンスを生成する確率を計算し、対象シーケンスを生成する確率のうちから最も高い確率を含む候補対象シーケンスを認識結果として返還することができる。

音声認識部は、音素確率を解釈して音素シーケンスを獲得し、該獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度に基づいて候補セットを抽出することができる。

処理部は、認識結果をスピーカーを通じて音声信号として出力するか、ディスプレイによってテキスト形式で出力することができる。

処理部は、認識結果を他の言語に翻訳し、翻訳結果をスピーカーを通じて音声信号として出力するか、ディスプレイによってテキスト形式で出力することができる。

処理部は、認識結果によって、電源オン／オフ命令語、ボリューム調節命令語、チャネル変更命令語、及び目的地検索命令語のうちの１つ以上を含む命令語を処理することができる。

他の態様によれば、音声認識方法は、音声信号の一部が音声単位に対応する確率を計算する段階と、音声単位のシーケンスリストから音声単位の候補シーケンスセットを獲得する段階と、確率に基づいて音声信号に対応する音声単位の候補シーケンスのうち何れか１つを認識する段階と、を含みうる。

確率計算段階は、音響モデルを用いて確率を計算することができる。

音声単位は、音素（ｐｈｏｎｅｍｅ）であり得る。

音声単位の候補シーケンスは、文章（ｐｈｒａｓｅ）であり得る。

文章は、電子装置を制御する命令語であり得る。

音声単位の候補シーケンスのうち何れか１つを認識する段階は、音声信号の一部が音声単位に対応する確率に基づいて音声単位の各候補シーケンスを生成する確率を計算する段階と、音声信号に対応する音声単位の各候補シーケンスを生成する確率のうちから最も高い確率を有する音声単位の候補シーケンスのうち何れか１つを認識する段階と、を含みうる。

発明の他の特徴及び態様は、下記に記載の説明、図面、及び請求項によって開示される。

音声認識装置の一実施形態を示すブロック図である。音声認識装置の他の実施形態を示すブロック図である。音声認識方法の一実施形態を示すフローチャートである。音声認識方法の他の実施形態を示すフローチャートである。電子装置の一実施形態を示すブロック図である。電子装置での音声認識方法の一実施形態を示すフローチャートである。

図面及び関連説明で同じ図面識別番号は、同じ構成要素を示す。このような構成要素の相対的な大きさ、比率、及び描写は、明確性、図解、及び便宜のために誇張されうる。

本発明の方法、装置、及び／またはシステムの包括的な理解を助けるために、詳細な説明が下記のように開示される。しかし、下記で開示される方法、装置、及び／またはシステムを多様に変更または修正するか、均等なものに代替することは、当業者に自明である。本明細書に記載の動作の順序は、単に例示に過ぎず、このような記載に限定されず、当業者に明らかな如く、動作の例外が特定の順序で必須的に発生して、変更されうる。また、当業者の技術として知られた機能及び製造方法は、明確性及び簡潔性のために省略されうる。

本発明に記載の特徴は、記載の内容と異なる形態で構成され、下記で開示された例示に限定されて構成されねばならないものではない。

図１は、一実施形態による音声認識装置のブロック図である。図１を参照すれば、音声認識装置１００は、確率計算部１１０、候補セット抽出部１２０、及び結果返還部１３０を含みうる。

確率計算部１１０は、音響モデルを用いて音声信号の音素別の確率を計算する。音素は、一言語で重要な音の最も小さな単位である。

一例によれば、音声信号は、特徴を抽出する前処理過程を通じて音声フレームに変換され、音響モデルに入力される。音響モデルは、各音声フレームを音素に分類し、各音素の確率を出力する。

ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、またはＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）を基盤とする一般的な音響モデルは、正答として出力される各フレームの音素確率を最大化する方式で学習がなされる。

しかし、組み込み環境で動作することができるＨＭＭデコーダを構成することは難しいために、一例による音響モデルは、ＲＮＮとＣＴＣとを用いて構築されうる。この場合、音響モデルは、ＣＴＣ学習アルゴリズムのような多様な学習アルゴリズムを用いて、正答シーケンスを作り出すことができる音素のあらゆる組合わせに対して、各音声フレームの音素確率を最大化する方式で学習される。以下、説明の便宜上、ＣＴＣ学習アルゴリズムを用いて学習された音響モデル、すなわち、ＣＴＣネットワーク基盤の音響モデルで説明する。

下記の（式１）は、一般的なＧＭＭ、ＤＮＮ、またはＲＮＮ基盤の音響モデルを学習するためのアルゴリズムの例である。

（式１）
（式１）において、ｘは、入力音声信号を示し、ｙは、音響モデルを用いて音声フレームｋに対して計算された音素別の確率を示し、ｚは、音声フレームｋに対する正答を示す。

このように、一般的な音響モデルは、正答として出力された各音声フレームの音素確率が最大になる方式で学習される。

一方、下記の（式２）と（式３）は、本発明の例による音響モデルを学習させるためのアルゴリズムの例である。
（式２）

（式３）

（式２）及び（式３）において、

は、正答である音素シーケンス、すなわち、音素の連結を示し、πは、正答になりうる音素シーケンスのうちの何れか１つを示す。Ｆ（π）は、ニューラルネットワークの出力シーケンスπを音素シーケンスに変換する多対一関数である。例えば、ユーザが１秒間“ａｐｐｌｅ”と発音すれば、０〜０．５秒までは／ａｅ／発音を、０．５〜０．８秒までは／ｐ／発音を、０．８〜１秒までは／ｌ／発音され、これは、音素が反復される“ａｅａｅａｅａｅ…ｐｐｐｐ…ｌｌｌｌ”のフレーム単位（一般的には、０．０１秒）の出力シーケンスπに提供されうる。Ｆ（π）は、出力シーケンスπにから反復される音素を除去し、出力シーケンスπを音素シーケンス／ａｅｐｌ／にマッピングする関数である。

音響モデル学習は、音響モデルを用いて計算される音声フレームｔに対する音素確率ｙを用いて（式２）によって計算された音素シーケンスπのうちの何れか１つが生成される確率（ｐ（π｜ｘ））のような方式で行われ、（式２）によって計算された確率（ｐ（π｜ｘ））を合わせる（式３）によって正答

を生成する確率が計算される。この場合、音響モデル学習は、逆伝播学習（ｂａｃｋｐｒｏｐａｇａｔｉｏｎｌｅａｒｎｉｎｇ）技法を用いて行われる。

候補セット抽出部１２０は、認識対象リスト１４０から候補セットを抽出する。認識対象リストは、音素シーケンスからなる複数の単語または文章を含む。認識対象リスト１４０は、音声認識装置１００を含む多種の機器によってあらかじめ定義される。例えば、音声認識装置１００が、ＴＶに搭載されている場合、認識対象リスト１４０は、電源オン／オフ命令語、ボリューム調節命令語、チャネル変更命令語、及び実行しようとする特定プログラム名称のようなＴＶの動作のための多様な命令語を含む。

候補セット抽出部１２０は、候補セットを生成するためにユーザによって動作する機器によって、認識対象リスト１４０から１つ以上の対象シーケンスを抽出して候補セットを抽出する。

結果返還部１３０は、音響モデルを用いて計算された音素確率を用いて候補セットで各候補対象シーケンスを生成する確率を計算し、最も高い確率を含む候補対象シーケンスを認識結果として返還する。

結果返還部１３０は、音響モデルを学習するためのアルゴリズムである（式２）及び（式３）を適用して候補セットの各候補対象シーケンスの生成確率を計算する。

一例によれば、正答になりうる候補対象シーケンスは既に分かっているので、音響モデルを通じて計算された音素別の確率を用いて、候補対象シーケンスを生成する確率を計算することが可能である。すなわち、ＣＴＣのような一般的な解釈アルゴリズムを用いて音素確率を解釈する必要がないために、解釈処理過程で発生する情報の損失を最小化することができる。一方、一般的な音声認識環境では、正答になりうる候補対象シーケンスが知られていないので、（式１）を用いる解釈処理過程を行うことが必須であり、これにより、音声認識処理過程で情報の損失が発生しうる。

図２は、他の実施形態による音声認識装置のブロック図である。図２を参照すれば、他の実施形態の音声認識装置２００は、確率計算部２１０、シーケンス獲得部２２０、候補セット抽出部２３０、及び結果返還部２４０を含みうる。

確率計算部２１０は、音響モデルを用いて音声信号の音素別の確率を計算する。前述したように、音響モデルは、ＲＮＮ及びＣＴＣ学習アルゴリズムを用いて、正答シーケンスを作り出すことができる音素のあらゆる組合わせと関連して、各音声フレームに対する音素の確率を最大化させる方式で学習される。

シーケンス獲得部２２０は、確率計算部２１０によって計算された音素別の確率に基づいて音素の連結である音素シーケンスを獲得する。この場合、シーケンス獲得部２２０は、最適経路解釈（ｂｅｓｔｐａｔｈｄｅｃｏｄｉｎｇ）アルゴリズム、先行経路解釈（ｐｒｅｆｉｘｐａｔｈｄｅｃｏｄｉｎｇ）アルゴリズムのような解釈アルゴリズムを用いて計算された音素の確率を解釈することによって、１つ以上の音素シーケンスを獲得する。但し、解釈アルゴリズムは、このような例示によって限定されるものではない。

候補セット抽出部２３０は、音素シーケンスに基づいて認識対象リスト２５０から１つ以上の候補対象シーケンスを抽出して候補セットを生成する。前述したように、認識対象リスト２５０は、前述したように音声認識装置２００を含む電子装置の種類によって既定の単語／文章／命令語のような対象シーケンスを含む。また、認識対象リスト２５０は、対象シーケンスの利用順位と関連した情報（すなわち、利用頻度、利用確率など）をさらに含みうる。

一例によれば、候補セット抽出部２３０は、認識対象リスト２５０に含まれた対象シーケンスの個数によって対象シーケンスの全部または一部を候補セットとして抽出する。この場合、対象シーケンスの利用順位と関連した情報に基づいて任意の個数を候補セットとして抽出する。

他の例によれば、候補セット抽出部２３０は、シーケンス獲得部２２０によって獲得された１つ以上の音素シーケンスを認識対象リスト２５０に含まれた各対象シーケンスと比較して、類似度を計算し、類似度に基づいて特定個数の音素シーケンスを候補対象シーケンスとして抽出する。一例によれば、候補セット抽出部２３０は、編集距離（ＥｄｉｔＤｉｓｔａｎｃｅ）アルゴリズムを含んだ類似度計算アルゴリズムを用いて音素シーケンスと対象シーケンスとの間の類似度を計算し、特定個数の音素シーケンス（例：上位２０個のシーケンス）を候補対象シーケンスとして類似度順に抽出する。

このような方式で、類似度アルゴリズムを用いて候補セットに含まれる候補対象シーケンスの個数を調節することによって、結果返還部２４０は、各候補対象シーケンスの生成確率計算時間を減らし、これにより、最終認識結果を迅速に返還することができる。

結果返還部２４０は、音響モデルを通じて計算された音素別の確率を用いて、候補セットに含まれている少なくとも１つの候補対象シーケンスを音声信号に対する認識結果として返還する。

一例によれば、結果返還部２４０は、編集距離アルゴリズムを含んだ類似度計算アルゴリズムを用いて獲得された１つ以上の音素シーケンスと候補セットの各候補対象シーケンスとの間の類似度を計算し、類似度が最も高い候補対象シーケンスを認識結果として返還する。

他の例によれば、結果返還部２４０は、確率計算部２１０によって計算された音素確率を（式２）及び（式３）のような確率計算アルゴリズムに適用して、候補セットで各候補対象シーケンスの生成確率を計算し、最も高い確率を有する候補対象シーケンスを最終認識結果として返還する。

図３は、一実施形態による音声認識方法のフローチャートである。図３は、図１に示された音声認識装置によって行われる音声認識方法の一実施形態である。

図３を参照すれば、音声認識装置１００は、音響モデルを用いて音声信号の音素別の確率を計算する（３１０）。この場合、音声信号は、前処理過程を通じて音声フレームに変換されて音響モデルに入力される。音響モデルは、各音声フレームを音素に分類し、各音素の確率を出力する。前述したように、音響モデルは、ＲＮＮとＣＴＣとを結合して学習される。音響モデルは、前述した（式２）及び（式３）のアルゴリズムを用いて学習される。

次いで、音声認識装置１００は、認識対象リストから１つ以上の候補対象シーケンスを含む候補セットを抽出する（３２０）。認識対象リストは、多様な機器によってあらかじめ定義される単語または文章のような対象シーケンスを含む。例えば、ＴＶの場合、対象シーケンスは、電源オン／オフ命令語、ボリューム調節命令語、及びチャネル変更命令語のようなＴＶを制御するための命令語を含みうる。また、ナビゲーションの場合、対象シーケンスは、電源オン／オフ命令語、ボリューム調節命令語、及び目的地検索命令語のようなナビゲーション装置を制御するための命令語を含みうる。そして、対象シーケンスは、自動車に搭載された多様な電子装置を制御するための命令を含みうる。但し、対象シーケンスは、このような例示に限定されるものではなく、ユーザによって制御され、音声認識技術を含む如何なる装置にも適用可能である。

そして、音声認識装置１００は、計算された音素確率と抽出された候補セットに基づいて候補対象シーケンスを入力音声信号の認識結果として返還する（３３０）。この際、一例によれば、音響モデルと前述した（式２）及び（式３）のアルゴリズムを通じて計算された音素別の確率に基づいて、各候補対象シーケンスを生成する確率を計算することができる。また、確率が最も高い候補対象シーケンスを最終認識結果として返還する。

図４は、他の実施形態による音声認識方法のフローチャートである。図４を参照すれば、音声認識装置２００は、音響モデルを用いて音声信号の音素確率を計算する（４１０）。音響モデルは、多様な学習アルゴリズム、例えば、ＣＴＣ学習アルゴリズムを用いて正答である音素シーケンスが生成される可能性がある音素のあらゆる組合わせに対して、各音声フレームに対する音素確率が最大になる方式で学習される。

次いで、音声認識装置２００は、計算された音素確率に基づいて音素の連結である音素シーケンスを獲得する（４２０）。例えば、最適経路解釈アルゴリズムまたは先行経路解釈アルゴリズムのような解釈アルゴリズムを用いて１つ以上の音素シーケンスを獲得する。

次いで、音声認識装置２００は、音素シーケンスに基づいて認識対象リストから１つ以上の候補対象シーケンスを抽出して候補セットを生成する（４３０）。認識対象リストは、音声認識技術を含む電子装置の種類によってあらかじめ定義される。この場合、認識対象リストは、各対象シーケンスの利用順位と関連した情報（例えば、利用頻度、利用確率など）をさらに含む。

一例によれば、音声認識装置２００は、認識対象リストに含まれた対象シーケンスの総個数によって、その全部または一部の対象シーケンスを候補セットとして抽出する。対象シーケンスの利用順位と関連した情報が存在する場合、その情報に基づいて既定の個数の対象シーケンスを候補セットとして抽出することが可能である。

他の例によれば、音声認識装置２００は、シーケンス獲得部２２０によって獲得された１つ以上の音素シーケンスを認識対象リストに含まれた各対象シーケンスと比較して、類似度を計算し、該計算された類似度に基づいて特定個数の音素シーケンスを候補対象シーケンスとして抽出する。例えば、音声認識装置２００は、編集距離アルゴリズムを含んだ類似度計算アルゴリズムを用いて音素シーケンスと対象シーケンスとの間の類似度を計算し、特定個数の音素シーケンス（例：上位２０個のシーケンス）を候補対象シーケンスとして類似度順に抽出する。

次いで、音声認識装置２００は、音響モデルと候補セットを用いて音素確率に基づいて音声信号の認識結果を返還する（４４０）。

一例によれば、音声認識装置２００は、編集距離アルゴリズムを含んだ類似度計算アルゴリズムを用いて、１つ以上の獲得された音素シーケンスと候補セットに含まれている各候補対象シーケンスとの間の類似度を計算し、最も高い類似度を有する候補対象シーケンスを認識結果として返還する。

他の例によれば、音声認識装置２００は、計算された音素別の確率を、前述した（式２）及び（式３）のような確率計算アルゴリズムによって、候補セットに含まれている各候補対象シーケンスを生成する確率を計算し、最も高い確率を有する候補対象シーケンスを最終認識結果として返還する。

図５は、電子装置の一実施形態を示すブロック図である。

本実施形態による電子装置５００は、一実施形態による音声認識装置１００または２００を搭載する。電子装置５００は、ＴＶセット、セットトップボックス、デスクトップコンピュータ、ノート型パソコン、電子翻訳機、スマートフォン、タブレットＰＣ、自動車の電子制御装置、またはユーザによって制御され、ユーザの多様な命令語を処理する音声認識技術が搭載された所定の装置であり得る。しかし、電子装置５００は、このような例示に限定されるものではなく、ユーザによって制御され、音声認識技術を含む所定の電子機器であり得る。

図５を参照すれば、電子装置５００は、音声受信部５１０、音声認識部５２０、及び処理部５３０を含む。音声認識部５２０は、図１の音声認識装置１００または図２の音声認識装置２００をハードウェア形態で製作して電子装置５００に具現したものである。

音声受信部５１０は、電子装置５００のマイクロホンを通じて入力されるユーザの音声信号を受信する。図５に示したように、ユーザの音声信号は、他の言語への翻訳のための文章や、ＴＶセットを制御するか、自動車を操縦するための命令語、またはユーザによって制御される所定の他の装置であり得る。

一例によれば、音声受信部５１０は、ユーザによるアナログ音声信号入力をデジタル信号に変換し、該変換された信号を多数の音声フレームに分ける前処理過程を行い、音声フレームを音声認識部５２０に伝達する。

音声認識部５２０は、音声信号、例えば、音声フレームを音響モデルに入力し、各音声フレームに対する音素別の確率を計算する。音声フレームに対して音素別の確率が計算されれば、音声認識部５２０は、計算された音素別の確率を用いて認識対象リストから候補セットを抽出し、計算された音素別の確率と抽出された候補セットを用いて最終認識結果を返還する。音響モデルは、ＲＮＮまたはＤＮＮに基づくネットワークであって、ＣＴＣ学習アルゴリズムを用いて正答シーケンスを生成することができるあらゆる音素の組合わせに対して、音声フレームに対する音素確率を最大になる方式で学習される。

認識対象リストは、音声認識技術を搭載した電子装置５００の種類や活用目的によってあらかじめ定義される。例えば、電子装置５００が、ＴＶセットに搭載された場合には、ＴＶにおいて、よく使われる電源オン／オフ命令語、ボリューム調節命令語、及びチャネル変更命令語のような多様な単語または命令語が認識対象リスト内に定義される。また、電子装置５００が、自動車に搭載されたナビゲーションである場合、ナビゲーション装置の制御に使われる電源オン／オフ命令語、ボリューム調節命令語、及び目的地検索命令語のような多様な命令語が認識対象リストに定義される。

一方、音声認識部５２０は、音声認識のための一般的な解釈アルゴリズム（例えば、ＣＴＣ）を通じて音素確率に基づいて音素シーケンスを獲得し、該獲得された音素シーケンスと認識対象リストとを比較して、候補セットを抽出する。この場合、編集距離アルゴリズムのような類似度計算アルゴリズムを用いて獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度を計算し、該計算された類似度の順次に特定個数の音素シーケンスを抽出して候補セットを候補対象シーケンスとして生成する。

音声認識部５２０は、計算された音素確率を用いて抽出された候補セットで１つの候補対象シーケンスを最終認識結果として返還し、この場合、候補セットで、各候補対象シーケンスの確率の間で最も大きな確率を有する候補対象シーケンスを最終認識結果として返還する。一例によれば、音声認識部５２０は、最終認識結果をテキスト形式で出力する。

処理部５３０は、最終認識結果に対応する動作を行う。例えば、処理部５３０は、ユーザの音声認識結果をスピーカーを通じて音声信号として出力するか、音声認識結果をディスプレイを通じてテキスト形式で提供する。または、ＴＶセット、セットトップボックス、家電機器、自動車の電子制御装置、またはユーザによって制御される所定の他の装置を制御するための処理命令語（例えば、電源オン／オフ命令語、ボリューム調節命令語など）を処理する動作を行う。

また、最終認識結果を他の言語に翻訳する場合、処理部５３０は、テキスト形式で出力された最終認識結果を他の言語に翻訳し、該翻訳された結果を音声またはテキスト形式で出力する。しかし、処理部５３０は、このような例示に限定されず、その他の多様な分野で活用されうる。

図６は、一実施形態による電子装置での音声認識方法のフローチャートを図示したものである。

電子装置５００は、マイクロホン、または他の音声入力装置を通じて他の言語への翻訳のための文章や、ＴＶまたは自動車走行の制御などのための命令語を含んだユーザの音声信号を受信する（６１０）。また、ユーザの音声信号が受信されれば、アナログ形態の音声信号をデジタル信号に変換し、デジタル信号を多数の音声フレームに分ける前処理過程を行う。

次いで、電子装置５００は、あらかじめ保存された音響モデル及び既定の認識対象リストに基づいて、入力された音声信号に対する最終認識結果を返還する（６２０）。

例えば、電子装置５００は、音声フレームを音声フレームの音素別の確率を計算するための音響モデルに入力する。また、音声フレームに対する音素別の確率が計算されれば、電子装置５００は、計算された音素別の確率に基づいて認識対象リストから候補セットを抽出し、計算された音素確率と抽出された候補セットに基づいて最終認識結果を返還する。音響モデルは、ＲＮＮまたはＤＮＮ基盤のネットワークであって、ＣＴＣ学習アルゴリズムを用いて学習される。認識対象リストは、音声認識技術が搭載された電子装置５００の種類及び目的に基づいてあらかじめ定義される。

一例によれば、電子装置５００は、計算された音素確率から音素シーケンスを獲得し、該獲得された音素シーケンスと認識対象リストとを比較して、候補セットを抽出する。この場合、編集距離アルゴリズムを含んだ類似度計算アルゴリズムを用いて、獲得された音素シーケンスと認識対象リストに含まれた各対象シーケンスとの間の類似度を計算し、特定個数の音素シーケンスを候補対象シーケンスとして類似度順に抽出することによって、候補セットを生成する。

電子装置５００は、前述した（式２）及び（式３）を用いて、各候補対象シーケンスを生成する確率を計算し、最も高い確率を有する候補対象シーケンスを最終認識結果として返還し、この場合、電子装置５００は、最終認識結果をテキスト形式で変換することができる。

次いで、電子装置５００は、返還された最終認識結果に対応する動作を行う（６３０）。

例えば、電子装置５００は、ユーザが入力した音声を認識した結果をスピーカー、ヘッドホン、または所定の他の音声出力装置を通じて音声信号として出力するか、ディスプレイにテキスト形式で提供することができる。また、電子装置５００は、ＴＶ、セットトップボックス、家電機器、自動車の電子制御装置、及びユーザによって制御される所定の他の装置を制御するための処理命令語を処理するための動作を行うことができる。また、電子装置５００は、テキスト形式で出力された最終認識結果を他の言語に翻訳し、該翻訳された結果を音声やテキスト形式で出力することができる。しかし、電子装置５００は、このような例示に限定されず、その他の多様な分野で活用されうる。

図１ないし図６に関連した説明の動作を行う、図１の音声認識装置１００、確率計算部１１０、候補セット抽出部１２０、及び結果返還部１３０と、図２の音声認識装置２００、確率計算部２１０、シーケンス獲得部２２０、候補セット抽出部２３０、及び結果返還部２４０、及び図５の電子装置５００、音声受信部５１０、音声認識部５２０、及び処理部５３０は、ハードウェア構成要素である。ハードウェア構成要素の一例として、制御装置、センサー、発電機、ドライバ、メモリ、比較器、算術論理装置（ＡＬＵ）、加算器、減算器、マルチプライヤー、ディバイダー、積分器、及び当業者に知られた所定の他の電子構成要素を含む。ハードウェア構成要素は、例えば、シングルプロセッサ、独立プロセッサ、並列プロセッサ、単一命令単一データ（ＳＩＳＤ）マルチプロセッシング、単一命令多重データ（ＳＩＭＤ）マルチプロセッシング、及び多重命令多重データ（ＭＩＭＤ）マルチプロセッシングを含む１つ以上の他の処理構成を含む。

図１ないし図６と関連した動作を行う方法が、図３、図４、及び図６に示されており、これは、コンピューティングハードウェアによって実行される。コンピューティングハードウェアは、例えば、前述したように、本発明の動作を実行するための命令語またはソフトウェアを実行する１つ以上のプロセッサまたはコンピュータであり得る。

本発明に開示されたハードウェア構成要素及び方法によって実行される動作を行うための、装置または特別な目的のコンピュータを動作させるための、プロセッサまたはコンピュータを個別的または選択的に命令するか、構成するために、ハードウェア構成要素を実行させ、本発明に記載の発明を行うためのプロセッサまたはコンピュータを制御するための命令語またはソフトウェアは、コンピュータプログラム、コードセグメント、命令語またはこれらの組合わせとして作成される。一例によれば、命令語またはソフトウェアは、コンパイラによって作られる機械語コードのように、プロセッサまたはコンピュータによって直接に実行される機械語コードを含む。他の例によれば、命令語またはソフトウェアは、インタプリタを用いるプロセッサまたはコンピュータによって実行される上位コードを含む。本発明は、ハードウェア構成要素及び本発明に記載の方法による動作を行うためのアルゴリズムを開示するブロック図及びフローチャートを図面で図示し、明細書で説明しており、当業者は、このようなブロック図及びフローチャートに基づいて命令語またはソフトウェアを容易に作成することができる。

ハードウェア構成要素及び本発明に開示された方法を行うためのプロセッサまたはコンピュータを制御するための命令語またはソフトウェアは、１つ以上の不揮発性コンピュータ可読記録媒体に記録または保存されるか、または固定される。不揮発性コンピュータ可読記録媒体の例として、読み出し専用記憶装置（ＲＯＭ）、任意抽出記憶装置（ＲＡＭ）、フラッシュメモリ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ＋Ｒ、ＣＤ−ＲＷ、ＣＤ＋ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ、ＤＶＤ＋Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ、ＤＶＤ−ＲＡＭ、ＢＤ−ＲＯＭ、ＢＤ−Ｒ、ＢＤ−ＲＬＴＨ、ＢＤ−ＲＥ、磁気テープ、フロッピーディスク、光磁気データ保存装置、光データ保存装置、ハードディスク、半導体ディスク、及び命令語またはソフトウェア及び関連データ、データファイル、及び不揮発性方式のデータ構造を保存し、プロセッサまたはコンピュータが命令語を実行させるように命令語またはソフトウェア及び関連データ、データファイル、及び不揮発性方式のデータ構造をプロセッサまたはコンピュータに提供することができるものと当業者に知られた所定の他の装置を含む。一例によれば、命令語またはソフトウェア及び関連データ、データファイル、及びデータ構造は、命令語、ソフトウェア、及び所定の関連データ、データファイル、及びデータ構造がプロセッサまたはコンピュータによって分散された方式で保存、接続、及び実行されるように、ネットワークで連結されたコンピュータシステムに分散される。

本発明は、具体的な実施形態を開示しているが、これは、当業者によって形式及び細部事項が変更されうるということは自明である。本発明に開示された例示は、叙述するためのものに過ぎず、限定するためのものではない。各例示の特徴または態様についての説明は、他の例示の類似している特徴または態様に活用されうるものと考慮されなければならない。開示された技術が、他の順序で行われるか、システム、アーキテクチャー、デバイス、または回路に開示された構成要素が、他の構成要素または代替部品に置き換えられるか、補充される場合、適切な結果を得ることができる。したがって、本発明の範囲は、明細書の記載の内容に定義されるものではなく、請求項及びこれらと均等な範囲、及び請求項の範囲内でのあらゆる変化、及び明細書の記載に含まれていると理解される均等範囲によって定義される。

本発明は、音声認識装置及び方法と電子装置関連の技術分野に適用可能である。

１００、２００：音声認識装置
１１０、２１０：確率計算部
１２０、２３０：候補セット抽出部
１３０、２４０：結果返還部
１４０、２５０：認識対象リスト
２２０：シーケンス獲得部
５００：電子装置
５１０：音声受信部
５２０：音声認識部
５３０：処理部

Claims

音響モデルを用いて音声信号の音素確率を計算する確率計算部と、
対象シーケンスの認識対象リストから候補セットを抽出する候補セット抽出部と、
前記計算された音素確率に基づいて、前記抽出された候補セットから認識結果を返還する結果返還部と、
を含む音声認識装置。
前記音響モデルは、ＣＴＣを含む学習アルゴリズムを用いて学習される請求項１に記載の音声認識装置。
前記結果返還部は、
前記計算された音素確率に基づいて、前記候補セットに含まれた各候補対象シーケンスの生成確率を計算し、前記計算された生成確率が最も高い候補対象シーケンスを前記認識結果として返還する請求項１又は２に記載の音声認識装置。
前記計算された音素確率に基づいて音素シーケンスを獲得するシーケンス獲得部をさらに含む請求項１乃至３のいずれか一項に記載の音声認識装置。
前記候補セット抽出部は、
前記獲得された音素シーケンスと前記認識対象リストの各対象シーケンスとの間の類似度を計算し、前記計算された類似度に基づいて前記候補セットを抽出する請求項４に記載の音声認識装置。
前記候補セット抽出部は、
編集距離アルゴリズムを含む類似度アルゴリズムを用いて前記類似度を計算する請求項５に記載の音声認識装置。
前記シーケンス獲得部は、
最適経路解釈アルゴリズムまたは先行経路解釈アルゴリズムを用いて、前記計算された音素確率に基づいて前記音素シーケンスを獲得する請求項４に記載の音声認識装置。
音響モデルを用いて音声信号の音素確率を計算する段階と、
対象シーケンスの認識対象リストから候補セットを抽出する段階と、
前記計算された音素確率に基づいて、前記抽出された候補セットから認識結果を返還する段階と、
を含む音声認識方法。
前記音響モデルは、ＣＴＣを含む学習アルゴリズムを用いて学習される請求項８に記載の音声認識方法。
前記認識結果を返還する段階は、
前記計算された音素確率に基づいて、前記候補セットに含まれた各候補対象シーケンスの生成確率を計算する段階を含み、前記計算された生成確率が最も高い候補対象シーケンスを前記認識結果として返還する請求項８又は９に記載の音声認識方法。
前記計算された音素確率に基づいて音素シーケンスを獲得する段階をさらに含む請求項８乃至１０のいずれか一項に記載の音声認識方法。
前記候補セットを抽出する段階は、
前記獲得された音素シーケンスと前記認識対象リストの各対象シーケンスとの間の類似度を計算する段階を含み、前記計算された類似度に基づいて前記候補セットを抽出する請求項１１に記載の音声認識方法。
前記類似度を計算する段階は、
編集距離アルゴリズムを含む類似度アルゴリズムを用いて前記類似度を計算する請求項１２に記載の音声認識方法。
前記音素シーケンスを獲得する段階は、
最適経路解釈アルゴリズムまたは先行経路解釈アルゴリズムを用いて、前記計算された音素確率に基づいて前記音素シーケンスを獲得する請求項１１乃至１３のいずれか一項に記載の音声認識方法。
ユーザの音声信号を受信する音声受信部と、
音響モデルを用いて前記受信された音声信号の音素確率を計算し、前記計算された音素確率に基づいて認識対象リストに含まれた対象シーケンスのうちの何れか１つを認識結果として返還する音声認識部と、
前記返還された認識結果に基づいて所定の動作を行う処理部と、
を含む電子装置。
前記音声認識部は、
前記認識対象リストから候補セットを抽出し、前記計算された音素別の確率に基づいて、前記候補セットに含まれた各候補対象シーケンスの生成確率を計算し、前記計算された生成確率が最も大きな候補対象シーケンスを前記認識結果として返還する請求項１５に記載の電子装置。
前記音声認識部は、
前記音素確率を解釈して音素シーケンスを獲得し、前記獲得された音素シーケンスと前記認識対象リストの各対象シーケンスとの間の類似度に基づいて前記候補セットを抽出する請求項１６に記載の電子装置。
前記処理部は、
前記認識結果をスピーカーを通じて音声信号として出力するか、ディスプレイによってテキスト形式で出力する請求項１５乃至１７のいずれか一項に記載の電子装置。
前記処理部は、
前記認識結果を他の言語に翻訳し、翻訳結果をスピーカーを通じて音声信号として出力するか、ディスプレイによってテキスト形式で出力する請求項１５乃至１８のいずれか一項に記載の電子装置。
前記処理部は、
前記認識結果に対応する電源オン／オフ命令語、ボリューム調節命令語、チャネル変更命令語、及び目的地検索命令語のうちの１つ以上を含む命令語を処理する請求項１５乃至１９のいずれか一項に記載の電子装置。
音声信号の一部が音声単位に対応する確率を計算する段階と、
音声単位のシーケンスリストから音声単位の候補シーケンスセットを獲得する段階と、
前記確率に基づいて音声信号に対応する音声単位の候補シーケンスのうち何れか１つを認識する段階と、
を含む音声認識方法。
前記確率を計算する段階は、音響モデルを用いて確率を計算する請求項２１に記載の音声認識方法。
前記音声単位は、音素である請求項２１又は２２に記載の音声認識方法。
前記音声単位の候補シーケンスは、文章である請求項２１乃至２３のいずれか一項に記載の音声認識方法。
前記文章は、電子装置を制御する命令語である請求項２４に記載の音声認識方法。
前記音声単位の候補シーケンスのうち何れか１つを認識する段階は、
前記音声信号の一部が音声単位に対応する確率に基づいて音声単位の各候補シーケンスを生成する確率を計算する段階と、
音声単位の候補シーケンスのうち、音声信号に対応する音声単位の各候補シーケンスを生成する確率のうちから最も高い確率を有する何れか１つを認識する段階と、
を含む請求項２１乃至２５のいずれか一項に記載の音声認識方法。