JP2017058674A

JP2017058674A - 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器

Info

Publication number: JP2017058674A
Application number: JP2016179329A
Authority: JP
Inventors: 尚賢柳; Sang Hyun Yoo; 金　重　會; Jung-Hoe Kim; 重會金; 瑩旻朴; Hyoung-Min Park; 喜烈崔; Hee Youl Choi; 錫 ▲じん▼ 洪; Seok Jin Hong
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-09-18
Filing date: 2016-09-14
Publication date: 2017-03-23
Also published as: US20170084268A1; EP3144930A1; CN106548774A; KR20170034227A

Abstract

【課題】特有の発音的特徴に対応することが可能な音声認識のための装置及び方法等を提供すること。【解決手段】一態様による音声認識装置は、音響モデルを用いて、音声入力に対する音響点数を計算する音響点数計算部と、変換パラメータを用いて、計算された音響点数を標準発音に対応する音響点数に変換する音響点数変換部と、変換された音響点数を解析して、音声入力信号に対する認識結果を出力する解析部と、を含みうる。【選択図】図１

Description

本発明は、音声認識のための装置及び方法等に関する。

音声認識技術において、音響モデル（ＡｃｏｕｓｔｉｃＭｏｄｅｌ）は、人の音声信号から抽出された特徴を用いて、例えば、ユーザの音声に対する音素別の確率テーブルを計算する役割を果たす。音素別の確率テーブルは、解析（Ｄｅｃｏｄｉｎｇ）過程を経ながら、最終認識結果を変換する。しかし、人は、発話をする時、異なる発音を有するために、同じ文章を読んでも、人ごとに互いに異なる音素確率テーブルが生じる。相違が大きくなければ、言語モデルによって補正することが可能であるが、著しい地域方言などの使用によって標準発音と大きく異なる場合には、言語モデルをもってしても補正できない場合が生じる。従って、そのような特有の発音的特徴を有する人に関する音声認識技術は改良の余地がある。

本発明が解決しようとする課題は、音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム、記録媒体及び電子機器等を提供することである。

一態様による音声認識装置は、音響モデルを用いて、音声入力に対する音響点数を計算する音響点数計算部と、変換パラメータを用いて、計算された音響点数を標準発音に対応する音響点数に変換する音響点数変換部と、変換された音響点数を解析して、音声入力信号に対する認識結果を出力する解析部と、を含みうる。

また、言語モデルを用いて、音声入力に対する言語点数を出力する言語点数計算部をさらに含み、解析部は、言語点数に基づいて、計算された音響点数を解析し、認識結果を出力することができる。

また、ユーザのフィードバックに基づいて、認識結果に対する確認データを収集するフィードバック収集部をさらに含みうる。

音響点数計算部によって計算された音響点数、及び収集された確認データに基づいて変換パラメータを再学習して、変換パラメータを更新する学習部をさらに含みうる。

また、計算された音響点数及び収集された確認データを学習装置に伝送し、学習装置から再学習された変換パラメータを受信して、変換パラメータを更新する学習部を含みうる。

また、点数変換部は、変換パラメータを行列積、神経網及び線形回帰（ｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎ）のうち、少なくとも１つの形態で計算された音響点数に適用することができる。

また、変換パラメータの適用形態は、ユーザ別、地域別、年齢別、方言及びユーザの性別のうち、少なくとも１つの基準によってあらかじめ決定されうる。

一態様による音声認識方法は、音響モデルを用いて、入力されたユーザの音声に対する音響点数を計算する段階と、変換パラメータを用いて、計算された音響点数を標準発音に対する音響点数に変換する段階と、変換された音響点数を解析して、音声入力に対する認識結果を出力する段階と、を含みうる。

また、言語モデルを用いて、音声入力に対する言語点数を出力する段階をさらに含み、認識結果を出力する段階は、言語点数に基づいて、計算された音響点数を解析することができる。

また、ユーザのフィードバックに基づいて、認識結果に対する確認データを収集する段階をさらに含みうる。

また、計算された音響点数及び収集された確認データに基づいて変換パラメータを再学習する段階と、再学習の結果に基づいて、変換パラメータを更新する段階と、をさらに含みうる。

また、計算された音響点数及び収集された確認データを学習装置に伝送する段階と、学習装置から再学習された変換パラメータを受信する段階と、受信された変換パラメータを用いて、変換パラメータを更新する段階と、をさらに含みうる。

また、音響点数を計算する段階、音響点数に変換する段階、及び認識結果を出力する段階は、１つ以上のプロセッサによって行われる。

この際、音声認識方法が、プロセッサによって実行されるための命令語を保存するコンピュータで読み取り可能な不揮発性記録媒体であり得る。

一態様による変換パラメータ学習装置は、学習用実際音声に対する音響点数データ、及び学習用実際音声に対応する標準発音に基づいた確認データを学習データとして収集する学習データ収集部と、学習データを用いて変換パラメータを学習させる学習部と、学習された変換パラメータを音声認識装置に伝送するデータ伝送部と、を含みうる。

この際、学習データ収集部は、収集された学習データを既定の基準によって分類し、学習部は、分類の結果、生成された分類グループ別に変換パラメータを学習させて、分類グループ別変換パラメータを生成することができる。

ここで、既定の基準は、個人別、性別、年齢別、方言及び地域別のうち、少なくとも１つを含みうる。

また、学習データ収集部は、音声認識装置からユーザの音声に対する音響点数データ、及びユーザのフィードバックに基づいた確認データを学習データとしてさらに収集することができる。

一態様によるパラメータ学習方法は、学習用実際音声に対する音響点数データ及び学習用実際音声に対応する標準発音に基づいた確認データを学習データとして収集する段階と、学習データを用いて変換パラメータを学習させる段階と、学習された変換パラメータを音声認識装置に伝送する段階と、を含みうる。

ここで、学習データを収集する段階は、収集された学習データを既定の基準によって分類する段階を含み、学習させる段階は、分類の結果、生成された分類グループ別に変換パラメータを学習させて、分類グループ別変換パラメータを生成する段階を含みうる。

この際、既定の基準は、個人別、性別、年齢別、方言及び地域別のうち、少なくとも１つを含みうる。

また、学習データを収集する段階は、音声認識装置からユーザ音声の音響点数データ、及びユーザのフィードバックに基づいた補正認識データを学習データとしてさらに収集することができる。

また、音声入力に基づいて第１音響点数を計算し、変換パラメータを使って、第１音響点数を標準発音に対応する第２音声点数に変換し、第２音響点数を解析して、音声入力を認識するプロセッサを含みうる。

また、プロセッサは、標準発音に基づいた音響モデルを使って第１音響点数を計算し、標準発音から外れたユーザの発音特性を考慮した第２音響点数の生成のために、第１音響点数に変換パラメータを適用することができる。

一方、プロセッサは、ユーザ別、グループ別、年齢、地域別、方言及びユーザの性別のうち、少なくとも１つと関連したユーザの発音特性を調整するために、変換パラメータを使うことができる。

一態様による電子機器は、音声入力に対応する信号を検出するマイクロホンと、音声認識装置と、を含みうる。

一実施形態による音声認識装置のブロック図である。他の実施形態による音声認識装置のブロック図である。さらに他の実施形態による音声認識装置のブロック図である。一実施形態による音声認識方法のフローチャートである。他の実施形態による音声認識方法のフローチャートである。さらに他の実施形態による音声認識方法のフローチャートである。図６Ａの変換パラメータ更新段階（６４０）の詳細フローチャートである。一実施形態による変換パラメータ学習装置のブロック図である。一実施形態による変換パラメータ学習方法のフローチャートである。一実施形態による電子装置のブロック図である。

その他の実施形態の具体的な事項は、詳しい説明及び図面に含まれている。記載の技術の利点及び特徴、そして、それらを果たす方法は、図面と共に詳細に後述されている実施形態を参照すると、明確になる。明細書の全般に亘って同じ参照符号は、同じ構成要素を指称する。

以下、音声認識装置及び方法の実施形態を図面を参考にして詳しく説明する。

図１は、一実施形態による音声認識装置のブロック図である。この際、音声認識装置１００は、プロセッサで実行されるソフトウェアモジュールとして具現されるか、ハードウェアチップの形態で製作されて電子装置に搭載されうる。

図１を参照すれば、音声認識装置１００は、音響点数計算部１１０、音響点数変換部１２０、及び解析部１３０を含みうる。

音響点数計算部１１０は、入力されたユーザの音声を音響モデルに適用して音響点数を計算することができる。この際、音響モデルは、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）音響モデル、神経網（ＮｅｕｒａｌＮｅｔｗｏｒｋ）基盤の音響モデル、例えば、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＢＲＤＮＮ（ＢｉｄｉｒｅｃｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｔｗｏｒｋ）のような音響モデルが使われ、これに特に限定されるものではない。また、音響点数計算部１１０は、音素、音節、形態素、句、単語、文章のような言語構造の基本単位のうちから既定の何れか１つの単位に対する確率を音響点数として計算することができる。ここで、言語構造の基本単位は、多様な言語別に異なりうる。したがって、既定の言語単位は、各言語によって多様に選択されうる。

一般的に、音響モデルは、標準音声信号を用いて学習され、その学習の結果に基づいて生成された音響モデルは、一般的な音声認識で共通して適用される。標準発音は、大量の練習データに対する平均化効果から決定される平均発音及び／またはアクセント（ａｃｃｅｎｔｓ）のない従来に広く使われる発音であり得る。互いに異なるユーザは、同じ表現を異ならせて発音することができる。このように、音響モデルが、標準発音音声信号に基づいて生成されるので、同じ標準音声に対するユーザの発音が異なる場合には、その音響モデルの適用結果として算出される音響点数、例えば、音素確率は、各ユーザ別に異なるように計算されうる。

例えば、英語発話に対する音声認識を行う場合、ユーザの出身国家、出身地域、年齢、性別などによって、同じ単語や文章に対する発音は少しずつ異なりうる。例えば、一部のアジア国家のユーザは、英語アルファベット“ｒ”を“ｌ”と類似に発音する傾向がある。これにより、アジア国家のユーザが単語“ｒｏｃｋ”を発話する場合、そのユーザから入力された実際音声が音響モデルに適用された結果、計算された音響点数は、“ｒ”よりも“ｌ”がさらに高い確率を有する。その結果、最終認識された単語は、“ｌｏｃｋ”になりうる。

このように、音響点数計算部１１０によって計算された音響点数を直ちに解析部１３０に入力すれば、ユーザによって音声認識の結果が変わって正確ではない音声認識結果が出力される。また、標準発音と異なる発音特性を有したユーザが、共通音響モデルのみが適用されている音声認識装置を用いて音声認識を行う場合、引き続き誤った音声認識結果を提供されるので、ユーザに対する音声認識の信頼性が減少する。

このために、音響点数変換部１２０は、ユーザの発音特性によって異なるように算出される音響点数を標準音声信号に対する音響点数に変換することができる。この際、ユーザの区別される発音特性のために、標準発音の発話者に対応する音響点数に対して不正確な音響点数が算出される。例えば、音響点数は、個別ユーザの発音特性に基づいてあらかじめ生成された変換パラメータを用いて音響点数を変換することができる。また、ユーザ個人別、ユーザが属した地域別、年齢別、性別及び世襲などの多様な基準によって変換パラメータが生成され、該生成された変換パラメータを適用するアルゴリズムも、その基準によってあらかじめ設定しうる。

例えば、変換パラメータを適用するアルゴリズムは、行列積、神経網、線形回帰アルゴリズムなどになりうる。この際、音声認識装置１００が搭載された電子装置のメモリ容量、保存容量、ＣＰＵ性能などのコンピューティング性能によって適用する適切なアルゴリズムが決定されうる。ここで、音声認識装置が搭載された電子装置は、ＴＶ、ナビゲーション、自動車電子装置、スマートフォン、タブレットＰＣ、スマートウォッチ、デスクトップコンピュータ、ノート型パソコン、ウェアラブル機器などを含むが、これらに制限されるものではない。

解析部１３０は、このようにユーザの発音特性を考慮した変換パラメータを用いて変換された音響点数を解析することができる。したがって、解析部１３０は、ユーザの実際音声を提供された標準音声に対する認識結果を出力することができる。

この際、変換パラメータは、図７を参照して詳しく後述するように、ユーザ別、グループ別、地域別、年齢別、方言及びユーザの性別のうちの何れか１つまたは２つ以上の組合わせによる基準によって分類された学習データを用いて学習されて、各分類基準別に生成されうる。例えば、変換パラメータは、ユーザによって使われるスマートフォンのアプリケーションのユーザ識別情報に基づいてユーザに対して特別に学習されうる。また、ユーザは、特定の発音特徴を有する一定のグループに属することができる。例えば、音響点数変換部１２０は、英語で音声認識を行うユーザがアジア地域出身のユーザである場合、このように多様な分類基準によって分類された学習データのうちからアジア地域学習データを用いて学習された変換パラメータを利用できる。例えば、そのアジア地域ユーザが“ｒｏｃｋ”を発音し、音響点数計算部１１０がアルファベット“ｒ”に対して“ｌ”を最も高い音響点数として計算しても、音響点数変換部１２０が、そのアジア地域ユーザに最適化された変換パラメータを使って変換することによって、“ｌ”よりも“ｒ”がさらに高い点数を有するように補正することができる。解析部１３０は、このように変換された結果を用いることによって、最終的な音声認識結果として“ｌｏｃｋ”ではない“ｒｏｃｋ”を出力することができる。

図２は、他の実施形態による音声認識装置のブロック図である。図２を参照すれば、音声認識装置２００は、音響点数計算部２１０、音響点数変換部２２０、解析部２３０、及び言語点数計算部２４０を含みうる。

前述したように、音響点数計算部２１０は、ユーザから提供された実際音声入力に対して音響モデルを適用して音響点数を計算し、音響点数変換部２２０は、変換パラメータを用いて、その音響点数を標準発音に該当する音響点数に変換することができる。この際、変換パラメータは、そのユーザの年齢や、性別、地域などによって学習され、これにより、そのユーザの発音の特異性が考慮された音響点数変換することができる。

言語点数計算部２４０は、言語モデルを用いて、言語点数を計算することができる。この際、言語モデルは、Ｎ−Ｇｒａｍまたは神経網基盤の言語モデルであり得る。例えば、言語点数計算部２４０は、特定の単語や文章がどれほどよく使われるかに対する確率を言語点数として出力することができる。

解析部２３０は、ユーザから入力された実際音声に対して音響点数計算部２１０によって音響点数が計算され、音響点数変換部２２０によって標準発音で話す人に対する音響点数に変換されれば、該変換された音響点数及び言語モデル点数に基づいて解析して、音声認識結果を出力することができる。このように、解析部２３０は、変換された音響点数以外にも、言語点数をさらに考慮して音声を解析することによって、正確な音声認識が可能である。

図３は、さらに他の実施形態による音声認識装置のブロック図である。本実施形態による音声認識装置３００は、ユーザのフィードバックに基づいて変換パラメータを更新させる機能を含みうる。本実施形態による音声認識装置３００は、その音声認識装置３００が搭載された電子装置を使うユーザに個人化された変換パラメータを生成して活用することができる。この際、その音声認識装置３００が搭載された電子装置のユーザが複数である場合、各ユーザ別に個人化された複数の変換パラメータを生成することも可能である。

図３を参照すれば、音声認識装置３００は、音響点数計算部３１０、音響点数変換部３２０、及び解析部３３０以外にも、フィードバック収集部３４０及び学習部３５０をさらに含みうる。

前述したところと同様に、音響点数計算部３１０は、ユーザの実際音声が入力されれば、音響モデルを用いて音響点数を計算し、音響点数変換部３２０は、計算された音響点数を変換パラメータを用いて標準音声に該当する音響点数に変換することができる。また、解析部３３０は、変換された音響点数を用いてユーザの実際音声に対する認識結果を出力することができる。

フィードバック収集部３４０は、ユーザから音声認識結果に対するフィードバックを受信し、該受信されたフィードバックに基づいてユーザの実際音声に対応する認識結果の確認データを収集することができる。確認データは、解析部３３０によって解析された発話された音声入力の単語、句または文章をユーザによって確認したデータであり得る。フィードバック収集部３４０は、ユーザがフィードバックを容易に入力できるように、ユーザとインタラクションする多様な方法のインターフェースを提供することができる。

例えば、フィードバック収集部３４０は、音声認識装置３００が搭載される電子装置のスピーカーを活用してユーザの応答を要求する質疑を音声として出力することができる。一例として、単語“ｒｏｃｋ”に対して認識結果が“ｌｏｃｋ”である場合、“入力した単語がｌｏｃｋですか？”のような聴覚的要請を出力することができる。この場合、ユーザは、“はい”、または“いいえ”としてフィードバック応答を入力することができる。または、ユーザは、“いいえ、ｒｏｃｋです。”のようなフィードバック応答を入力することもできる。

他の例として、フィードバック収集部３４０は、ユーザが正解をテキストで直接入力できるように、“正しい単語／句を入力してください”という要請と共にテキスト入力ボックスをディスプレイすることができる。

さらに他の例として、フィードバック収集部３４０は、音声認識結果に基づいて複数の認識候補を決定して、該決定された認識候補リストをスクリーンに提示することができる。例えば、“ｒｏｃｋ”と“ｌｏｃｋ”を認識候補としてユーザに提示し、ユーザが選択した何れか１つを、例えば、“ｒｏｃｋ”を音声認識結果に対するユーザ補正として収集することができる。このように、フィードバック収集部３４０は、音声認識結果が出力されれば、多様な方法でユーザとインタラクションを行って、ユーザ応答を収集し、例示されたものに制限されるものではない。

一方、フィードバック収集部３４０は、ユーザのフィードバックから確認データを抽出する過程をさらに行うことができる。例えば、ユーザが、確認された認識結果が含まれた語句や文章を入力する場合、当該語句や文章の分析、例えば、パージング（ｐａｒｓｉｎｇ）や個体名認識（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ、ＮＥＲ）などの分析を通じて、ユーザから確認された認識結果を抽出することができる。前述したように、ユーザが、“いいえ、正確な単語はｒｏｃｋです。”のように入力する場合、フィードバック収集部３４０は、多様な分析技法を通じて正確な認識結果である“ｒｏｃｋ”を抽出することができる。

学習部３５０は、音声認識結果に対して収集された確認データを用いて、既存の変換パラメータを更新することができる。

一例によれば、学習部３５０は、変換パラメータを学習する機能を含みうる。この場合、学習部３５０は、ユーザが入力した音声に対して計算された音響点数及びフィードバック収集部３４０によって収集されたユーザの確認に基づいて変換パラメータを再び学習させることができる。学習部３５０は、このように変換パラメータの再学習を通じて既存の変換パラメータを更新することによって、そのユーザに最適化された変換パラメータを保持する。

他の例によれば、学習部３５０は、外部の変換パラメータ学習装置と有無線で連結して、変換パラメータ学習装置から学習された変換パラメータを受信し、該受信された変換パラメータを用いて、既存の変換パラメータを更新することができる。ここで、受信された変換パラメータは、有無線ネットワークを通じて連結された外部の変換パラメータ学習装置によって学習されたものである。この際、学習部３５０は、受信された変換パラメータに既存の変換パラメータ全体を代替することによって、変換パラメータを更新することができる。または、学習部３５０は、受信された変換パラメータと既存の変換パラメータとを比較して、他の部分のみをアップデートすることによって、既存の変換パラメータを更新することもできる。または、学習部３５０は、変換パラメータ学習装置から既存の変換パラメータと異なる部分のデータのみを受信し、該受信されたデータを用いて、既存の変換パラメータを更新することもできる。

図４は、一実施形態による音声認識方法のフローチャートである。図４は、図１の実施形態による音声認識装置１００によって行われる音声認識方法の一実施形態であり得る。

音声認識装置１００は、入力されたユーザの音声を音響モデルに提供して音響点数を計算することができる（４１０）。この際、音響モデルは、標準音声を用いて学習された音響モデルであって、ＧＭＭ音響モデル、神経網基盤の音響モデル、例えば、ＤＮＮ、ＢＲＤＮＮを基盤とする音響モデルが使われる。しかし、音響モデルの構成が、これらに制限されるものではない。また、音響点数は、言語単位の確率に対応する正確な認識結果であり得る。この際、言語単位は、音素、音節、形態素、句、単語、文章のような言語構造の基本単位のうち、何れか１つであり得る。

次いで、音声認識装置１００は、計算された音響点数を変換パラメータを用いて標準発音信号に対する音響点数に変換することができる（４２０）。この際、音声認識装置１００は、ユーザの性別、年齢、地域などの情報に基づいて適切な変換パラメータをあらかじめ搭載することができる。また、変換パラメータを適用するアルゴリズムも、行列積、神経網、線形回帰アルゴリズムなどの多様なアルゴリズムのうちから変換パラメータが学習された学習モデルに対応するアルゴリズムが適用可能である。

次いで、音声認識装置１００は、変換された音響点数を解析して音声認識結果を出力することができる（４３０）。この際、音声認識結果は、テキスト形式で出力される。さらに他の例として、音声認識結果は、ＴＶ、ナビゲーターなどを操作するための命令として使われる。

図５は、他の実施形態による音声認識方法のフローチャートである。図５は、図２の音声認識装置２００が行う音声認識方法の一実施形態である。

音声認識装置２００は、ユーザから入力された実際音声に対して音響モデルを適用して音響点数を計算することができる（５１０）。

次いで、音声認識装置２００は、変換パラメータを用いて、計算された音響点数を標準発音に対応する音響点数に変換することができる（５２０）。

次いで、音声認識装置２００は、言語モデルを用いて、言語点数を計算することができる（５３０）。この際、言語モデルは、Ｎ−Ｇｒａｍや神経網基盤の言語モデルであり得る。

最後に、音声認識装置２００は、変換された音響点数及び言語点数に基づいて解析して音声認識結果を出力することができる（５４０）。

図６Ａは、さらに他の実施形態による音声認識方法のフローチャートである。図６Ｂは、図６Ａの変換パラメータ更新段階（６４０）の詳細フローチャートである。図６Ａ及び図６Ｂは、図３の音声認識装置３００が行う音声認識方法の一実施形態である。

図６Ａを参照すれば、音声認識装置３００は、ユーザから入力された音声を音響モデルに適用して音響点数を計算することができる（６１０）。

次いで、ユーザの実際音声に対して計算された音響点数を変換パラメータを用いて標準音声信号に対する音響点数に変換することができる（６２０）。

次いで、変換された音響点数を解析して音声認識結果を出力することができる（６３０）。この際、音声認識結果は、テキスト形式で出力される。

次いで、ユーザのフィードバックに基づいて変換パラメータを更新することができる（６４０）。

図６Ｂを参照して、変換パラメータを更新する段階（６４０）の一実施形態をさらに詳細に説明すれば、音声認識装置３００は、音声認識結果に対するフィードバックをユーザから受信することができる（６４１）。この際、音声認識装置３００は、前述したように、多様な方法を通じて、ユーザからフィードバックを入力されるためのインタラクションを行うことができる。

次いで、ユーザから受信されたフィードバックに基づいてユーザの実際発話音声でユーザによって確認された単語、句、文章のようなユーザの確認結果に対応する確認データを収集することができる（６４２）。この際、音声認識装置３００は、ユーザから受信されたフィードバックを分析して確認データを抽出することができる。

次いで、音声認識装置３００は、段階（６１０）で計算された音響点数及び収集された確認データを用いて変換パラメータを再学習することができる（６４３）。または、音声認識装置３００は、段階（６１０）で計算された音響点数及び収集された確認データを変換パラメータ学習装置に伝送しうる（６４３）。一方、音声認識装置３００は、計算された音響点数及び受信された確認データを変換パラメータ学習装置に伝送しうる（６４４）。この際、音声認識装置３００は、変換パラメータ学習装置から再学習された変換パラメータを受信することができる（６４５）。

次いで、音声認識装置３００は、段階（６４３）で再学習の結果または段階（６４５）で変換パラメータ学習装置から受信された変換パラメータを用いて、既存の変換パラメータを更新することができる（６４６）。この際、音声認識装置３００は、段階（６４３）で再学習された変換パラメータや段階（６４５）で変換パラメータ学習装置から受信された変換パラメータに既存のパラメータを代替するか、既存の変換パラメータのうちから変更された部分のみを更新することができる。

以下、音声認識のための変換パラメータ学習装置及び方法、実施形態を図面を参考にして詳しく説明する。

図７は、一実施形態による変換パラメータ学習装置のブロック図である。変換パラメータ学習装置７００は、サーバに搭載されうるが、これに限定されるものではなく、コンピューティング性能によってデスクトップＰＣ、ノート型パソコン及びスマートフォンなどのモバイル端末に搭載されることも可能である。

図７を参照すれば、変換パラメータ学習装置７００は、学習データ収集部７１０、学習部７２０、及びデータ伝送部７３０を含みうる。

学習データ収集部７１０は、学習用実際音声に対する音響点数データ及び学習用実際音声に対応する標準発音に対する確認データを学習データとして収集することができる。

一例によれば、学習データ収集部７１０は、特定の単語や語句、文章などに対する多数ユーザの発話の音声記録を含む実際音声データのような標準発音データを収集し、該収集された標準発音データを音響モデルに適用して音響点数データを獲得することができる。この際、女性と男性、年齢による世代間にも、発音特性が異なり、地域別の方言、出身国家によって互いに異なる発音特性を有しうるので、ユーザの年齢や、性別、地域別などの多様な分類基準によって実際音声データを収集することができる。ここで、分類基準は、例示されたものに限定されず、ユーザの区別される発音特性によって多様に定義される。

他の例によれば、学習データ収集部７１０は、音声認識装置からユーザの実際音声と、その実際音声に対する確認データを受信することができる。この際、音声認識装置は、ユーザの実際音声を認識した結果をユーザに提示し、ユーザからその認識結果に対するフィードバックを受信して、そのフィードバックに基づいて確認データを獲得して学習データ収集部７１０に伝送しうる。

学習データ収集部７１０は、収集された学習データを年齢、性別、地域などを含む分類基準によってグルーピングすることができる。

学習部７２０は、収集された学習データを用いて変換パラメータを学習させることができる。例えば、学習部７２０は、ユーザの実際音声に対する音響点数データを学習モデルに入力し、標準発音に対する確認データをその学習モデルのターゲットとしてマッピングして学習させることができる。この際、学習モデルの例は、神経網基盤のモデルであり得るが、これに限定されるものではない。

学習部７２０は、分類基準によって分類された学習データを各グループ別に学習させて、各グループ別に変換パラメータを生成することができる。

データ伝送部７３０は、学習の結果、生成された変換パラメータを音声認識装置に伝送しうる。データ伝送部７３０は、音声認識装置から変換パラメータ提供要請が受信されれば、該受信された変換パラメータ提供要請情報からその音声認識装置ユーザの年齢、地域、性別などの情報を獲得し、該獲得された情報を用いて、そのユーザに適した変換パラメータを決定し、該決定された変換パラメータを提供することができる。

図８は、一実施形態による変換パラメータ学習方法のフローチャートである。図８は、図７の変換パラメータ学習装置によって行われる学習方法の一実施形態であり得る。

図８を参照すれば、まず、変換パラメータ学習装置７００は、学習用実際音声に対する音響点数データ及び学習用実際音声に対応する標準発音に対する確認データを学習データとして収集することができる（８１０）。例えば、変換パラメータ学習装置７００は、特定の標準発音に対するユーザの実際音声データを収集し、該収集された実際音声データを音響モデルに適用して音響点数データを獲得することができる。または、変換パラメータ学習装置７００は、音声認識装置からユーザの実際音声と、その実際音声に対する確認データを受信することができる。

次いで、変換パラメータ学習装置７００は、学習データを用いて変換パラメータを学習させることができる（８２０）。この際、学習データをユーザの年齢や、性別、地域別などの多様な分類基準によってグルーピングして、各グループ別に学習させて、各グループ別に変換パラメータを生成することができる。また、学習データのうちのユーザの実際音声に対する音響点数データを学習モデルの入力として、標準発音に対する確認データを学習モデルのターゲットとして学習させることができる。

次いで、変換パラメータ学習装置７００は、変換パラメータを音声認識装置に伝送しうる（８３０）。この際、変換パラメータ学習装置７００は、音声認識装置から変換パラメータ提供要請を受信すれば、該受信された変換パラメータ提供要請情報からそのユーザの発音特性を識別することができる年齢、地域、性別などの情報を獲得し、該獲得された情報を用いて、そのユーザに提供する変換パラメータを決定することができる。

図９は、一実施形態による電子装置のブロック図である。図９は、図１の音声認識装置１００が搭載された電子装置であり得る。この際、電子装置９００は、ＴＶ、セットトップボックス、デスクトップコンピュータ、ノート型パソコン、翻訳機器、スマートフォン、タブレットＰＣ、スマートウォッチ（ｓｍａｒｔｗａｔｃｈ）、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、自動車の電子制御装置のような装置であって、搭載された音声認識技術を用いてユーザの多様な要求を処理することができる。但し、これらに制限されるものではなく、音声認識分野で活用可能なあらゆる電子機器を含むものと解析されねばならない。

図９を参照すれば、電子装置９００は、音声入力部９１０、音声認識部９２０、及び処理部９３０を含みうる。

音声入力部９１０は、電子装置９００に搭載されたマイクロホンなどを通じてユーザから入力される音声信号を受信することができる。この際、ユーザの音声信号は、他の言語への翻訳のための文章や、ＴＶ制御、自動車走行制御、電子装置９００に設けられたアプリケーションの実行及び制御、ウェブブラウジングなどと関連した命令語であり得る。

音声入力部９１０は、アナログ形態で入力されるユーザの音声信号をデジタル信号に変換して、多数の音声フレームに分ける前処理過程を行い、音声フレームを音声認識部９２０に伝達することができる。

音声認識部９２０は、入力される音声フレームを音響モデルに入力して、音響点数を計算し、該計算された音響点数をそのユーザに適した変換パラメータを適用して、ユーザの発音特性を考慮して標準音声信号に対する音響点数に変換することができる。また、変換された音響点数を解析してテキスト形式で音声認識結果を出力することができる。この際、音声認識部９２０は、言語モデルが存在した場合、言語点数をさらに計算し、言語点数をさらに解析して、音声認識結果を出力することができる。

処理部９３０は、音声認識部９２０によって返還された音声認識結果に基づいて、それに相応する動作を行うことができる。例えば、ユーザが入力した音声の認識結果を単純にスピーカーを通じて音声として出力するか、ディスプレイにテキスト形式で提供することができる。または、音声認識結果が、電子装置９００で遂行可能な多様な命令語（例：電源オン／オフ、ボリューム調節、アプリケーション実行、モノのインターネット機器制御など）の処理動作を行うことができる。また、処理部９３０は、テキスト形式で出力された音声認識結果に多様な翻訳技術を適用して、他の言語に翻訳し、該翻訳された結果を音声やテキスト形式で出力することができる。このような実施形態は、多様に確張し、特定の実施形態に限定されるものではない。

一方、本実施形態は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されるあらゆる種類の記録装置を含む。

コンピュータで読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ保存装置などがあり、また、キャリアウェーブ（例えば、インターネットを介した伝送）の形態で具現するものを含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードとして保存されて実行可能である。そして、本実施形態を具現するための機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論されうる。

当業者ならば、開示された技術的思想や必須的な特徴を変更せずとも、他の具体的な形態で実施可能であることを理解できるであろう。したがって、前述した実施形態は、あらゆる面で例示的なものであり、限定的ではないということを理解せねばならない。

本発明は、音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム、記録媒体及び電子機器等の技術分野に適用可能である。

Claims

音響モデルを用いて、音声入力に対する音響点数を計算する音響点数計算部と、
変換パラメータを用いて、前記計算された音響点数を標準発音に対応する音響点数に変換する音響点数変換部と、
前記変換された音響点数を解析して、前記音声入力に対する認識結果を出力する解析部と、
を含む音声認識装置。
言語モデルを用いて、前記音声入力に対する言語点数を出力する言語点数計算部をさらに含み、
前記解析部は、
前記言語点数に基づいて、前記計算された音響点数を解析し、前記認識結果を出力する請求項１に記載の音声認識装置。
ユーザのフィードバックに基づいて、前記認識結果に対する確認データを収集するフィードバック収集部をさらに含む請求項１に記載の音声認識装置。
前記音響点数計算部によって計算された音響点数、及び前記収集された確認データに基づいて変換パラメータを再学習して、前記変換パラメータを更新する学習部をさらに含む請求項３に記載の音声認識装置。
前記計算された音響点数及び収集された確認データを学習装置に伝送し、学習装置から再学習された変換パラメータを受信して、前記変換パラメータを更新する学習部を含む請求項３に記載の音声認識装置。
前記音響点数変換部は、
行列積、神経網及び線形回帰のうち、少なくとも１つの形態で前記変換パラメータを前記計算された音響点数に適用する請求項１ないし５のうち何れか一項に記載の音声認識装置。
前記変換パラメータの適用形態は、ユーザ別、地域別、年齢別、方言及びユーザの性別のうち、少なくとも１つの基準によってあらかじめ決定される請求項６に記載の音声認識装置。
音響モデルを用いて、入力されたユーザの音声に対する音響点数を計算する段階と、
変換パラメータを用いて、前記計算された音響点数を標準発音に対する音響点数に変換する段階と、
前記変換された音響点数を解析して、音声入力に対する認識結果を出力する段階と、
を含む音声認識方法。
言語モデルを用いて、前記音声入力に対する言語点数を出力する段階をさらに含み、
前記認識結果を出力する段階は、
前記言語点数に基づいて、前記計算された音響点数を解析する請求項８に記載の音声認識方法。
ユーザのフィードバックに基づいて、前記認識結果に対する確認データを収集する段階をさらに含む請求項８又は９に記載の音声認識方法。
前記計算された音響点数、及び前記収集された確認データに基づいて変換パラメータを再学習する段階と、
前記再学習の結果に基づいて、前記変換パラメータを更新する段階と、
をさらに含む請求項１０に記載の音声認識方法。
前記計算された音響点数及び収集された確認データを学習装置に伝送する段階と、
前記学習装置から再学習された変換パラメータを受信する段階と、
前記受信された変換パラメータを用いて、前記変換パラメータを更新する段階と、
をさらに含む請求項１０に記載の音声認識方法。
前記音響点数を計算する段階、音響点数に変換する段階、及び認識結果を出力する段階は、１つ以上のプロセッサによって行われる請求項８に記載の音声認識方法。
請求項８ないし１３のうち何れか一項に記載の音声認識方法を、音響認識装置のプロセッサに実行させるコンピュータプログラム。
学習用実際音声に対する音響点数データ、及び前記学習用実際音声に対応する標準発音に基づいた確認データを学習データとして収集する学習データ収集部と、
前記学習データを用いて変換パラメータを学習させる学習部と、
前記学習された変換パラメータを音声認識装置に伝送するデータ伝送部と、
を含む変換パラメータ学習装置。
前記学習データ収集部は、
前記収集された学習データを既定の基準によって分類し、
前記学習部は、
前記分類の結果、生成された分類グループ別に変換パラメータを学習させて、分類グループ別変換パラメータを生成する請求項１５に記載の変換パラメータ学習装置。
前記既定の基準は、個人別、性別、年齢別、方言及び地域別のうち、少なくとも１つを含む請求項１６に記載の変換パラメータ学習装置。
前記学習データ収集部は、
音声認識装置からユーザの音声に対する音響点数データ、及びユーザのフィードバックに基づいた確認データを学習データとしてさらに収集する請求項１５ないし１７のうちの何れか一項に記載の変換パラメータ学習装置。
学習用実際音声に対する音響点数データ及び前記学習用実際音声に対応する標準発音に基づいた確認データを学習データとして収集する段階と、
前記学習データを用いて変換パラメータを学習させる段階と、
前記学習された変換パラメータを音声認識装置に伝送する段階と、
を含む変換パラメータ学習方法。
前記学習データを収集する段階は、
前記収集された学習データを既定の基準によって分類する段階を含み、
前記学習させる段階は、
前記分類の結果、生成された分類グループ別に変換パラメータを学習させて、分類グループ別変換パラメータを生成する段階を含む請求項１９に記載の変換パラメータ学習方法。
前記既定の基準は、個人別、性別、年齢別、方言及び地域別のうち、少なくとも１つを含む請求項２０に記載の変換パラメータ学習方法。
前記学習データを収集する段階は、
音声認識装置からユーザ音声の音響点数データ、及びユーザのフィードバックに基づいた補正認識データを学習データとしてさらに収集する請求項１９ないし２１のうちの何れか一項に記載の変換パラメータ学習方法。
音声入力に基づいて第１音響点数を計算し、
変換パラメータを使って、前記第１音響点数を標準発音に対応する第２音響点数に変換し、
前記第２音響点数を解析して、前記音声入力を認識するプロセッサを含む音声認識装置。
前記プロセッサは、
標準発音に基づいた音響モデルを使って第１音響点数を計算し、
前記標準発音から外れたユーザの発音特性を考慮した第２音響点数の生成のために、第１音響点数に前記変換パラメータを適用する請求項２３に記載の音声認識装置。
前記プロセッサは、ユーザ別、グループ別、年齢、地域別、方言及びユーザの性別のうち、少なくとも１つと関連したユーザの発音特性を調整するために、変換パラメータを使う請求項２３又は２４に記載の音声認識装置。
音声入力に対応する信号を検出するマイクロホンと、
請求項２３ないし２５のうち何れか一項に記載の音声認識装置と、
を含む電子機器。