JP2020042257A

JP2020042257A - 音声認識方法及び装置

Info

Publication number: JP2020042257A
Application number: JP2019142153A
Authority: JP
Inventors: 敏重李; Min-Joong Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-09-13
Filing date: 2019-08-01
Publication date: 2020-03-19
Anticipated expiration: 2039-08-01
Also published as: KR20200030789A; EP3624114B1; JP7418991B2; CN110895928A; EP3624114A1; US20200090642A1

Abstract

【課題】音声認識方法及び装置を提供すること。【解決手段】一実施形態に係る音声認識装置は、認識しようとする入力音声から音声特徴を抽出し、音声特徴に基づいて入力音声の少なくとも一部に対応する第１サブワードの第１シーケンスを推定し、第１サブワードのうち少なくとも２つを結合して、第１シーケンスを少なくとも１つの第２サブワードの第２シーケンスに変換し、第２シーケンスに基づいて入力音声の残りの一部を認識することによって入力音声を認識する。【選択図】図１

Description

本発明は、音声を認識する技術に関する。

音声認識システムは、音響モデルと言語モデルを含む。音響モデルは、音声信号がどのような発音に近いかに関して情報を提供する。言語モデルは、特定文章がどれ程頻繁に使用するかに関する情報を提供する。音響モデルと言語モデルはニューラルネットワークに表現され得る。

音響モデルのエンコーダは、入力から符号化された特徴を生成し、デコーダは、符号化された特徴から出力を生成するが、ここで、入力は音声に対応し、出力は発音に関する情報を含む。エンコーダとデコーダは連携されてエンド・ツー・エンド（ｅｎｄ−ｔｏ−ｅｎｄ）で実現されるが、文字基盤エンド・ツー・エンド音響モデルは、出力の長さが長くて速度性能に制約がある。単語基盤エンド・ツー・エンド音響モデルは、出力クラスの数が膨大で具現化のための困難が伴う。

サブワード（ｓｕｂ−ｗｏｒｄ）基盤エンド・ツー・エンド音響モデルは、文字基盤対比出力の長さが短くて速度性能に有利であり、単語基盤出力クラスの数を減らし得る。ただし、サブワード基盤エンド・ツー・エンド音響モデルは、音響モデルが認識し難いサブワードによって、学習及び認識時にミスマッチが発生する恐れがある。正確度の向上のために音響モデルの研究が求められている。

以下で説明する実施形態は、サブワードのシーケンスを他のシーケンスに変換する動作によって学習ステップと認識ステップとの間のミスマッチを解消する技術を提供する。

一実施形態に係る文章の応答推論方法は、認識しようとする入力音声から音声特徴を抽出するステップと、前記音声特徴に基づいて、前記入力音声の少なくとも一部に対応する第１サブワードの第１シーケンスを推定するステップと、前記第１サブワードのうち少なくとも２つを結合し、前記第１シーケンスを少なくとも１つの第２サブワードの第２シーケンスに変換するステップと、前記第２シーケンスに基づいて前記入力音声の残りの一部を認識することによって前記入力音声を認識するステップ、を含む。

一実施形態によると、前記第１シーケンスを推定するステップは、ニューラルネットワークを実現するエンド・ツー・エンドエンコーダ−デコーダを用いて、前記入力音声の前記少なくとも一部に対応する第１サブワードをそれぞれ推定するステップを含み、前記エンド・ツー・エンドエンコーダ−デコーダの出力レイヤは、サブワード辞書のサブワードに対応するノードを含み得る。

一実施形態によると、前記サブワード辞書は、単語から使用頻度に応じて分離されたサブワードを記録し得る。

一実施形態によると、前記第１シーケンスを前記第２シーケンスに変換するステップは、前記第１サブワードに基づいて、エンド・ツー・エンドエンコーダ−デコーダによって認識可能な単語を少なくとも１つの第２サブワードで生成するステップ、を含み得る。

一実施形態によると、前記認識可能な単語は、前記エンド・ツー・エンドエンコーダ−デコーダの学習に活用された単語であり得る。

一実施形態によると、前記第１シーケンスを前記第２シーケンスに変換するステップは、前記第１サブワードのうち少なくとも２つ以上を結合し、サブワード辞書内の第２サブワードを生成するステップ、を含み得る。

一実施形態によると、前記第１シーケンスを前記第２シーケンスに変換するステップは、前記第１サブワードのシーケンスが単語を形成する場合、前記形成された単語に対応する少なくとも１つの第２サブワードを生成するステップ、を含み得る。

一実施形態によると、前記第１シーケンスを前記第２シーケンスに変換するステップは、前記第１サブワードのうち最後に生成された第１サブワードによって単語の形成が完成されたか否かを判断するステップと、前記単語の形成が完成された場合、サブワード辞書で前記第１サブワードの少なくとも１つの結合とマッチングされる少なくとも１つの第２サブワードを識別するステップと、前記第１サブワードを前記識別された少なくとも１つの第２サブワードに変換するステップ、を含み得る。

一実施形態によると、前記最後に生成された第１サブワードによって単語の形成が完成されたか否かを判断するステップは、前記最後に生成された第１サブワードの後で、分ち書きが存在するか否かに基づいて単語の形成が完成されたか否かを判断するステップ、を含み得る。前記サブワード辞書は、サブワード別に分ち書きの存在有無の情報を含むか、分ち書きを支持する別途のサブワードを含み得る。

一実施形態によると、前記第１シーケンスを前記第２シーケンスに変換するステップは、テキストサブワードデコーダを用いて前記第１シーケンスからテキストを生成するステップと、テキストサブワードエンコーダを用いて前記テキストを符号化することで、少なくとも１つの第２サブワードの第２シーケンスを生成するステップと、前記第１シーケンスと前記第２シーケンスが異なる場合、前記第１シーケンスを前記第２シーケンスに変換するステップ、を含み得る。

一実施形態によると、前記入力音声の少なくとも一部に対応するサブワードのシーケンスを複数の時点それぞれで推定するステップ（前記第１シーケンスは、前記複数の時点のうち現在の時点で推定される）と、前記第１シーケンスの長さから前記第２シーケンスの長さを差し引いた値を前記現在の時点から差し引いて前記現在の時点を更新するステップ、をさらに含み得る。

一実施形態によると、前記第１シーケンスを推定するステップは、前記入力音声の少なくとも一部に対応する第１シーケンス候補を生成するステップ、を含み、前記第１シーケンスを前記第２シーケンスに変換するステップは、前記第１シーケンス候補に対応する第２シーケンス候補を生成するステップと、言語モデルを用いて前記第２シーケンス候補に対応する認識結果を生成するステップと、前記認識結果に基づいて前記第２シーケンス候補のいずれか１つを第２シーケンスとして判断するステップ、を含み得る。

一実施形態に係る装置は、ハードウェアと結合して前述の方法のうちいずれか一項に記載の方法を実行させるために媒体に格納されたコンピュータプログラムにより制御され得る。

本発明によると、サブワードのシーケンスを他のシーケンスに変換する動作によって学習ステップと認識ステップとの間のミスマッチを解消する技術を提供することができる。

一実施形態に係る音声認識方法を説明するためのフローチャートである。一実施形態に係る音声認識方法を説明するための図である。一実施形態に係る音声認識方法を説明するための図である。一実施形態に係る音声認識方法を説明するためのフローチャートである。一実施形態に係る時点更新動作を説明するための図である。一実施形態に係る音声認識方法を説明するための図である。一実施形態に係る言語モデルを用いる動作を説明するための図である。一実施形態に係る学習方法を説明するための図である。一実施形態に係る装置の構成の例示図である。

実施形態に対する特定の構造的又は機能的な説明は、単に例示のためを目的として開示されたものとして、様々な形態に変更される。したがって、実施形態は、特定の開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物、ないし代替物を含む。

第１又は第２などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に、第２構成要素は第１構成要素としても命名することができる。

いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結され又は接続されているが、中間には他の構成要素が存在し得るものとして理解されなければならない。

本明細書で用いられる用語は、単に特定の実施形態を説明するために使用されたものであり、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り、複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書において記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義がされない限り、技術的又は科学的な用語を含む、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって、一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付の図面を参照して詳説する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素には同じ参照符号を付与し、これに関する重複説明は省略することにする。

図１は、一実施形態に係る音声認識方法を説明するためのフローチャートである。

図１を参照すると、一実施形態に係る音声認識装置は、認識しようとする入力音声から音声特徴を抽出する（Ｓ１０１）。音声認識装置によって実行される音声認識は、マシーン音声認識（例えば、自動音声認識（ＡＳＲ））である。音声認識装置は、音声を認識するための構成を含む装置（例えば、モバイルフォンなど）として、例えば、ソフトウェアモジュール、ハードウェアモジュール、又はその結合せ（例えば、命令語を行うように構成されたプロセッサなど）で実現される。音声認識装置は、入力音声を取得する。入力音声は、音声信号として特定発音を示す波形情報を含んでもよい。例えば、音声認識装置は、音声認識装置の構成で含まれたり、あるいは音声認識装置と別途の構成に該当するセンサ（例えば、マイク）から入力音声を取得してもよい。音声認識装置は、音響モデルを用いて入力音声の発音を推定し、言語モデルを用いて認識動作を補完する。音声認識装置は、入力音声を認識するための音声特徴を抽出する。音声特徴は、音声認識装置のエンコーダ及びデコーダが処理するために適切な特徴を有する。音声認識装置は、エンコーダ及びデコーダを用いて音声を認識できるが、図１に示すフローチャートと図２に示す概念図を参照して音声認識の実施形態について説明する。

図２は、一実施形態に係る音声認識方法を説明するための図である。図２を参照すると、音声認識装置は、入力音声から音声特徴２０３を抽出する。入力音声は、複数のフレームごとに情報を含む音声信号であり、音声特徴２０３は、少なくとも１つのフレーム単位で抽出された情報のシーケンスであり、多次元のベクトルに表現されてもよい。以下、説明の便宜のために入力音声が「ｓｍａｒｔｍａｎ」である場合の実施形態について説明する。

再び図１を参照すると、音声認識装置は、音声特徴に基づいて入力音声の少なくとも一部に対応する第１サブワードの第１シーケンスを推定する（Ｓ１０２）。音声認識装置は、音声特徴２０３をエンコーダ２０１に適用し、デコーダ２０２の出力から第１シーケンス「ｓｍ」及び「ａｒｔ」を推定する。

図２を参照すると、エンコーダ２０１とデコーダ２０２は、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）で具現化されたエンド・ツー・エンド（ｅｎｄ−ｔｏ−ｅｎｄ）エンコーダ−デコーダであり得る。ニューラルネットワークは、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、及びＲＤＮＮ（ＲｅｃｕｒｒｅｎｔＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、双方向ＲＮＮ（ＢＲＮＮｏｒＢｄＲＮＮ）、セルフ・アテンションＮＮ（ＳＡＮＮ）のいずれか１つ又は２つ以上の結合により実現される。ニューラルネットワーク内レイヤのノードは、非線形に互いに影響を与える関係であり、各ノードから出力される値、ノード間の関係など、ニューラルネットワークのパラメータは学習によって最適化されることができる。

エンド・ツー・エンドエンコーダ−デコーダは、エンコーダとデコーダが統合したネットワーク構造であって、入力音声のシーケンスから認識結果のシーケンスを生成する。例えば、エンド・ツー・エンド構造で具現化されたエンコーダ２０１とデコーダ２０２は、入力音声「ｓｍａｒｔｍａｎ」から入力音声に対応する認識結果を直接生成する。エンコーダ２０１とデコーダ２０２は、入力音声のシーケンスから認識結果のシーケンスを生成するように予め学習され得る。

一実施形態によれば、エンコーダ２０１は、音声特徴２０３を符号化して符号化された特徴２０４を生成する。エンコーダ２０１は、音声特徴２０３の次元を変換させ、符号化された情報を生成する。符号化された特徴２０４は、デコーダ２０２に適用される（例えば、ベクトルあるいは多次元フォーマットの形態）。デコーダ２０２は、符号化された特徴２０４に基づいて認識結果を生成する。

一実施形態によれば、デコーダ２０２の出力レイヤは、サブワード辞書のサブワードに対応するノードを含んでもよい。サブワード辞書は単語から使用頻度に応じて分離されたサブワードを記録する。例えば、サブワード辞書は、使用頻度に基づいてサブワードを単語から分離して格納する。サブワード辞書は、サブワードらと識別子（ＩＤ）とをマッピングして記録する。例えば、「ｓｍ」というサブワードの使用頻度が予め定義された基準により高いと判断されれば、サブワード辞書は、「ｓｍ」をＩＤ「１」にマッピングして記録する。これと同様に、「ｓｍａｒｔ」という単語の使用頻度が予め定義された基準により高いと判断されれば、サブワード辞書は、「ｓｍａｒｔ」をＩＤ「４」にマッピングして記録する。使用頻度の測定対象となるサンプルは、様々な状況から成る対話を介して取得され、サブワードの使用頻度は、サンプルから該当サブワードのマイニングを介して測定され得る。

単語辞書は、膨大な量の単語を記録しなければならないため、辞書の大きさが増大する短所がある。従来における音声認識システムで、単語辞書に基づいて出力クラスが設計されれば、デコーダ２０２のノード数が多くなり、ネットワーク構造が複雑になる。対照的に、実施形態に係るサブワード辞書は、複数の単語に適用され得るものであり、使用頻度が高いサブワードを記録するため、単語辞書と比較して大きさが減少し、ネットワーク構造が単純になる。例えば、サブワード辞書は、低い使用頻度のサブワードを記録しないが、高い使用頻度のサブワードを記録あるいは格納する。ネットワーク構造が単純になることによって、実施形態に係る音声認識装置は、サブワード辞書に基づいて具現化されたエンド・ツー・エンドエンコーダ２０１−デコーダ２０２を用いて認識速度を高めることができる。

音声認識装置は、エンド・ツー・エンドエンコーダ２０１−デコーダ２０２を用いて、入力音声「ｓｍａｒｔｍａｎ」の一部を構成する第１サブワード「ｓｍ」及び「ａｒｔ」をそれぞれ推定できる。推定動作を開始させるトークン＜Ｓ＞をデコーダ２０２の入力レイヤに適用し、デコーダ２０２は、エンコーダ２０１によって生成された符号化された特徴２０４に基づいてサブワードを生成する。デコーダ２０２は、推定動作を終了させるトークン＜Ｅ＞を出力し、サブワードの生成を完了する。

一実施形態によれば、音声認識装置は、第１サブワード「ｓｍ」及び「ａｒｔ」の第１シーケンスを推定し得る。「ｓｍ」を示す情報と「ａｒｔ」を示す情報は、デコーダ２０２の出力レイヤ内に互いに異なるノードによってそれぞれ生成される。

再び図１を参照すると、音声認識装置は、第１サブワードを結合し、第１サブワードの第１シーケンスを少なくとも１つの第２サブワードの第２シーケンスに変換する（Ｓ１０３）。一実施形態によれば、音声認識装置は、第１サブワードのうち少なくとも２つ以上を結合し、サブワード辞書内の第２サブワードを生成する。音声認識装置は、第１サブワードから単語が完成される場合、完成された単語に対応する少なくとも１つの第２サブワードを生成する。

図２を参照すると、音声認識装置は、第１サブワード「ｓｍ」及び「ａｒｔ」を結合し、第２サブワード「ｓｍａｒｔ」を生成する。音声認識装置は、第１サブワード「ｓｍ」及び「ａｒｔ」に基づいて、エンド・ツー・エンドエンコーダ２０１−デコーダ２０２が認識可能な単語に対応する第２サブワード「ｓｍａｒｔ」を生成する。エンド・ツー・エンドエンコーダ２０１−デコーダ２０２が認識可能な単語は、エンド・ツー・エンドエンコーダ２０１−デコーダ２０２の学習に活用された単語であり得る。一実施形態によれば、音声認識装置は、サブワード辞書に記録された第１サブワード「ｓｍ」のＩＤ「１」、及び、「ａｒｔ」のＩＤ「２」を識別し、ＩＤのシーケンス「１」及び「２」をＩＤ「４」に変換する。

図２を参照すると、音声認識装置は、エンド・ツー・エンドエンコーダ２０１−デコーダ２０２によって推定された第１サブワード「ｓｍ」及び「ａｒｔ」の第１シーケンスをエンド・ツー・エンドエンコーダ２０１−デコーダ２０２が認識可能な形態の情報（例えば、エンド・ツー・エンドエンコーダ２０１−デコーダ２０２を学習するために使用された情報）に変換し、認識正確度を高めることができる。サブワードのシーケンスを他のシーケンスに変換する動作により、音声認識装置は、学習ステップと認識ステップとの間のミスマッチを解消できる。図３を参照して、ミスマッチに関する内容について説明する。

図３は、一実施形態に係る音声認識方法を説明するための図である。

図３を参照すると、音声認識装置のエンド・ツー・エンドエンコーダ−デコーダのニューラルネットワーク３０２は、「ｓｍａｒｔｍａｎ」に対応する音声信号から「ｓｍ」、「ａｒｔ」、及び「ｍａｎ」のシーケンス、又は、「ｓ」、「ｍａｒｔ」、及び「ｍａｎ」のシーケンスを認識するように学習されるよりも、「ｓｍａｒｔ」及び「ｍａｎ」のシーケンスで認識するように学習される。したがって、音声認識装置のニューラルネットワーク３０２は、音声信号から「ｓｍａｒｔ」のサブワードを推定し、推定された「ｓｍａｒｔ」及び音声信号に基づいて「ｍａｎ」のサブワードを推定する動作を円満に行うことができる。しかし、従来における音声認識装置のニューラルネットワークは、音声信号から「ｓｍ」及び「ａｒｔ」のシーケンス又は「ｓｍ」及び「ａｒｔ」のシーケンスを推定した後、「ｍａｎ」のサブワードを推定する動作実行に困難を経験することがある。

学習時に採用される正解（ＧｒｏｕｎｄＴｒｕｔｈ）が「ｓｍ」、「ａｒｔ」、及び「ｍａｎ」のシーケンス、又は、「ｓ」、「ｍａｒｔ」、及び「ｍａｎ」のシーケンスに与えられるよりも、「ｓｍａｒｔ」及び「ｍａｎ」のシーケンスに与えられるため、音声認識装置は、サブワード「ｓｍａｒｔ」及び「ｍａｎ」のシーケンスを推定する動作を円満に行うことができる。一実施形態によれば、学習時にニューラルネットワーク３０２に提供される正解のシーケンスは、テキストサブワードエンコーダ３０１によって生成される。テキストサブワードエンコーダ３０１は、様々な方式でワードをサブワードで符号化する。一例として、与えられたテキストとサブワード辞書で、最も長くマッチングされる少なくとも１つのサブワードのシーケンスを生成するテキストサブエンコーダを仮定する。例えば、「ｓｍａｒｔｍａｎ」のテキストが与えられた場合、テキストサブワードエンコーダ３０１は、テキスト「ｓｍａｒｔｍａｎ」と最も長くマッチングされるサブワードのシーケンス「ｓｍａｒｔ」及び「ｍａｎ」を生成する。「ｓｍａｒｔｍａｎ」は、「ｓｍ」よりも「ｓｍａｒｔ」とさらに長くマッチングされ、サブワード辞書で「ｓｍａｒｔｍａｎ」と最も長くマッチングされるサブワードは「ｓｍａｒｔ」である。より具体的に、テキストサブワードエンコーダ３０１は、与えられたテキストの一部にマッチングされるサブワード辞書内の最も長いサブワードに該当する少なくとも１つのサブワードのシーケンスを生成する。もし、与えられたテキストが「ｓｍａｒｔｍａｎ」である場合、サブワード「ｓｍ」とサブワード「ｓｍａｒｔ」は全て与えられたテキストの一部にマッチングされる。サブワード「ｓｍ」とサブワード「ｓｍａｒｔ」のうち、「ｓｍａｒｔ」が最も長いサブワードであるため、テキストサブワードエンコーダ３０１は、与えられたテキスト「ｓｍａｒｔｍａｎ」の一部にマッチングされるサブワードを「ｓｍａｒｔ」として決定し得る。また、サブワード辞書で、残りのテキスト「ｍａｎ」と最も長くマッチングされるサブワードは「ｍａｎ」である。

以下、説明の便宜のために、テキストサブワードエンコーダがサブワード辞書で最も長くマッチングされるサブワードシーケンスを生成する場合について例を挙げて説明するが、テキストサブワードエンコーダは、他の符号化方式でサブワードシーケンスを生成するように変形されてもよい。但し、この場合にも、推論過程で用いられるテキストサブワードエンコーダの符号化方式と、学習過程で用いられるテキストサブワードエンコーダの符号化方式は、実質的に同一でなければならない。

再び図１を参照すると、一実施形態に係る音声認識装置は、変換された第２シーケンスに基づいて、入力音声の残りの一部を認識する（Ｓ１０４）。図２を参照すると、音声認識装置は、第２サブワードの第２シーケンス「ｓｍａｒｔ」に基づいて、サブワード「ｍａｎ」を推定する。もし、シーケンスの変換なしで推定動作が実行されれば、従来の音声認識装置は、第１サブワード「ｓｍ」及び「ａｒｔ」に基づいてその次のサブワードを推定するため、サブワード「ｍａｎ」を正確に推定するのに困難があり得る。一実施形態に係る音声認識装置は、シーケンスの変換動作によって学習と認識との間のミスマッチを解消しながら、入力音声から「ｓｍａｒｔｍａｎ」の発音を正確に推定することができる。

図面に示していないが、他の実施形態に係るサブワード辞書は「ｓ」、「ｍａｒｔ」、「ｍａｎ」、「ｓｍａｒｔ」のサブワードを含み、テキストサブワードエンコーダ３０１は、「ｓｍａｒｔｍａｎ」の入力を符号化することにより、「ｓ」、「ｍａｒｔ」、「ｍａｎ」のシーケンスを出力する。この場合、ニューラルネットワーク３０２は、学習時に「ｓｍａｒｔｍａｎ」の音声信号を「ｓ」、「ｍａｒｔ」、「ｍａｎ」のシーケンスとして入力されて学習されるため、推論時に「ｓｍ」、「ａｒｔ」のシーケンスや「ｓｍａｒｔ」のシーケンスから「ｍａｎ」を予測し難い。音声認識装置は、学習時に用いたテキストサブワードエンコーダ３０１の符号化方式と実質的に同一の符号化方式を推論するときに利用することによって、「ｓｍ」、「ａｒｔ」のシーケンスや「ｓｍａｒｔ」のシーケンスを「ｓ」、「ｍａｒｔ」、「ｍａｎ」のシーケンスに変更してニューラルネットワーク３０２へ入力する。ここで、前述のように、テキストサブワードエンコーダ３０１の符号化方式で最長マッチング（ｌｏｎｇｅｓｔｍａｔｃｈｉｎｇ）方式の他にも様々な方式が採択され得る。

図４は、一実施形態に係る音声認識方法を説明するためのフローチャートである。

図４に示すフローチャートを参照して、サブワードのシーケンス推定動作を時点別に繰り返す過程を説明し、上述の内容と重複する部分は簡略に記述する。

一実施形態に係る音声認識装置は、入力音声を取得し（Ｓ４０１）、音声特徴を抽出する（Ｓ４０２）。音声認識装置は、エンコーダを用いて音声特徴を符号化し（Ｓ４０３）、符号化された特徴をデコーダを用いて復号化する（Ｓ４０４）。音声認識装置は、復号化によって時点別にサブワードのシーケンス生成を繰り返すことができる。音声認識装置は、現時点に対応するシーケンス生成を行った後、次の時点に対応するシーケンスを生成し、シーケンス生成を完了して、入力音声を認識する。時点は、入力音声が分割されたフレームに対応する。

一実施形態によれば、音声認識装置は、現時点に対応する現サブワードのシーケンス＜ｗ_１，．．．，ｗ_ｔ＞を取得する（Ｓ４０５）。ｗ_１は、時点１に生成されたサブワードであり、ｗ_ｔは時点ｔに生成されたサブワードである。音声認識装置は、ｗｔがトークン＜Ｅ＞に対応するか否かを判断し（Ｓ４０６）、デコーダにより＜Ｅ＞が出力された場合、サブワードの推定を完了して、入力音声を認識する（Ｓ４０７）。

一実施形態によれば、音声認識装置は、ｗ_ｔがトークン＜Ｅ＞に対応しない場合は、ｗ_ｔにより単語が完成されたか否かを判断する（Ｓ４０８）。前述の例において、音声認識装置は、「ｓｍ」によって単語が完成されていないものと判断し、「ａｒｔ」によって「ｓｍａｒｔ」に単語が完成されたものと判断し得る。

一実施形態によれば、サブワードｗ_ｔに含まれた分ち書きの存在有無の情報に基づいて、単語の完成如何を判断できる。サブワード辞書は、サブワードごとに分ち書きの存在有無の情報を含む。例えば、サブワード辞書は「ａｒｔ」＿１と「ａｒｔ」＿２を記録し、ここで「ａｒｔ」＿１は「ａｒｔ」の後に分ち書きを含むサブワードであり、「ａｒｔ」＿２は「ａｒｔ」の後に分ち書きを含まないサブワードであってもよい。音声認識装置は、Ｗ_ｔ−１が「ｓｍ」であり、Ｗ_ｔが「ａｒｔ」＿１である場合、「ａｒｔ」＿１によって「ｓｍａｒｔ」に単語が完成されたものと判断する。音声認識装置は、Ｗ_ｔによって単語が完成されない場合、時点ｔをｔ＝ｔ＋１に更新し（Ｓ４０９）、サブワードの推定動作を繰り返す。例えば、プロセスは、ステップＳ４０４でリターンし得る。実施形態により、サブワード辞書は、分ち書きそのものを指示する別途のサブワードを含んでもよい。例えば、サブワード辞書に分ち書きを指示する別途のＩＤが格納されてもよい。この場合、音声認識装置は、Ｗ_ｔが分ち書きを指示するＩＤである場合、単語が完成されたと判断する。

一実施形態によると、Ｗ_ｔにより単語が完成された場合、音声認識装置は、テキストサブワードエンコーダを用いて、Ｗ_ｔにより完成された単語を符号化し、シーケンスＳ’＜ｗ’_１，...，ｗ’_ｋ＞を生成する（Ｓ４１０）。例えば、テキストサブワードエンコーダは、Ｗ_ｔにより完成された単語に対応するテキストを符号化することで、サブワードのシーケンスを生成し得る。上述の例では、完成された単語に対応するサブワードのシーケンスＳは＜「ｓｍ」、「ａｒｔ」＞であり、テキストサブワードエンコーダを用いて生成されたシーケンスＳ’は＜「ｓｍａｒｔ」＞である。

一実施形態によると、音声認識装置は、Ｗ_ｔにより完成された単語に対応するサブワードのシーケンスＳと、テキストサブワードエンコーダによって生成されたシーケンスＳ’の一致の有無を判断する（Ｓ４１１）。シーケンスＳとシーケンスＳ’が同一である場合、音声認識装置は、シーケンスの変換なしに時点ｔをｔ＝ｔ＋１に更新し（Ｓ４０９）、サブワードの推定動作を繰り返す。

例えば、ｔが１であり、サブワードのシーケンスが＜「Ｉ」、「ａｍ」、「ｓｍ」、「ａｒｔ」＞である場合、ステップＳ４０５で取得された現在のサブワードのシーケンス＜ｗ_１、...、ｗ_ｔ＞は＜「Ｉ」＞に該当する＜ｗ_１＞である。ステップＳ４０８で、単語「Ｉ」がｗ_ｔによって完成される。ステップＳ４１０で完成された単語に該当するサブワードのシーケンスは＜「Ｉ」＞であり、テキストサブワードエンコーダによって生成されるシーケンスも＜「Ｉ」＞であり得る。ステップＳ４１１で、シーケンスＳ＜「Ｉ」＞と、シーケンスＳ’＜「Ｉ」＞は互い対応し、音声認識装置は、ステップＳ４０９で時点を１から２に更新した後、サブワード推定動作を繰り返す。ステップＳ４０５で取得された現在のサブワードの次のシーケンスは＜「Ｉ」、「ａｍ」＞に該当する＜ｗ_１、ｗ_２＞である。

ｔが４である場合、サブワードのシーケンスは＜「Ｉ」、「ａｍ」、「ｓｍ」、「ａｒｔ」＞である。ステップＳ４０８で、単語「ｓｍａｒｔ」が「ａｒｔ」によって完成される。ステップＳ４１０で、完成された単語に対応するサブワードのシーケンスは「ｓｍａｒｔ」であり、テキストサブワードエンコーダを用いて生成されるシーケンスも＜「ｓｍａｒｔ」＞であり得る。ステップＳ４１１で、シーケンスＳ＜「Ｉ」、「ａｍ」、「ｓｍ」、「ａｒｔ」＞と、シーケンスＳ’＜「Ｉ」、「ａｍ」、「ｓｍａｒｔ」＞は互いに対応しないため、プロセスはステップＳ４１２に進む。

一実施形態によれば、音声認識装置は、シーケンスＳとシーケンスＳ’が異なる場合、＜ｗ_１，...，ｗ_ｔ＞を＜ｗ_１，...，ｗ_{ｔ−ｎ−１}，ｗ’_１，...，ｗ’_ｋ＞に変換する（Ｓ４１２）。音声認識装置は、現時点までのサブワードのシーケンス内でシーケンスＳをシーケンスＳ’に変換し得る。例えば、音声認識装置は、シーケンス＜「Ｉ」、「ａｍ」、「ｓｍ」、「ａｒｔ」＞をシーケンス＜「Ｉ」、「ａｍ」、「ｓｍａｒｔ」＞に変換してもよい。実施形態に基づいて、エンド・ツー・エンドのエンコーダ及びデコーダがＲＮＮで具現化された場合、音声認識装置は、サブワードのシーケンスＳを生成する前の状態に、ＲＮＮ内の隠しレイヤと隠しステート（ｈｉｄｄｅｎｓｔａｔｅ）を復元し得る。ＲＮＮは、以前に生成された出力が新たに生成される出力に影響を与えるネットワーク構造を有する。シーケンスＳは、シーケンスＳ’に変換されることから、以前に生成されたシーケンスＳによってネットワークが影響を受けないように、音声認識装置は、シーケンスＳの生成以前の状態に隠しステートを復元する。

一実施形態によれば、音声認識装置は、シーケンスの変換実行に応答して、時点ｔをｔ＝ｔ−（｜Ｓ｜−｜Ｓ’｜）に更新する（Ｓ４１３）。シーケンスの変換により推定されたサブワードの数が減少することで、音声認識装置は、サブワード推定動作による時点をシーケンス変換により減少したサブワードの数だけ更新できる。例えば、｜Ｓ｜はシーケンスＳの長さであり、｜Ｓ’｜はシーケンスＳ’の長さであり、｜Ｓ｜−｜Ｓ’｜はシーケンス変換によって減少したサブワードの数であり、ｔ−（｜Ｓ｜−｜Ｓ’｜）はサブワード推定動作と関連して更新された時点である。

時点更新動作について、図５を参照して説明する。

図５は、一実施形態に係る時点更新動作を説明するための図である。

図５を参照すると、音声認識装置は、時点ｔ＝ｔ_３まで各時点ｔ_０、ｔ_１、ｔ_２、ｔ_３に対応するサブワードに「ａｒｅ」、「ｙｏｕ」、「ｓｍ」、「ａｒｔ」を推定することができる。音声認識装置は、時点ごとにサブワードの推定動作を繰り返して行う。

時点ｔ＝ｔ_３において、音声認識装置は、サブワードのシーケンス「ａｒｅ」、「ｙｏｕ」、「ｓｍ」、「ａｒｔ」をシーケンス「ａｒｅ」、「ｙｏｕ」、「ｓｍａｒｔ」に変換する。具体的に、音声認識装置は、シーケンスＳ＜「ｓｍ」、「ａｒｔ」＞をシーケンスＳ’＜「ｓｍａｒｔ」＞に変換し得る。シーケンスＳの長さ｜Ｓ｜は２であり、シーケンスＳ’の長さ｜Ｓ’｜は１であり、（｜Ｓ｜−｜Ｓ’｜）は、（２−１）＝１である。音声認識装置は、シーケンスＳの長さ｜Ｓ｜からシーケンスＳ’の長さ｜Ｓ’｜を差し引いた値１を、現在の時点ｔ_３から差し引いて、現在の時点をｔ＝ｔ_２に更新する。

更新された時点ｔ＝ｔ_２の次回の繰り返しに対応する時点ｔ＝ｔ_３で、音声認識装置は、サブワード「ｍａｎ」を推定できる。シーケンス変換に基づく時点更新動作によって、音声認識装置は、サブワードの推定動作と繰り返し実行の基準となる時点を同期できる。

図６は、一実施形態に係る音声認識方法を説明するための図である。

図６を参照すると、音声認識装置は、エンド・ツー・エンドエンコーダ及びデコーダ６０１を用いて、入力音声の少なくとも一部に対応する第１サブワードのＩＤシーケンス１，２を生成する。上述のように、サブワード辞書は、サブワードごとにＩＤを記録できるため、音声認識装置のデコーダは、サブワードに対応するＩＤを生成する。例えば、デコーダは、「ｓｍ」、「ａｒｔ」に対応するＩＤのシーケンス１，２を生成する。

音声認識装置は、テキストサブワードデコーダ６０２を用いて、第１サブワードに対応するテキストを生成する。音声認識装置は、第１サブワードのＩＤシーケンス１，２をテキストサブワードデコーダ６０２に適用し、テキストサブワードデコーダ６０２は、ＩＤシーケンス１，２に対応するテキスト「ｓｍａｒｔ」を生成する。

音声認識装置は、テキストサブワードエンコーダ６０３を用いて、テキストサブワードデコーダ６０２によって生成されたテキストと、これをテキストサブワードエンコーダで符号化した結果と、マッチングされる少なくとも１つの第２サブワードの第２シーケンスを生成する。音声認識装置は、テキスト「ｓｍａｒｔ」をテキストサブワードエンコーダ６０３に適用し、テキストサブワードエンコーダ６０３は、テキスト「ｓｍａｒｔ」をテキストサブワードエンコーダで符号化した結果、シーケンスとマッチングされる少なくとも１つの第２サブワードのＩＤシーケンス４を生成する。

音声認識装置のマッチングモジュール６０４は、エンド・ツー・エンドエンコーダ及びデコーダ６０１によって生成されたＩＤシーケンス１，２と、テキストサブワードエンコーダ６０３によって生成されたＩＤシーケンス４とを比較する。マッチングモジュール６０４は、ＩＤシーケンス１，２とＩＤシーケンス４が異なる場合、ＩＤシーケンス１，２をＩＤシーケンス４に変換し、変換されたＩＤシーケンス４をエンド・ツー・エンドエンコーダ及びデコーダ６０１に伝達する。

音声認識装置のマッチングモジュール６０４は、言語モデル６０５とリスコアリングモジュール６０６と連係してＩＤシーケンスのマッチング動作を行うことができる。一実施形態によれば、音声認識装置のエンド・ツー・エンドエンコーダ及びデコーダ６０１は、ＩＤシーケンスを生成するための第１シーケンス候補を生成する。マッチングモジュール６０４は、上述の方式により、第１シーケンス候補に対応する第２シーケンス候補を生成し、第２シーケンス候補を言語モデル６０５に伝達する。一実施形態によれば、言語モデル６０５は、第２シーケンス候補に対応するスコアを生成するために用いられてもよく、マッチングモジュール６０４は、スコアに基づいて第２シーケンス候補のいずれか１つを第２シーケンスとして判断できる。

音声認識装置の言語モデル６０５は、第２シーケンス候補に対応する認識結果を生成するために用いられる。言語モデル６０５は、第２シーケンス候補が文法的および意味的にどれ程正しいかを測定し、第２シーケンス候補に対応する認識結果を生成する。音声認識装置のリスコアリングモジュール６０６は、言語モデル６０５によって生成された認識結果に基づいて、第２シーケンス候補に対応するスコアを更新する。マッチングモジュール６０４は、リスコアリングモジュール６０６によって更新されたスコアに基づいて、第２シーケンス候補のいずれか１つを第２シーケンスとして判断する。言語モデルを活用してシーケンス変換動作を行う実施形態について、図７を参照して説明する。

図７は、一実施形態に係る言語モデルを用いる動作を説明するための図である。

図７を参照すると、音声認識装置は、時点ｔ＝ｔ_３まで各時点ｔ_０、ｔ_１、ｔ_２に対応するサブワード「ａｒｔ」、」「ｙｏｕ」、「ｓｍ」を推定し、ｔ_３に対応するサブワード候補「ａｒｔ」、「ａｌｌ」、「ｅｌｌ」を推定する。

時点ｔ＝ｔ_３において、音声認識装置は、第１シーケンス候補＜「ｓｍ」、「ａｒｔ」＞、＜「ｓｍ」、「ａｌｌ」＞、＜「ｓｍ」、「ｅｌｌ」＞を第２シーケンス候補＜「ｓｍａｒｔ」＞、＜「ｓｍａｌｌ」＞、＜「ｓｍｅｌｌ」＞に変換しながら時点をｔ＝ｔ_２に更新する。音声認識装置は、エンド・ツー・エンドのエンコーダ−デコーダの出力に基づいて、第２シーケンス候補に対応するスコアを生成し、該当のスコアは、第２シーケンス候補としてそれぞれ推定される確率を示す。

上述のように、音声認識装置は、言語モデルの認識結果に基づいて、第２シーケンス候補に対応するスコアを更新する。更新の結果、音声認識装置は、第２シーケンス候補のうち最も高い確率を示す「ｓｍａｒｔ」を時点ｔ＝ｔ_２に対応するサブワードとして推定できる。時点ｔ＝ｔ_３において、音声認識装置は、推定されたサブワード「ｓｍａｒｔ」に基づいて、サブワードの推定動作を行うことができる。音声認識装置は、音響モデルと言語モデルとを統合し、与えられ音声に対する発音推定の正確度を高めることができる。

図８は、一実施形態に係る学習方法を説明するための図である。

図８を参照すると、音声認識のための学習装置は、エンド・ツー・エンドエンコーダ及びデコーダ８０１を学習させ得る。学習装置は、入力音声から抽出された音声特徴をエンド・ツー・エンドエンコーダ及びデコーダ８０１に適用し、認識結果を生成する。学習装置は、入力音声の正解（ｇｒｏｕｎｄｔｒｕｔｈ）に該当するテキストをテキストサブワードエンコーダ８０２に適用し、テキストサブワードエンコーダ８０２によって生成された正解のシーケンスを生成する。学習装置は、エンド・ツー・エンドエンコーダ及びデコーダ８０１の認識結果とテキストサブワードエンコーダ８０２によって生成された正解のシーケンス間の差に基づいて、エンド・ツー・エンドエンコーダ及びデコーダ８０１を学習させ得る。学習装置は、認識結果と正解のシーケンス間の損失を最小化するよう、エンド・ツー・エンドエンコーダ及びデコーダ８０１のニューラルネットワークを最適化する。ニューラルネットワークを最適化する方式として、逆伝播方式などの様々な方式が採用される。

図９は、一実施形態に係る装置の構成の例示図である。

図９を参照すると、装置９０１は、プロセッサ９０２及びメモリ９０３を含む。一実施形態に係る装置９０１は、上述の音声認識装置又は学習装置であり得る。プロセッサ９０２は、図１〜図８を参照して前述の少なくとも１つの装置を含んだり、図１〜図８を参照して前述の少なくとも１つの方法を行ってもよい。メモリ９０３は、上述の音声認識方法又は学習方法に関する情報を格納したり、上述の音声認識方法又は学習方法が具現化されたプログラムを格納する。メモリ９０３は、揮発性メモリ又は不揮発性メモリであってもよい。

プロセッサ９０２はプログラムを実行し、装置９０１を制御する。プロセッサ９０２によって実行されるプログラムのコードは、メモリ９０３に格納される。装置９０１は、入出力装置（図示せず）を介して外部装置（例えば、パーソナルコンピュータ又はネットワーク）に接続され、データを交換する。

上述の実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又は、ハードウェア構成要素及びソフトウェア構成要素の組み合せで具現化される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は専用コンピュータを用いて具現化される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又は、そのうちの一つ以上の結合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は、送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＹＩＪＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及び、ＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述のように、たとえ実施形態が限定された図面によって説明されても、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は、説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

２０１エンコーダ
２０２デコーダ
２０３音声特徴
２０４符号化された特徴
３０１テキストサブワードエンコーダ
３０２ニューラルネットワーク
６０１エンド・ツー・エンドエンコーダ及びデコーダ
６０２テキストサブワードデコーダ
６０３テキストサブワードエンコーダ
６０４マッチングモジュール
６０５言語モデル
６０６リスコアリングモジュール

Claims

認識しようとする入力音声から音声特徴を抽出するステップと、
前記音声特徴に基づいて、前記入力音声の少なくとも一部に対応する第１サブワードの第１シーケンスを推定するステップと、
前記第１サブワードのうち少なくとも２つを結合し、前記第１シーケンスを少なくとも１つの第２サブワードの第２シーケンスに変換するステップと、
前記第２シーケンスに基づいて前記入力音声の残りの一部を認識することによって前記入力音声を認識するステップと、
を含む、音声認識方法。
前記第１シーケンスを推定するステップは、
ニューラルネットワークを実現するエンド・ツー・エンドエンコーダ−デコーダを用いて、前記入力音声の前記少なくとも一部に対応する第１サブワードをそれぞれ推定するステップ、を含み、
前記エンド・ツー・エンドエンコーダ−デコーダの出力レイヤは、サブワード辞書のサブワードに対応するノードを含む、
請求項１に記載の音声認識方法。
前記サブワード辞書は、単語から使用頻度に応じて分離されたサブワードを記録する、
請求項２に記載の音声認識方法。
前記第１シーケンスを前記第２シーケンスに変換するステップは、
前記第１サブワードに基づいて、エンド・ツー・エンドエンコーダ−デコーダによって認識可能な単語を少なくとも１つの第２サブワードで生成するステップ、を含む、
請求項１乃至３いずれか一項に記載の音声認識方法。
前記認識可能な単語は、前記エンド・ツー・エンドエンコーダ−デコーダの学習に活用された単語である、
請求項４に記載の音声認識方法。
前記第１シーケンスを前記第２シーケンスに変換するステップは、
前記第１サブワードのうち少なくとも２つ以上を結合し、サブワード辞書内の第２サブワードを生成するステップ、を含む、
請求項１に記載の音声認識方法。
前記第１シーケンスを前記第２シーケンスに変換するステップは、
前記第１サブワードのシーケンスが単語を形成する場合、前記形成された単語に対応する少なくとも１つの第２サブワードを生成するステップ、を含む、
請求項１に記載の音声認識方法。
前記第１シーケンスを前記第２シーケンスに変換するステップは、
前記第１サブワードのうち最後に生成された第１サブワードによって単語の形成が完成されたか否かを判断するステップと、
前記単語の形成が完成された場合、サブワード辞書で前記第１サブワードの少なくとも１つの結合とマッチングされる少なくとも１つの第２サブワードを識別するステップと、
前記第１サブワードを前記識別された少なくとも１つの第２サブワードに変換するステップと、
を含む、請求項１に記載の音声認識方法。
前記最後に生成された第１サブワードによって単語の形成が完成されたか否かを判断するステップは、
前記最後に生成された第１サブワードの後で、分ち書きが存在するか否かに基づいて単語の形成が完成されたか否かを判断するステップ、を含む、
請求項８に記載の音声認識方法。
前記第１シーケンスを前記第２シーケンスに変換するステップは、
テキストサブワードデコーダを用いて、前記第１シーケンスからテキストを生成するステップと、
テキストサブワードエンコーダを用いて前記テキストを符号化することにより、少なくとも１つの第２サブワードの第２シーケンスを生成するステップと、
前記第１シーケンスと前記第２シーケンスが異なる場合、前記第１シーケンスを前記第２シーケンスに変換するステップと、
を含む、請求項１に記載の音声認識方法。
前記音声認識方法は、さらに、
前記入力音声の少なくとも一部に対応するサブワードのシーケンスを複数の時点それぞれで推定するステップであり、前記第１シーケンスは、前記複数の時点のうち現在の時点で推定される、ステップと、
前記第１シーケンスの長さから前記第２シーケンスの長さを差し引いた値を前記現在の時点から差し引いて前記現在の時点を更新するステップと、
を含む、請求項１０に記載の音声認識方法。
前記第１シーケンスを推定するステップは、
前記入力音声の少なくとも一部に対応する第１シーケンス候補を生成するステップ、を含み、
前記第１シーケンスを前記第２シーケンスに変換するステップは、
前記第１シーケンス候補に対応する第２シーケンス候補を生成するステップと、
言語モデルを用いて、前記第２シーケンス候補に対応する認識結果を生成するステップと、
前記認識結果に基づいて、前記第２シーケンス候補のいずれか１つを第２シーケンスとして判断するステップと、
を含む、請求項１に記載の音声認識方法。
ハードウェアと結合して請求項１ないし請求項１２のいずれか一項に記載の方法を実行させるために媒体に格納されたコンピュータプログラム。
１つ又はそれ以上のプロセッサであって、
認識しようとする入力音声から音声特徴を抽出し、
前記音声特徴に基づいて、前記入力音声の少なくとも一部に対応する第１サブワードの第１シーケンスを推定し、
前記第１サブワードのうち少なくとも２つを結合し、前記第１シーケンスを少なくとも１つの第２サブワードの第２シーケンスに変換し、
前記第２シーケンスに基づいて、前記入力音声の残りの一部を認識することによって、前記入力音声を認識する、
プロセッサ、
を含む、音声認識装置。
前記音声認識装置は、さらに、
前記音声特徴を抽出し、前記第１シーケンスを推定し、前記第１シーケンスを変換し、前記入力音声の前記残りの一部を認識するように前記１つ又はそれ以上のプロセッサを制御する命令語を格納するメモリ、を含む、
請求項１４に記載の音声認識装置。
前記１つ又はそれ以上のプロセッサは、
ニューラルネットワークを実現するエンド・ツー・エンドエンコーダ−デコーダを用いて、前記入力音声の前記少なくとも一部に対応する第１サブワードをそれぞれ推定し、
前記エンド・ツー・エンドエンコーダ−デコーダの出力レイヤは、サブワード辞書のサブワードに対応するノードを含む、
請求項１４または１５に記載の音声認識装置。
前記サブワード辞書は、単語から使用頻度に応じて分離されたサブワードを記録する、
請求項１６に記載の音声認識装置。
前記１つ又はそれ以上のプロセッサは、
前記第１サブワードのうち最後に生成された第１サブワードによって単語の形成が完成されたか否かを判断し、
前記単語の形成が完成された場合、サブワード辞書で前記第１サブワードの少なくとも１つの結合とマッチングされる少なくとも１つの第２サブワードを識別し、
前記第１サブワードを前記識別された少なくとも１つの第２サブワードに変換する、
請求項１４に記載の音声認識装置。
前記１つ又はそれ以上のプロセッサは、
テキストサブワードデコーダを用いて前記第１シーケンスからテキストを生成し、
テキストサブワードエンコーダを用いて前記テキストを符号化することで、少なくとも１つの第２サブワードの第２シーケンスを生成し、
前記第１シーケンスと前記第２シーケンスとが異なる場合、前記第１シーケンスを前記第２シーケンスに変換する、
請求項１４に記載の音声認識装置。
前記１つ又はそれ以上のプロセッサは、
前記入力音声の少なくとも一部に対応するサブワードのシーケンスを複数の時点それぞれで推定し、かつ、前記第１シーケンスは、前記複数の時点のうち現在の時点で推定され、
前記第１シーケンスの長さから前記第２シーケンスの長さを差し引いた値を前記現在の時点から差し引いて前記現在の時点を更新する、
請求項１９に記載の音声認識装置。
前記１つ又はそれ以上のプロセッサは、
前記入力音声の少なくとも一部に対応する第１シーケンス候補を生成し、
前記第１シーケンス候補に対応する第２シーケンス候補を生成し、
言語モデルを用いて、前記第２シーケンス候補に対応する認識結果を生成し、
前記認識結果に基づいて、前記第２シーケンス候補のいずれか１つを第２シーケンスとして判断する、
請求項１４に記載の音声認識装置。
プロセッサによって実現される音声認識方法であって、
リカレントニューラルネットワーク（ＲＮＮ）の出力レイヤで、音声信号から抽出された特徴に基づいて第１サブワードを生成するステップと、
前記リカレントニューラルネットワークの出力レイヤで、前記第１サブワードに基づいて第２サブワードを生成するステップと、
前記第１サブワード及び前記第２サブワードを結合することによって第３サブワードを生成するステップと、
前記リカレントニューラルネットワークの出力レイヤで、前記第３サブワードに基づいて第４サブワードを生成するステップと、
前記第３サブワード及び前記第４サブワードの決定されたシーケンスに基づいて前記音声信号を認識するステップと、
を含む、音声認識方法。
前記第４サブワードを生成するステップは、
前記第４サブワードの生成が前記第１サブワード及び前記第２サブワードの生成に基づかないように、前記ＲＮＮ内の隠しレイヤの状態を前記第１サブワード及び前記第２サブワードが生成される前の状態に復元するステップ、を含む、
請求項２２に記載の音声認識方法。
前記第３サブワードを生成するステップは、
前記第１サブワード及び前記第２サブワードのシーケンスによって形成される単語に反応して前記第１サブワード及び前記第２サブワードを結合するステップ、を含む、
請求項２２に記載の音声認識方法。