JP7418991B2 - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置 Download PDF

Info

Publication number
JP7418991B2
JP7418991B2 JP2019142153A JP2019142153A JP7418991B2 JP 7418991 B2 JP7418991 B2 JP 7418991B2 JP 2019142153 A JP2019142153 A JP 2019142153A JP 2019142153 A JP2019142153 A JP 2019142153A JP 7418991 B2 JP7418991 B2 JP 7418991B2
Authority
JP
Japan
Prior art keywords
sequence
subword
speech recognition
subwords
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019142153A
Other languages
English (en)
Other versions
JP2020042257A (ja
Inventor
敏重 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2020042257A publication Critical patent/JP2020042257A/ja
Application granted granted Critical
Publication of JP7418991B2 publication Critical patent/JP7418991B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Description

本発明は、音声を認識する技術に関する。
音声認識システムは、音響モデルと言語モデルを含む。音響モデルは、音声信号がどのような発音に近いかに関して情報を提供する。言語モデルは、特定文章がどれ程頻繁に使用するかに関する情報を提供する。音響モデルと言語モデルはニューラルネットワークに表現され得る。
音響モデルのエンコーダは、入力から符号化された特徴を生成し、デコーダは、符号化された特徴から出力を生成するが、ここで、入力は音声に対応し、出力は発音に関する情報を含む。エンコーダとデコーダは連携されてエンド・ツー・エンド(end-to-end)で実現されるが、文字基盤エンド・ツー・エンド音響モデルは、出力の長さが長くて速度性能に制約がある。単語基盤エンド・ツー・エンド音響モデルは、出力クラスの数が膨大で具現化のための困難が伴う。
サブワード(sub-word)基盤エンド・ツー・エンド音響モデルは、文字基盤対比出力の長さが短くて速度性能に有利であり、単語基盤出力クラスの数を減らし得る。ただし、サブワード基盤エンド・ツー・エンド音響モデルは、音響モデルが認識し難いサブワードによって、学習及び認識時にミスマッチが発生する恐れがある。正確度の向上のために音響モデルの研究が求められている。
以下で説明する実施形態は、サブワードのシーケンスを他のシーケンスに変換する動作によって学習ステップと認識ステップとの間のミスマッチを解消する技術を提供する。
一実施形態に係る文章の応答推論方法は、認識しようとする入力音声から音声特徴を抽出するステップと、前記音声特徴に基づいて、前記入力音声の少なくとも一部に対応する第1サブワードの第1シーケンスを推定するステップと、前記第1サブワードのうち少なくとも2つを結合し、前記第1シーケンスを少なくとも1つの第2サブワードの第2シーケンスに変換するステップと、前記第2シーケンスに基づいて前記入力音声の残りの一部を認識することによって前記入力音声を認識するステップ、を含む。
一実施形態によると、前記第1シーケンスを推定するステップは、ニューラルネットワークを実現するエンド・ツー・エンドエンコーダ-デコーダを用いて、前記入力音声の前記少なくとも一部に対応する第1サブワードをそれぞれ推定するステップを含み、前記エンド・ツー・エンドエンコーダ-デコーダの出力レイヤは、サブワード辞書のサブワードに対応するノードを含み得る。
一実施形態によると、前記サブワード辞書は、単語から使用頻度に応じて分離されたサブワードを記録し得る。
一実施形態によると、前記第1シーケンスを前記第2シーケンスに変換するステップは、前記第1サブワードに基づいて、エンド・ツー・エンドエンコーダ-デコーダによって認識可能な単語を少なくとも1つの第2サブワードで生成するステップ、を含み得る。
一実施形態によると、前記認識可能な単語は、前記エンド・ツー・エンドエンコーダ-デコーダの学習に活用された単語であり得る。
一実施形態によると、前記第1シーケンスを前記第2シーケンスに変換するステップは、前記第1サブワードのうち少なくとも2つ以上を結合し、サブワード辞書内の第2サブワードを生成するステップ、を含み得る。
一実施形態によると、前記第1シーケンスを前記第2シーケンスに変換するステップは、前記第1サブワードのシーケンスが単語を形成する場合、前記形成された単語に対応する少なくとも1つの第2サブワードを生成するステップ、を含み得る。
一実施形態によると、前記第1シーケンスを前記第2シーケンスに変換するステップは、前記第1サブワードのうち最後に生成された第1サブワードによって単語の形成が完成されたか否かを判断するステップと、前記単語の形成が完成された場合、サブワード辞書で前記第1サブワードの少なくとも1つの結合とマッチングされる少なくとも1つの第2サブワードを識別するステップと、前記第1サブワードを前記識別された少なくとも1つの第2サブワードに変換するステップ、を含み得る。
一実施形態によると、前記最後に生成された第1サブワードによって単語の形成が完成されたか否かを判断するステップは、前記最後に生成された第1サブワードの後で、分ち書きが存在するか否かに基づいて単語の形成が完成されたか否かを判断するステップ、を含み得る。前記サブワード辞書は、サブワード別に分ち書きの存在有無の情報を含むか、分ち書きを支持する別途のサブワードを含み得る。
一実施形態によると、前記第1シーケンスを前記第2シーケンスに変換するステップは、テキストサブワードデコーダを用いて前記第1シーケンスからテキストを生成するステップと、テキストサブワードエンコーダを用いて前記テキストを符号化することで、少なくとも1つの第2サブワードの第2シーケンスを生成するステップと、前記第1シーケンスと前記第2シーケンスが異なる場合、前記第1シーケンスを前記第2シーケンスに変換するステップ、を含み得る。
一実施形態によると、前記入力音声の少なくとも一部に対応するサブワードのシーケンスを複数の時点それぞれで推定するステップ(前記第1シーケンスは、前記複数の時点のうち現在の時点で推定される)と、前記第1シーケンスの長さから前記第2シーケンスの長さを差し引いた値を前記現在の時点から差し引いて前記現在の時点を更新するステップ、をさらに含み得る。
一実施形態によると、前記第1シーケンスを推定するステップは、前記入力音声の少なくとも一部に対応する第1シーケンス候補を生成するステップ、を含み、前記第1シーケンスを前記第2シーケンスに変換するステップは、前記第1シーケンス候補に対応する第2シーケンス候補を生成するステップと、言語モデルを用いて前記第2シーケンス候補に対応する認識結果を生成するステップと、前記認識結果に基づいて前記第2シーケンス候補のいずれか1つを第2シーケンスとして判断するステップ、を含み得る。
一実施形態に係る装置は、ハードウェアと結合して前述の方法のうちいずれか一項に記載の方法を実行させるために媒体に格納されたコンピュータプログラムにより制御され得る。
本発明によると、サブワードのシーケンスを他のシーケンスに変換する動作によって学習ステップと認識ステップとの間のミスマッチを解消する技術を提供することができる。
一実施形態に係る音声認識方法を説明するためのフローチャートである。 一実施形態に係る音声認識方法を説明するための図である。 一実施形態に係る音声認識方法を説明するための図である。 一実施形態に係る音声認識方法を説明するためのフローチャートである。 一実施形態に係る時点更新動作を説明するための図である。 一実施形態に係る音声認識方法を説明するための図である。 一実施形態に係る言語モデルを用いる動作を説明するための図である。 一実施形態に係る学習方法を説明するための図である。 一実施形態に係る装置の構成の例示図である。
実施形態に対する特定の構造的又は機能的な説明は、単に例示のためを目的として開示されたものとして、様々な形態に変更される。したがって、実施形態は、特定の開示形態に限定されるものではなく、本明細書の範囲は技術的な思想に含まれる変更、均等物、ないし代替物を含む。
第1又は第2などの用語を複数の構成要素を説明するために用いることがあるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に、第2構成要素は第1構成要素としても命名することができる。
いずれかの構成要素が他の構成要素に「連結」されているか「接続」されていると言及されたときには、その他の構成要素に直接的に連結され又は接続されているが、中間には他の構成要素が存在し得るものとして理解されなければならない。
本明細書で用いられる用語は、単に特定の実施形態を説明するために使用されたものであり、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り、複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書において記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義がされない限り、技術的又は科学的な用語を含む、ここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって、一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、実施形態を添付の図面を参照して詳説する。添付図面を参照して説明することにおいて、図面符号に関わらず同じ構成要素には同じ参照符号を付与し、これに関する重複説明は省略することにする。
図1は、一実施形態に係る音声認識方法を説明するためのフローチャートである。
図1を参照すると、一実施形態に係る音声認識装置は、認識しようとする入力音声から音声特徴を抽出する(S101)。音声認識装置によって実行される音声認識は、マシーン音声認識(例えば、自動音声認識(ASR))である。音声認識装置は、音声を認識するための構成を含む装置(例えば、モバイルフォンなど)として、例えば、ソフトウェアモジュール、ハードウェアモジュール、又はその結合せ(例えば、命令語を行うように構成されたプロセッサなど)で実現される。音声認識装置は、入力音声を取得する。入力音声は、音声信号として特定発音を示す波形情報を含んでもよい。例えば、音声認識装置は、音声認識装置の構成で含まれたり、あるいは音声認識装置と別途の構成に該当するセンサ(例えば、マイク)から入力音声を取得してもよい。音声認識装置は、音響モデルを用いて入力音声の発音を推定し、言語モデルを用いて認識動作を補完する。音声認識装置は、入力音声を認識するための音声特徴を抽出する。音声特徴は、音声認識装置のエンコーダ及びデコーダが処理するために適切な特徴を有する。音声認識装置は、エンコーダ及びデコーダを用いて音声を認識できるが、図1に示すフローチャートと図2に示す概念図を参照して音声認識の実施形態について説明する。
図2は、一実施形態に係る音声認識方法を説明するための図である。図2を参照すると、音声認識装置は、入力音声から音声特徴203を抽出する。入力音声は、複数のフレームごとに情報を含む音声信号であり、音声特徴203は、少なくとも1つのフレーム単位で抽出された情報のシーケンスであり、多次元のベクトルに表現されてもよい。以下、説明の便宜のために入力音声が「smart man」である場合の実施形態について説明する。
再び図1を参照すると、音声認識装置は、音声特徴に基づいて入力音声の少なくとも一部に対応する第1サブワードの第1シーケンスを推定する(S102)。音声認識装置は、音声特徴203をエンコーダ201に適用し、デコーダ202の出力から第1シーケンス「sm」及び「art」を推定する。
図2を参照すると、エンコーダ201とデコーダ202は、ニューラルネットワーク(neural network)で具現化されたエンド・ツー・エンド(end-to-end)エンコーダ-デコーダであり得る。ニューラルネットワークは、DNN(Deep Neural Network)、RNN(Recurrent Neural Network)、及びRDNN(Recurrent Deep Neural Network)、双方向RNN(BRNN or BdRNN)、セルフ・アテンションNN(SANN)のいずれか1つ又は2つ以上の結合により実現される。ニューラルネットワーク内レイヤのノードは、非線形に互いに影響を与える関係であり、各ノードから出力される値、ノード間の関係など、ニューラルネットワークのパラメータは学習によって最適化されることができる。
エンド・ツー・エンドエンコーダ-デコーダは、エンコーダとデコーダが統合したネットワーク構造であって、入力音声のシーケンスから認識結果のシーケンスを生成する。例えば、エンド・ツー・エンド構造で具現化されたエンコーダ201とデコーダ202は、入力音声「smart man」から入力音声に対応する認識結果を直接生成する。エンコーダ201とデコーダ202は、入力音声のシーケンスから認識結果のシーケンスを生成するように予め学習され得る。
一実施形態によれば、エンコーダ201は、音声特徴203を符号化して符号化された特徴204を生成する。エンコーダ201は、音声特徴203の次元を変換させ、符号化された情報を生成する。符号化された特徴204は、デコーダ202に適用される(例えば、ベクトルあるいは多次元フォーマットの形態)。デコーダ202は、符号化された特徴204に基づいて認識結果を生成する。
一実施形態によれば、デコーダ202の出力レイヤは、サブワード辞書のサブワードに対応するノードを含んでもよい。サブワード辞書は単語から使用頻度に応じて分離されたサブワードを記録する。例えば、サブワード辞書は、使用頻度に基づいてサブワードを単語から分離して格納する。サブワード辞書は、サブワードらと識別子(ID)とをマッピングして記録する。例えば、「sm」というサブワードの使用頻度が予め定義された基準により高いと判断されれば、サブワード辞書は、「sm」をID「1」にマッピングして記録する。これと同様に、「smart」という単語の使用頻度が予め定義された基準により高いと判断されれば、サブワード辞書は、「smart」をID「4」にマッピングして記録する。使用頻度の測定対象となるサンプルは、様々な状況から成る対話を介して取得され、サブワードの使用頻度は、サンプルから該当サブワードのマイニングを介して測定され得る。
単語辞書は、膨大な量の単語を記録しなければならないため、辞書の大きさが増大する短所がある。従来における音声認識システムで、単語辞書に基づいて出力クラスが設計されれば、デコーダ202のノード数が多くなり、ネットワーク構造が複雑になる。対照的に、実施形態に係るサブワード辞書は、複数の単語に適用され得るものであり、使用頻度が高いサブワードを記録するため、単語辞書と比較して大きさが減少し、ネットワーク構造が単純になる。例えば、サブワード辞書は、低い使用頻度のサブワードを記録しないが、高い使用頻度のサブワードを記録あるいは格納する。ネットワーク構造が単純になることによって、実施形態に係る音声認識装置は、サブワード辞書に基づいて具現化されたエンド・ツー・エンドエンコーダ201-デコーダ202を用いて認識速度を高めることができる。
音声認識装置は、エンド・ツー・エンドエンコーダ201-デコーダ202を用いて、入力音声「smart man」の一部を構成する第1サブワード「sm」及び「art」をそれぞれ推定できる。推定動作を開始させるトークン<S>をデコーダ202の入力レイヤに適用し、デコーダ202は、エンコーダ201によって生成された符号化された特徴204に基づいてサブワードを生成する。デコーダ202は、推定動作を終了させるトークン<E>を出力し、サブワードの生成を完了する。
一実施形態によれば、音声認識装置は、第1サブワード「sm」及び「art」の第1シーケンスを推定し得る。「sm」を示す情報と「art」を示す情報は、デコーダ202の出力レイヤ内に互いに異なるノードによってそれぞれ生成される。
再び図1を参照すると、音声認識装置は、第1サブワードを結合し、第1サブワードの第1シーケンスを少なくとも1つの第2サブワードの第2シーケンスに変換する(S103)。一実施形態によれば、音声認識装置は、第1サブワードのうち少なくとも2つ以上を結合し、サブワード辞書内の第2サブワードを生成する。音声認識装置は、第1サブワードから単語が完成される場合、完成された単語に対応する少なくとも1つの第2サブワードを生成する。
図2を参照すると、音声認識装置は、第1サブワード「sm」及び「art」を結合し、第2サブワード「smart」を生成する。音声認識装置は、第1サブワード「sm」及び「art」に基づいて、エンド・ツー・エンドエンコーダ201-デコーダ202が認識可能な単語に対応する第2サブワード「smart」を生成する。エンド・ツー・エンドエンコーダ201-デコーダ202が認識可能な単語は、エンド・ツー・エンドエンコーダ201-デコーダ202の学習に活用された単語であり得る。一実施形態によれば、音声認識装置は、サブワード辞書に記録された第1サブワード「sm」のID「1」、及び、「art」のID「2」を識別し、IDのシーケンス「1」及び「2」をID「4」に変換する。
図2を参照すると、音声認識装置は、エンド・ツー・エンドエンコーダ201-デコーダ202によって推定された第1サブワード「sm」及び「art」の第1シーケンスをエンド・ツー・エンドエンコーダ201-デコーダ202が認識可能な形態の情報(例えば、エンド・ツー・エンドエンコーダ201-デコーダ202を学習するために使用された情報)に変換し、認識正確度を高めることができる。サブワードのシーケンスを他のシーケンスに変換する動作により、音声認識装置は、学習ステップと認識ステップとの間のミスマッチを解消できる。図3を参照して、ミスマッチに関する内容について説明する。
図3は、一実施形態に係る音声認識方法を説明するための図である。
図3を参照すると、音声認識装置のエンド・ツー・エンドエンコーダ-デコーダのニューラルネットワーク302は、「smart man」に対応する音声信号から「sm」、「art」、及び「man」のシーケンス、又は、「s」、「mart」、及び「man」のシーケンスを認識するように学習されるよりも、「smart」及び「man」のシーケンスで認識するように学習される。したがって、音声認識装置のニューラルネットワーク302は、音声信号から「smart」のサブワードを推定し、推定された「smart」及び音声信号に基づいて「man」のサブワードを推定する動作を円満に行うことができる。しかし、従来における音声認識装置のニューラルネットワークは、音声信号から「sm」及び「art」のシーケンス又は「sm」及び「art」のシーケンスを推定した後、「man」のサブワードを推定する動作実行に困難を経験することがある。
学習時に採用される正解(Ground Truth)が「sm」、「art」、及び「man」のシーケンス、又は、「s」、「mart」、及び「man」のシーケンスに与えられるよりも、「smart」及び「man」のシーケンスに与えられるため、音声認識装置は、サブワード「smart」及び「man」のシーケンスを推定する動作を円満に行うことができる。一実施形態によれば、学習時にニューラルネットワーク302に提供される正解のシーケンスは、テキストサブワードエンコーダ301によって生成される。テキストサブワードエンコーダ301は、様々な方式でワードをサブワードで符号化する。一例として、与えられたテキストとサブワード辞書で、最も長くマッチングされる少なくとも1つのサブワードのシーケンスを生成するテキストサブエンコーダを仮定する。例えば、「smart man」のテキストが与えられた場合、テキストサブワードエンコーダ301は、テキスト「smart man」と最も長くマッチングされるサブワードのシーケンス「smart」及び「man」を生成する。「smart man」は、「sm」よりも「smart」とさらに長くマッチングされ、サブワード辞書で「smart man」と最も長くマッチングされるサブワードは「smart」である。より具体的に、テキストサブワードエンコーダ301は、与えられたテキストの一部にマッチングされるサブワード辞書内の最も長いサブワードに該当する少なくとも1つのサブワードのシーケンスを生成する。もし、与えられたテキストが「smart man」である場合、サブワード「sm」とサブワード「smart」は全て与えられたテキストの一部にマッチングされる。サブワード「sm」とサブワード「smart」のうち、「smart」が最も長いサブワードであるため、テキストサブワードエンコーダ301は、与えられたテキスト「smart man」の一部にマッチングされるサブワードを「smart」として決定し得る。また、サブワード辞書で、残りのテキスト「man」と最も長くマッチングされるサブワードは「man」である。
以下、説明の便宜のために、テキストサブワードエンコーダがサブワード辞書で最も長くマッチングされるサブワードシーケンスを生成する場合について例を挙げて説明するが、テキストサブワードエンコーダは、他の符号化方式でサブワードシーケンスを生成するように変形されてもよい。但し、この場合にも、推論過程で用いられるテキストサブワードエンコーダの符号化方式と、学習過程で用いられるテキストサブワードエンコーダの符号化方式は、実質的に同一でなければならない。
再び図1を参照すると、一実施形態に係る音声認識装置は、変換された第2シーケンスに基づいて、入力音声の残りの一部を認識する(S104)。図2を参照すると、音声認識装置は、第2サブワードの第2シーケンス「smart」に基づいて、サブワード「man」を推定する。もし、シーケンスの変換なしで推定動作が実行されれば、従来の音声認識装置は、第1サブワード「sm」及び「art」に基づいてその次のサブワードを推定するため、サブワード「man」を正確に推定するのに困難があり得る。一実施形態に係る音声認識装置は、シーケンスの変換動作によって学習と認識との間のミスマッチを解消しながら、入力音声から「smart man」の発音を正確に推定することができる。
図面に示していないが、他の実施形態に係るサブワード辞書は「s」、「mart」、「man」、「smart」のサブワードを含み、テキストサブワードエンコーダ301は、「smart man」の入力を符号化することにより、「s」、「mart」、「man」のシーケンスを出力する。この場合、ニューラルネットワーク302は、学習時に「smart man」の音声信号を「s」、「mart」、「man」のシーケンスとして入力されて学習されるため、推論時に「sm」、「art」のシーケンスや「smart」のシーケンスから「man」を予測し難い。音声認識装置は、学習時に用いたテキストサブワードエンコーダ301の符号化方式と実質的に同一の符号化方式を推論するときに利用することによって、「sm」、「art」のシーケンスや「smart」のシーケンスを「s」、「mart」、「man」のシーケンスに変更してニューラルネットワーク302へ入力する。ここで、前述のように、テキストサブワードエンコーダ301の符号化方式で最長マッチング(longest matching)方式の他にも様々な方式が採択され得る。
図4は、一実施形態に係る音声認識方法を説明するためのフローチャートである。
図4に示すフローチャートを参照して、サブワードのシーケンス推定動作を時点別に繰り返す過程を説明し、上述の内容と重複する部分は簡略に記述する。
一実施形態に係る音声認識装置は、入力音声を取得し(S401)、音声特徴を抽出する(S402)。音声認識装置は、エンコーダを用いて音声特徴を符号化し(S403)、符号化された特徴をデコーダを用いて復号化する(S404)。音声認識装置は、復号化によって時点別にサブワードのシーケンス生成を繰り返すことができる。音声認識装置は、現時点に対応するシーケンス生成を行った後、次の時点に対応するシーケンスを生成し、シーケンス生成を完了して、入力音声を認識する。時点は、入力音声が分割されたフレームに対応する。
一実施形態によれば、音声認識装置は、現時点に対応する現サブワードのシーケンス<w,...,w>を取得する(S405)。wは、時点1に生成されたサブワードであり、wは時点tに生成されたサブワードである。音声認識装置は、wtがトークン<E>に対応するか否かを判断し(S406)、デコーダにより<E>が出力された場合、サブワードの推定を完了して、入力音声を認識する(S407)。
一実施形態によれば、音声認識装置は、wがトークン<E>に対応しない場合は、wにより単語が完成されたか否かを判断する(S408)。前述の例において、音声認識装置は、「sm」によって単語が完成されていないものと判断し、「art」によって「smart」に単語が完成されたものと判断し得る。
一実施形態によれば、サブワードwに含まれた分ち書きの存在有無の情報に基づいて、単語の完成如何を判断できる。サブワード辞書は、サブワードごとに分ち書きの存在有無の情報を含む。例えば、サブワード辞書は「art」_1と「art」_2を記録し、ここで「art」_1は「art」の後に分ち書きを含むサブワードであり、「art」_2は「art」の後に分ち書きを含まないサブワードであってもよい。音声認識装置は、Wt-1が「sm」であり、Wが「art」_1である場合、「art」_1によって「smart」に単語が完成されたものと判断する。音声認識装置は、Wによって単語が完成されない場合、時点tをt=t+1に更新し(S409)、サブワードの推定動作を繰り返す。例えば、プロセスは、ステップS404でリターンし得る。実施形態により、サブワード辞書は、分ち書きそのものを指示する別途のサブワードを含んでもよい。例えば、サブワード辞書に分ち書きを指示する別途のIDが格納されてもよい。この場合、音声認識装置は、Wが分ち書きを指示するIDである場合、単語が完成されたと判断する。
一実施形態によると、Wにより単語が完成された場合、音声認識装置は、テキストサブワードエンコーダを用いて、Wにより完成された単語を符号化し、シーケンスS’<w’,...,w’>を生成する(S410)。例えば、テキストサブワードエンコーダは、Wにより完成された単語に対応するテキストを符号化することで、サブワードのシーケンスを生成し得る。上述の例では、完成された単語に対応するサブワードのシーケンスSは<「sm」、「art」>であり、テキストサブワードエンコーダを用いて生成されたシーケンスS’は<「smart」>である。
一実施形態によると、音声認識装置は、Wにより完成された単語に対応するサブワードのシーケンスSと、テキストサブワードエンコーダによって生成されたシーケンスS’の一致の有無を判断する(S411)。シーケンスSとシーケンスS’が同一である場合、音声認識装置は、シーケンスの変換なしに時点tをt=t+1に更新し(S409)、サブワードの推定動作を繰り返す。
例えば、tが1であり、サブワードのシーケンスが<「I」、「am」、「sm」、「art」>である場合、ステップS405で取得された現在のサブワードのシーケンス<w、...、w>は<「I」>に該当する<w>である。ステップS408で、単語「I」がwによって完成される。ステップS410で完成された単語に該当するサブワードのシーケンスは<「I」>であり、テキストサブワードエンコーダによって生成されるシーケンスも<「I」>であり得る。ステップS411で、シーケンスS<「I」>と、シーケンスS’<「I」>は互い対応し、音声認識装置は、ステップS409で時点を1から2に更新した後、サブワード推定動作を繰り返す。ステップS405で取得された現在のサブワードの次のシーケンスは<「I」、「am」>に該当する<w、w>である。
tが4である場合、サブワードのシーケンスは<「I」、「am」、「sm」、「art」>である。ステップS408で、単語「smart」が「art」によって完成される。ステップS410で、完成された単語に対応するサブワードのシーケンスは「smart」であり、テキストサブワードエンコーダを用いて生成されるシーケンスも<「smart」>であり得る。ステップS411で、シーケンスS<「I」、「am」、「sm」、「art」>と、シーケンスS’<「I」、「am」、「smart」>は互いに対応しないため、プロセスはステップS412に進む。
一実施形態によれば、音声認識装置は、シーケンスSとシーケンスS’が異なる場合、<w,...,w>を<w,...,wt-n-1,w’,...,w’>に変換する(S412)。音声認識装置は、現時点までのサブワードのシーケンス内でシーケンスSをシーケンスS’に変換し得る。例えば、音声認識装置は、シーケンス<「I」、「am」、「sm」、「art」>をシーケンス<「I」、「am」、「smart」>に変換してもよい。実施形態に基づいて、エンド・ツー・エンドのエンコーダ及びデコーダがRNNで具現化された場合、音声認識装置は、サブワードのシーケンスSを生成する前の状態に、RNN内の隠しレイヤと隠しステート(hidden state)を復元し得る。RNNは、以前に生成された出力が新たに生成される出力に影響を与えるネットワーク構造を有する。シーケンスSは、シーケンスS’に変換されることから、以前に生成されたシーケンスSによってネットワークが影響を受けないように、音声認識装置は、シーケンスSの生成以前の状態に隠しステートを復元する。
一実施形態によれば、音声認識装置は、シーケンスの変換実行に応答して、時点tをt=t-(|S|-|S’|)に更新する(S413)。シーケンスの変換により推定されたサブワードの数が減少することで、音声認識装置は、サブワード推定動作による時点をシーケンス変換により減少したサブワードの数だけ更新できる。例えば、|S|はシーケンスSの長さであり、|S’|はシーケンスS’の長さであり、|S|-|S’|はシーケンス変換によって減少したサブワードの数であり、t-(|S|-|S’|)はサブワード推定動作と関連して更新された時点である。
時点更新動作について、図5を参照して説明する。
図5は、一実施形態に係る時点更新動作を説明するための図である。
図5を参照すると、音声認識装置は、時点t=tまで各時点t、t、t、tに対応するサブワードに「are」、「you」、「sm」、「art」を推定することができる。音声認識装置は、時点ごとにサブワードの推定動作を繰り返して行う。
時点t=tにおいて、音声認識装置は、サブワードのシーケンス「are」、「you」、「sm」、「art」をシーケンス「are」、「you」、「smart」に変換する。具体的に、音声認識装置は、シーケンスS<「sm」、「art」>をシーケンスS’<「smart」>に変換し得る。シーケンスSの長さ|S|は2であり、シーケンスS’の長さ|S’|は1であり、(|S|-|S’|)は、(2-1)=1である。音声認識装置は、シーケンスSの長さ|S|からシーケンスS’の長さ|S’|を差し引いた値1を、現在の時点tから差し引いて、現在の時点をt=tに更新する。
更新された時点t=tの次回の繰り返しに対応する時点t=tで、音声認識装置は、サブワード「man」を推定できる。シーケンス変換に基づく時点更新動作によって、音声認識装置は、サブワードの推定動作と繰り返し実行の基準となる時点を同期できる。
図6は、一実施形態に係る音声認識方法を説明するための図である。
図6を参照すると、音声認識装置は、エンド・ツー・エンドエンコーダ及びデコーダ601を用いて、入力音声の少なくとも一部に対応する第1サブワードのIDシーケンス1,2を生成する。上述のように、サブワード辞書は、サブワードごとにIDを記録できるため、音声認識装置のデコーダは、サブワードに対応するIDを生成する。例えば、デコーダは、「sm」、「art」に対応するIDのシーケンス1,2を生成する。
音声認識装置は、テキストサブワードデコーダ602を用いて、第1サブワードに対応するテキストを生成する。音声認識装置は、第1サブワードのIDシーケンス1,2をテキストサブワードデコーダ602に適用し、テキストサブワードデコーダ602は、IDシーケンス1,2に対応するテキスト「smart」を生成する。
音声認識装置は、テキストサブワードエンコーダ603を用いて、テキストサブワードデコーダ602によって生成されたテキストと、これをテキストサブワードエンコーダで符号化した結果と、マッチングされる少なくとも1つの第2サブワードの第2シーケンスを生成する。音声認識装置は、テキスト「smart」をテキストサブワードエンコーダ603に適用し、テキストサブワードエンコーダ603は、テキスト「smart」をテキストサブワードエンコーダで符号化した結果、シーケンスとマッチングされる少なくとも1つの第2サブワードのIDシーケンス4を生成する。
音声認識装置のマッチングモジュール604は、エンド・ツー・エンドエンコーダ及びデコーダ601によって生成されたIDシーケンス1,2と、テキストサブワードエンコーダ603によって生成されたIDシーケンス4とを比較する。マッチングモジュール604は、IDシーケンス1,2とIDシーケンス4が異なる場合、IDシーケンス1,2をIDシーケンス4に変換し、変換されたIDシーケンス4をエンド・ツー・エンドエンコーダ及びデコーダ601に伝達する。
音声認識装置のマッチングモジュール604は、言語モデル605とリスコアリングモジュール606と連係してIDシーケンスのマッチング動作を行うことができる。一実施形態によれば、音声認識装置のエンド・ツー・エンドエンコーダ及びデコーダ601は、IDシーケンスを生成するための第1シーケンス候補を生成する。マッチングモジュール604は、上述の方式により、第1シーケンス候補に対応する第2シーケンス候補を生成し、第2シーケンス候補を言語モデル605に伝達する。一実施形態によれば、言語モデル605は、第2シーケンス候補に対応するスコアを生成するために用いられてもよく、マッチングモジュール604は、スコアに基づいて第2シーケンス候補のいずれか1つを第2シーケンスとして判断できる。
音声認識装置の言語モデル605は、第2シーケンス候補に対応する認識結果を生成するために用いられる。言語モデル605は、第2シーケンス候補が文法的および意味的にどれ程正しいかを測定し、第2シーケンス候補に対応する認識結果を生成する。音声認識装置のリスコアリングモジュール606は、言語モデル605によって生成された認識結果に基づいて、第2シーケンス候補に対応するスコアを更新する。マッチングモジュール604は、リスコアリングモジュール606によって更新されたスコアに基づいて、第2シーケンス候補のいずれか1つを第2シーケンスとして判断する。言語モデルを活用してシーケンス変換動作を行う実施形態について、図7を参照して説明する。
図7は、一実施形態に係る言語モデルを用いる動作を説明するための図である。
図7を参照すると、音声認識装置は、時点t=tまで各時点t、t、tに対応するサブワード「art」、」「you」、「sm」を推定し、tに対応するサブワード候補「art」、「all」、「ell」を推定する。
時点t=tにおいて、音声認識装置は、第1シーケンス候補<「sm」、「art」>、<「sm」、「all」>、<「sm」、「ell」>を第2シーケンス候補<「smart」>、<「small」>、<「smell」>に変換しながら時点を t=tに更新する。音声認識装置は、エンド・ツー・エンドのエンコーダ-デコーダの出力に基づいて、第2シーケンス候補に対応するスコアを生成し、該当のスコアは、第2シーケンス候補としてそれぞれ推定される確率を示す。
上述のように、音声認識装置は、言語モデルの認識結果に基づいて、第2シーケンス候補に対応するスコアを更新する。更新の結果、音声認識装置は、第2シーケンス候補のうち最も高い確率を示す「smart」を時点t=tに対応するサブワードとして推定できる。時点t=tにおいて、音声認識装置は、推定されたサブワード「smart」に基づいて、サブワードの推定動作を行うことができる。音声認識装置は、音響モデルと言語モデルとを統合し、与えられ音声に対する発音推定の正確度を高めることができる。
図8は、一実施形態に係る学習方法を説明するための図である。
図8を参照すると、音声認識のための学習装置は、エンド・ツー・エンドエンコーダ及びデコーダ801を学習させ得る。学習装置は、入力音声から抽出された音声特徴をエンド・ツー・エンドエンコーダ及びデコーダ801に適用し、認識結果を生成する。学習装置は、入力音声の正解(ground truth)に該当するテキストをテキストサブワードエンコーダ802に適用し、テキストサブワードエンコーダ802によって生成された正解のシーケンスを生成する。学習装置は、エンド・ツー・エンドエンコーダ及びデコーダ801の認識結果とテキストサブワードエンコーダ802によって生成された正解のシーケンス間の差に基づいて、エンド・ツー・エンドエンコーダ及びデコーダ801を学習させ得る。学習装置は、認識結果と正解のシーケンス間の損失を最小化するよう、エンド・ツー・エンドエンコーダ及びデコーダ801のニューラルネットワークを最適化する。ニューラルネットワークを最適化する方式として、逆伝播方式などの様々な方式が採用される。
図9は、一実施形態に係る装置の構成の例示図である。
図9を参照すると、装置901は、プロセッサ902及びメモリ903を含む。一実施形態に係る装置901は、上述の音声認識装置又は学習装置であり得る。プロセッサ902は、図1~図8を参照して前述の少なくとも1つの装置を含んだり、図1~図8を参照して前述の少なくとも1つの方法を行ってもよい。メモリ903は、上述の音声認識方法又は学習方法に関する情報を格納したり、上述の音声認識方法又は学習方法が具現化されたプログラムを格納する。メモリ903は、揮発性メモリ又は不揮発性メモリであってもよい。
プロセッサ902はプログラムを実行し、装置901を制御する。プロセッサ902によって実行されるプログラムのコードは、メモリ903に格納される。装置901は、入出力装置(図示せず)を介して外部装置(例えば、パーソナルコンピュータ又はネットワーク)に接続され、データを交換する。
上述の実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又は、ハードウェア構成要素及びソフトウェア構成要素の組み合せで具現化される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は専用コンピュータを用いて具現化される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことを把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又は、そのうちの一つ以上の結合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は、送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DYIJDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及び、ROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述のように、たとえ実施形態が限定された図面によって説明されても、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は、説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。
201 エンコーダ
202 デコーダ
203 音声特徴
204 符号化された特徴
301 テキストサブワードエンコーダ
302 ニューラルネットワーク
601 エンド・ツー・エンドエンコーダ及びデコーダ
602 テキストサブワードデコーダ
603 テキストサブワードエンコーダ
604 マッチングモジュール
605 言語モデル
606 リスコアリングモジュール

Claims (21)

  1. コンピュータにより実施される音声認識方法であって、
    前記コンピュータのプロセッサが、認識しようとする入力音声から音声特徴を抽出するステップと、
    前記プロセッサが、前記音声特徴に基づいて、前記入力音声の少なくとも一部に対応する第1サブワードの第1シーケンスを推定するステップと、
    前記プロセッサが、前記第1サブワードのうち少なくとも2つを結合し、前記第1シーケンスを少なくとも1つの第2サブワードの第2シーケンスに変換するステップと、
    前記プロセッサが、前記第2シーケンスに基づいて前記入力音声の残りの一部を認識することによって前記入力音声を認識するステップと、
    含み、
    前記第1シーケンスを前記第2シーケンスに変換するステップは、
    テキストサブワードデコーダを使用して、前記第1シーケンスからテキストを生成すること、
    テキストサブワードエンコーダを使用して前記テキストを符号化することによって、前記少なくとも1つの第2サブワードの前記第2シーケンスを生成すること、および、
    前記第1シーケンスと前記第2シーケンスとが互いに異なると判断すること応答して、前記第1シーケンスを前記第2シーケンスに変換すること、
    を含む、
    音声認識方法。
  2. 前記第1シーケンスを推定するステップは、
    ニューラルネットワークを実現するエンド・ツー・エンドエンコーダ-デコーダを用いて、前記入力音声の前記少なくとも一部に対応する第1サブワードをそれぞれ推定するステップ、を含み、
    前記エンド・ツー・エンドエンコーダ-デコーダの出力レイヤは、サブワード辞書のサブワードに対応するノードを含む、
    請求項1に記載の音声認識方法。
  3. 前記サブワード辞書は、単語から使用頻度に応じて分離されたサブワードを記録する、
    請求項2に記載の音声認識方法。
  4. 前記第1シーケンスを前記第2シーケンスに変換するステップは、
    前記第1サブワードに基づいて、エンド・ツー・エンドエンコーダ-デコーダによって認識可能な単語を少なくとも1つの第2サブワードで生成するステップ、を含む、
    請求項1乃至3いずれか一項に記載の音声認識方法。
  5. 前記認識可能な単語は、前記エンド・ツー・エンドエンコーダ-デコーダの学習に活用された単語である、
    請求項4に記載の音声認識方法。
  6. 前記第1シーケンスを前記第2シーケンスに変換するステップは、
    前記第1サブワードのうち少なくとも2つ以上を結合し、サブワード辞書内の第2サブワードを生成するステップ、を含む、
    請求項1に記載の音声認識方法。
  7. 前記第1シーケンスを前記第2シーケンスに変換するステップは、
    前記第1サブワードのシーケンスが単語を形成する場合、前記形成された単語に対応する少なくとも1つの第2サブワードを生成するステップ、を含む、
    請求項1に記載の音声認識方法。
  8. 前記第1シーケンスを前記第2シーケンスに変換するステップは、
    前記第1サブワードのうち最後に生成された第1サブワードによって単語の形成が完成されたか否かを判断するステップと、
    含む、請求項1に記載の音声認識方法。
  9. 前記最後に生成された第1サブワードによって単語の形成が完成されたか否かを判断するステップは、
    前記最後に生成された第1サブワードの後で、分ち書きが存在するか否かに基づいて単語の形成が完成されたか否かを判断するステップ、を含む、
    請求項8に記載の音声認識方法。
  10. 前記第1シーケンスを前記第2シーケンスに変換するステップは、
    テキストサブワードデコーダを用いて、前記第1シーケンスからテキストを生成するステップと、
    テキストサブワードエンコーダを用いて前記テキストを符号化することにより、少なくとも1つの第2サブワードの第2シーケンスを生成するステップと、
    含む、請求項1に記載の音声認識方法。
  11. 前記音声認識方法は、さらに、
    前記入力音声の少なくとも一部に対応するサブワードのシーケンスを複数の時点それぞれで推定するステップであり、前記第1シーケンスは、前記複数の時点のうち現在の時点で推定される、ステップと、
    前記第1シーケンスの長さから前記第2シーケンスの長さを差し引いた値を前記現在の時点から差し引いて前記現在の時点を更新するステップと、
    を含む、請求項10に記載の音声認識方法。
  12. 前記第1シーケンスを推定するステップは、
    前記入力音声の少なくとも一部に対応する第1シーケンス候補を生成するステップ、を含み、
    前記第1シーケンスを前記第2シーケンスに変換するステップは、
    前記第1シーケンス候補に対応する第2シーケンス候補を生成するステップと、
    言語モデルを用いて、前記第2シーケンス候補に対応する認識結果を生成するステップと、
    前記認識結果に基づいて、前記第2シーケンス候補のいずれか1つを第2シーケンスとして判断するステップと、
    を含む、請求項1に記載の音声認識方法。
  13. ハードウェアと結合して請求項1ないし請求項12のいずれか一項に記載の方法を実行させるために媒体に格納されたコンピュータプログラム。
  14. 1つ又はそれ以上のプロセッサであって、
    認識しようとする入力音声から音声特徴を抽出し、
    前記音声特徴に基づいて、前記入力音声の少なくとも一部に対応する第1サブワードの第1シーケンスを推定し、
    前記第1サブワードのうち少なくとも2つを結合し、前記第1シーケンスを少なくとも1つの第2サブワードの第2シーケンスに変換し、
    前記第2シーケンスに基づいて、前記入力音声の残りの一部を認識することによって、前記入力音声を認識する、
    プロセッサ、
    含み、
    前記第1シーケンスを前記第2シーケンスに変換することは、
    テキストサブワードデコーダを使用して、前記第1シーケンスからテキストを生成すること、
    テキストサブワードエンコーダを使用して前記テキストを符号化することによって、前記少なくとも1つの第2サブワードの前記第2シーケンスを生成すること、および、
    前記第1シーケンスと前記第2シーケンスとが互いに異なると判断すること応答して、前記第1シーケンスを前記第2シーケンスに変換すること、
    を含む、
    音声認識装置。
  15. 前記音声認識装置は、さらに、
    前記音声特徴を抽出し、前記第1シーケンスを推定し、前記第1シーケンスを変換し、前記入力音声の前記残りの一部を認識するように前記1つ又はそれ以上のプロセッサを制御する命令語を格納するメモリ、を含む、
    請求項14に記載の音声認識装置。
  16. 前記1つ又はそれ以上のプロセッサは、
    ニューラルネットワークを実現するエンド・ツー・エンドエンコーダ-デコーダを用いて、前記入力音声の前記少なくとも一部に対応する第1サブワードをそれぞれ推定し、
    前記エンド・ツー・エンドエンコーダ-デコーダの出力レイヤは、サブワード辞書のサブワードに対応するノードを含む、
    請求項14または15に記載の音声認識装置。
  17. 前記サブワード辞書は、単語から使用頻度に応じて分離されたサブワードを記録する、
    請求項16に記載の音声認識装置。
  18. 前記1つ又はそれ以上のプロセッサは、
    前記第1サブワードのうち最後に生成された第1サブワードによって単語の形成が完成されたか否かを判断し、
    求項14に記載の音声認識装置。
  19. 前記1つ又はそれ以上のプロセッサは、
    テキストサブワードデコーダを用いて前記第1シーケンスからテキストを生成し、
    テキストサブワードエンコーダを用いて前記テキストを符号化することで、少なくとも1つの第2サブワードの第2シーケンスを生成し、
    求項14に記載の音声認識装置。
  20. 前記1つ又はそれ以上のプロセッサは、
    前記入力音声の少なくとも一部に対応するサブワードのシーケンスを複数の時点それぞれで推定し、かつ、前記第1シーケンスは、前記複数の時点のうち現在の時点で推定され、
    前記第1シーケンスの長さから前記第2シーケンスの長さを差し引いた値を前記現在の時点から差し引いて前記現在の時点を更新する、
    請求項19に記載の音声認識装置。
  21. 前記1つ又はそれ以上のプロセッサは、
    前記入力音声の少なくとも一部に対応する第1シーケンス候補を生成し、
    前記第1シーケンス候補に対応する第2シーケンス候補を生成し、
    言語モデルを用いて、前記第2シーケンス候補に対応する認識結果を生成し、
    前記認識結果に基づいて、前記第2シーケンス候補のいずれか1つを第2シーケンスとして判断する、
    請求項14に記載の音声認識装置。
JP2019142153A 2018-09-13 2019-08-01 音声認識方法及び装置 Active JP7418991B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180109459A KR20200030789A (ko) 2018-09-13 2018-09-13 음성 인식 방법 및 장치
KR10-2018-0109459 2018-09-13

Publications (2)

Publication Number Publication Date
JP2020042257A JP2020042257A (ja) 2020-03-19
JP7418991B2 true JP7418991B2 (ja) 2024-01-22

Family

ID=66999750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019142153A Active JP7418991B2 (ja) 2018-09-13 2019-08-01 音声認識方法及び装置

Country Status (5)

Country Link
US (1) US20200090642A1 (ja)
EP (1) EP3624114B1 (ja)
JP (1) JP7418991B2 (ja)
KR (1) KR20200030789A (ja)
CN (1) CN110895928A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11961522B2 (en) 2018-11-28 2024-04-16 Samsung Electronics Co., Ltd. Voice recognition device and method
KR20200091797A (ko) * 2019-01-23 2020-07-31 삼성전자주식회사 음성 인식 장치 및 방법
WO2020153736A1 (en) 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
WO2020231181A1 (en) 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Method and device for providing voice recognition service
KR20210095431A (ko) * 2020-01-23 2021-08-02 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017219769A (ja) 2016-06-09 2017-12-14 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
JP5042799B2 (ja) * 2007-04-16 2012-10-03 ソニー株式会社 音声チャットシステム、情報処理装置およびプログラム
US9818401B2 (en) * 2013-05-30 2017-11-14 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN104485105B (zh) * 2014-12-31 2018-04-13 中国科学院深圳先进技术研究院 一种电子病历生成方法和电子病历系统
KR102413693B1 (ko) * 2015-07-23 2022-06-27 삼성전자주식회사 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
CN107301860B (zh) * 2017-05-04 2020-06-23 百度在线网络技术(北京)有限公司 基于中英文混合词典的语音识别方法及装置
US10706840B2 (en) * 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
US11335333B2 (en) * 2018-07-20 2022-05-17 Google Llc Speech recognition with sequence-to-sequence models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017219769A (ja) 2016-06-09 2017-12-14 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム

Also Published As

Publication number Publication date
EP3624114B1 (en) 2021-08-11
EP3624114A1 (en) 2020-03-18
JP2020042257A (ja) 2020-03-19
US20200090642A1 (en) 2020-03-19
CN110895928A (zh) 2020-03-20
KR20200030789A (ko) 2020-03-23

Similar Documents

Publication Publication Date Title
JP7418991B2 (ja) 音声認識方法及び装置
US10373610B2 (en) Systems and methods for automatic unit selection and target decomposition for sequence labelling
US11798535B2 (en) On-device custom wake word detection
US11158305B2 (en) Online verification of custom wake word
US10878807B2 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US11049495B2 (en) Method and device for automatically learning relevance of words in a speech recognition system
US10714076B2 (en) Initialization of CTC speech recognition with standard HMM
Liu et al. Gram-CTC: Automatic unit selection and target decomposition for sequence labelling
US11227579B2 (en) Data augmentation by frame insertion for speech data
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN113574595A (zh) 用于具有触发注意力的端到端语音识别的系统和方法
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
KR20220130565A (ko) 키워드 검출 방법 및 장치
CN112700778A (zh) 语音识别方法和语音识别设备
Liu et al. Graph-based semisupervised learning for acoustic modeling in automatic speech recognition
US20210312294A1 (en) Training of model for processing sequence data
Shi et al. End-to-end speech recognition using a high rank lstm-ctc based model
Soltau et al. Reducing the computational complexity for whole word models
WO2021109856A1 (zh) 一种针对认知障碍的语音识别系统
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
US20210174789A1 (en) Automatic speech recognition device and method
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240110

R150 Certificate of patent or registration of utility model

Ref document number: 7418991

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150