JP7367839B2 - 音声認識装置、制御方法、及びプログラム - Google Patents

音声認識装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP7367839B2
JP7367839B2 JP2022501485A JP2022501485A JP7367839B2 JP 7367839 B2 JP7367839 B2 JP 7367839B2 JP 2022501485 A JP2022501485 A JP 2022501485A JP 2022501485 A JP2022501485 A JP 2022501485A JP 7367839 B2 JP7367839 B2 JP 7367839B2
Authority
JP
Japan
Prior art keywords
string data
data
compressed
model
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022501485A
Other languages
English (en)
Other versions
JPWO2021166129A1 (ja
JPWO2021166129A5 (ja
Inventor
秀治 古明地
玲司 吉田
仁 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021166129A1 publication Critical patent/JPWO2021166129A1/ja
Publication of JPWO2021166129A5 publication Critical patent/JPWO2021166129A5/ja
Application granted granted Critical
Publication of JP7367839B2 publication Critical patent/JP7367839B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Character Discrimination (AREA)

Description

本発明は音声認識に関する。
音声を文字列に変換する技術が開発されている。例えばこのような技術は、録音データをテキストデータに自動変換したり、音声検索を実現したりするために利用されている。例えば特許文献1は、End-to-End 型ニューラルネットワークに基づく音響モデルを用いて音声認識を行う技術を開示している。
特開2017-219769号公報
本発明者は、音声認識を行う新たな技術を見出した。本願発明の目的の1つは新たな音声認識の技術を提供することである。
本発明の音声認識装置は、1)音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、取得した音声フレームに対応する圧縮文字列データを生成する第1変換部と、2)圧縮文字列データを文字列データに変換する第2モデルに対し、第1変換部によって生成された圧縮文字列データを入力することで、取得した音声フレームに対応する文字列データを生成する第2変換部と、を有する。
圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さい。
第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルである。
第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習されたデコーダである。
本発明の制御方法はコンピュータによって実行される。当該制御方法は、1)音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、取得した音声フレームに対応する圧縮文字列データを生成する第1変換ステップと、2)圧縮文字列データを文字列データに変換する第2モデルに対し、第1変換部によって生成された圧縮文字列データを入力することで、取得した音声フレームに対応する文字列データを生成する第2変換ステップと、を有する。
圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さい。
第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルである。
第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習されたデコーダである。
本発明のプログラムは、本発明の制御方法をコンピュータに実行させる。
本発明によれば、新たな音声認識の技術が提供される。
実施形態1に係る音声認識装置の動作を概念的に例示する図である。 第1モデルと第2モデルの学習方法を概念的に例示する図である。 音声認識装置の機能構成を例示するブロック図である。 音声認識装置を実現するための計算機を例示する図である。 実施形態1の音声認識装置によって実行される処理の流れを例示するフローチャートである。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。以下の説明において、特に説明しない限り、各種所定の値(閾値など)は、その値を利用する機能構成部からアクセス可能な記憶装置に予め記憶させておく。
[実施形態1]
<概要>
図1は、実施形態1に係る音声認識装置2000の動作を概念的に例示する図である。ここで、図1を用いて説明する音声認識装置2000の動作は、音声認識装置2000の理解を容易にするための例示であり、音声認識装置2000の動作を限定するものではない。音声認識装置2000の動作の詳細やバリエーションについては後述する。
音声認識装置2000は、音声を文字列に変換するために利用される。より具体的には、音声認識装置2000は、音声フレームを文字列データに変換する。音声フレームとは、例えば、人の発言が記録された音声データ(以下、ソースデータ)から、一部の時間区間の音声信号を抽出することで得られた音声データである。音声データは、例えば、音声信号の波形を表すベクトルデータなどである。ソースデータは、例えば、会話やスピーチの録音データや、音声検索のために入力された検索ワードの音声データなどである。
なお、ソースデータから一部の時間区間の音声信号を抽出することで得られた音声データについて、音声特徴量の抽出を行い、その音声特徴量を表すデータを音声フレームとして扱ってもよい。音声特徴量としては、ケプストラム特徴量などといった種々の特徴量を用いることができる。
文字列データは、1つ以上の文字の列を表すデータである。例えば文字列データは、文字ベクトルの列である。例えば文字ベクトルは、表現可能な文字の種類の数と同じ長さの one-hot ベクトルである。例えば文字列データによって N 種類(N は自然数)の文字を扱え、文字列データを構成する各文字が1つの one-hot ベクトルで表されるとする。この場合、文字列データは、長さ N の one-hot ベクトルの列となる。具体的には、文字ベクトルの各ビットに対し、それぞれ異なる文字が予め割り当てられる。そして、文字列データを構成する各文字ベクトルにおいて、その文字ベクトルで表現する文字に対応するビットのみに1が設定され、その他のビットには0が設定される。ただし、文字列データは、表現したい文字列を表現可能な形式のデータであればよく、必ずしも one-hot ベクトルを利用して実現される必要はない。また、文字ベクトルの代わりに、単語ベクトルを利用してもよい。すなわち、文字列データを構成する各ベクトルで、1つの文字ではなく1つの単語を表せるようにしてもよい。
音声認識装置2000は、音声フレームを文字列データに変換する際、まず、音声フレームを圧縮文字列データに変換する。そして、音声認識装置2000は、音声フレームから得られた圧縮文字列データを文字列データに変換することで、音声フレームに対応する文字列データを生成する。
圧縮文字列データは、文字列データよりも小さいデータサイズで、文字列データによって表されている文字列を表すことができるデータである。例えば文字列データを構成する文字ベクトルが長さ N の one-hot ベクトル(N ビットのベクトル)である場合、圧縮文字列データを構成する文字ベクトルは N ビットより小さいサイズのベクトルである。例えば、文字列データと圧縮文字列データがいずれも漢字を含む文字列を表しており、かつ、圧縮文字列データで扱える漢字の種類が文字列データで扱える漢字の種類よりも少ないというケースが考えられる。この場合、圧縮文字列データを構成する文字ベクトルの次元数が、文字列データを構成する文字ベクトルの次元数よりも少なくなる。
ここで、音声フレームから圧縮文字列データへの変換は、第1モデル10を用いて行われる。また、圧縮文字列データから文字列データへの変換は、第2モデル20を用いて行われる。
図2は、第1モデル10と第2モデル20の学習方法を概念的に例示する図である。第1モデル10は、入力された音声フレームを圧縮文字列データに変換するように学習された、学習済みモデルである。第1モデル10の学習は、「音声フレーム、正解の圧縮文字列データ(その音声フレームによって表される文字列をエンコードすることで得られる圧縮文字列データ)」というペアを含む教師データを用いて行われる。具体的には、第1モデル10が音声フレームの入力に応じて出力した圧縮文字列データと、その音声フレームに対応付けられている正解の圧縮文字列データとの誤差を小さくするように、学習が行われる。
第2モデル20は、入力された圧縮文字列データを文字列データに変換するように学習された、学習済みモデルである。第2モデル20の学習は、図1に示すオートエンコーダ40の学習によって実現できる。オートエンコーダ40は、エンコーダ42とデコーダ44を有する。エンコーダ42は、オートエンコーダ40へ入力された文字列データをエンコードすることにより、文字列データを圧縮文字列データに変換する。一方、デコーダ44は、エンコーダ42によって出力された圧縮文字列データをデコードすることにより、圧縮文字列データを文字列データに変換する。そして、デコーダ44によって得られた文字列データが、オートエンコーダ40から出力される。
オートエンコーダ40は、入力された文字列データと出力された文字列データとの誤差がちいさくなるように学習される。オートエンコーダ40の学習が行われた結果、デコーダ44は、圧縮文字列データを元の文字列データに復元できるようになる。これは、文字列データを、よりサイズが小さい圧縮文字列データで表すことができるようになったことを意味する。また、オートエンコーダ40の学習により、文字列データを圧縮文字列データに変換できるエンコーダと、圧縮文字列データを文字列データに変換できるデコーダが得られる。第2モデル20としては、このようにして得られた学習済みのデコーダ44が用いられる。
<作用効果の一例>
音声認識装置2000によれば、音声フレームを圧縮文字列データに変換するように学習された第1モデル10と、圧縮文字列データを文字列データに変換するように学習された第2モデル20とを用いて、音声フレームを文字列データが変換される。少なくとも第2モデル20は、ニューラルネットワークで実現される。このように、本発明によれば、ニューラルネットワークを用いて音声認識を行う新たな技術が提供される。
また、第1モデル10の出力を通常の文字列データではなく、圧縮文字列データとすることで、モデルのパラメタ数を減らすことができる。これにより、学習と推論の双方において処理速度を向上できる。
以下、音声認識装置2000についてより詳細に説明する。
<機能構成の例>
図3は、音声認識装置2000の機能構成を例示するブロック図である。音声認識装置2000は、第1変換部2020及び第2変換部2040を有する。第1変換部2020は第1モデル10を有する。第1変換部2020は、音声フレームを取得し、その音声フレームを第1モデル10に入力することで、その音声フレームを圧縮文字列データに変換する。第2変換部2040は第2モデル20を有する。第2変換部2040は、第1変換部2020を利用して得られた圧縮文字列データ(第1変換部2020が取得した音声フレームに対応する圧縮文字列データ)を第2モデル20に入力することで、その圧縮文字列データを文字列データに変換する。これにより、取得した音声フレームに対応する文字列データが得られる。
<ハードウエア構成の例>
音声認識装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、音声認識装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図4は、音声認識装置2000を実現するための計算機1000を例示する図である。計算機1000は、任意の計算機である。例えば計算機1000は、PC(Personal Computer)やサーバマシンなどといった、据え置き型の計算機である。その他にも例えば、計算機1000は、スマートフォンやタブレット端末などといった可搬型の計算機である。
計算機1000は、音声認識装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。後者の場合、例えば、計算機1000に対して所定のアプリケーションをインストールすることにより、計算機1000で、音声認識装置2000の各機能が実現される。上記アプリケーションは、音声認識装置2000の機能構成部を実現するためのプログラムで構成される。
計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。
プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。
ストレージデバイス1080は、音声認識装置2000の各機能構成部を実現するプログラム(前述したアプリケーションを実現するプログラム)を記憶している。プロセッサ1040は、このプログラムをメモリ1060に読み出して実行することで、音声認識装置2000の各機能構成部を実現する。
ここで、音声認識装置2000は、1つの計算機1000で実現されてもよいし、複数の計算機1000で実現されてもよい。後者の場合、例えば音声認識装置2000は、第1変換部2020を実現する1つ以上の計算機1000と、第2変換部2040を実現する1つ以上の計算機1000とを有する分散システムとして実現される。
<処理の流れ>
図5は、実施形態1の音声認識装置2000によって実行される処理の流れを例示するフローチャートである。第1変換部2020は音声フレームを取得する(S102)。第1変換部2020は音声フレームを第1モデル10に入力することで、音声フレームを圧縮文字列データに変換する(S104)。第2変換部2040は、S104で得られた圧縮文字列データを第2モデル20に入力することで、圧縮文字列データを文字列データに変換する(S106)。
<オートエンコーダ40について>
図2に示したように、オートエンコーダ40はエンコーダ42とデコーダ44で構成される。オートエンコーダ40は、例えば、ニューラルネットワークで実現される。エンコーダ42は、入力された文字列データを圧縮文字列データに変換(エンコード)するモデルである。デコーダ44は、エンコーダ42から出力された圧縮文字列データを文字列データに変換(デコード)するモデルである。
ここで、オートエンコーダ40は、圧縮文字列データのデータサイズが文字列データのデータサイズよりも小さくなるように構成されている。そのため、エンコーダ42は、出力されるデータのサイズが入力されるデータのサイズよりも小さくなるように構成されている。このような構成は、例えば、エンコーダ42において、出力層のノード数を入力層のノード数よりも少なくすることで実現できる。また、デコーダ44は、入力されるデータのサイズがエンコーダ42から出力されるデータのサイズと等しい(すなわち、圧縮文字列データのサイズである)ように構成され、かつ、出力されるデータのサイズがエンコーダ42に入力されるデータのサイズと等しい(すなわち、文字列データのサイズである)ように構成される。このような構成は、例えば、デコーダ44の入力層のノード数をエンコーダ42の出力層のノードの数と等しくし(あるいは、エンコーダ42の出力層をデコーダ44の入力層として用い)、かつ、デコーダ44の出力層のノード数をエンコーダ42の入力層のノード数と等しくすることで実現できる。
オートエンコーダ40の学習は、任意の複数種類の文字列を利用して行うことができる。オートエンコーダ40の学習を行う具体的な技術には、既存の技術を利用することができる。
ただし、圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さいため、1つのオートエンコーダ40において圧縮文字列データで表すことができる文字列の種類の数、すなわち、1つのオートエンコーダ40で扱うことができる文字列の種類の数は、文字列データで表現可能な文字列の種類の数よりも少なくなる。例えば文字列データが 3,000 種類の文字列を表すことができる一方で、圧縮文字列データは 1,000 種類の文字列しか表すことができないとする。この場合、1つのオートエンコーダ40で扱うことができる文字列の種類の数は 1,000 種類となる。
そこで、オートエンコーダ40の学習には、音声認識装置2000で解析したいソースデータに含まれている蓋然性が高い文字列を利用することが好適である。例えば音声認識装置2000が、ソフトウエア開発会社などのようなコンピュータ分野の会社において、会議を録音したファイルを文書ファイルに変換するために利用されるとする。この場合、音声認識装置2000に入力される音声フレームには、コンピュータ分野の専門用語が多く含まれている蓋然性が高い。そこでこのケースでは、オートエンコーダ40の学習に、コンピュータ分野の専門用語を表す文字列を多く利用することが好適である。
なお、後述するように、複数のオートエンコーダ40を用意することで、モデルのセット(第1モデル10、第2モデル20(=エンコーダ42)、及びデコーダ44のセット)を分野ごと等に複数用意してもよい。このようにモデルのセットを複数用意する形態については後述する。
<第1モデル10について>
第1モデル10は、入力された音声フレームを圧縮文字列データに変換するように学習された、学習済みモデルである。モデルの種類には、ニューラルネットワークやサポートベクトルマシンなどといった任意のものを利用できる。
前述したように、第1モデル10の学習は、「音声フレーム、正解の圧縮文字列データ」というペアを含む複数の教師データを用いて行われる。なお、入力データとそれに対応する正解データのペアを用いてモデルの学習を行う技術には、既存の技術を利用することができる。
前述した教師データは、同一の文字列に対応する音声フレームと圧縮文字列データである。そこで、或る文字列に対応する音声フレームと圧縮文字列データをそれぞれ生成し、これらを対応付けることにより、教師データを生成することができる。
特定の文字列に対応する圧縮文字列データは、例えば、学習済みのエンコーダ42を利用して生成することができる。前述したように、エンコーダ42は、文字列データを圧縮文字列データに変換する。そのため、特定の文字列に対応する圧縮文字列データは、その文字列をエンコーダ42に入力することで得ることができる。例えば、「雨」という文字列に対応する圧縮文字列データは、「雨」という文字列を表す文字列データを用意し、その文字列データを学習済みのエンコーダ42に入力することで得ることができる。
特定の文字列に対応する音声フレームは、種々の既存の手法を利用して得ることができる。例えば、特定の文字列を実際に人に発言させてその発言を録音することで、その文字列に対応する音声信号を表す音声フレームを得ることできる。その他にも例えば、文字列データを音声データに変換する既存のソフトウエアを利用することにより、特定の文字列に対応する音声信号を表す音声フレームを得ることができる。例えば、「雨」という文字列に対応する音声フレームは、「雨」という言葉を発言した音声を録音したり、文字列データを音声に変換するソフトウエアに対して「雨」という文字列データを入力したりすることで得ることができる。なお、特定の文字列に対応する音声特徴量を表す音声フレームは、特定の文字列に対応する音声信号を表すデータを得た後、そのデータを特徴量に変換することで生成することができる。
第1モデル10の学習に利用する教師データには、任意の文字列に対応する音声フレームと圧縮文字列データのペアを利用することができる。ただし、前述したように、オートエンコーダ40で扱える文字列の種類の数は、文字列データで表現可能な文字列の種類の数よりも少なくなる。そこで、教師データには、オートエンコーダ40で扱うことができる文字列(すなわち、オートエンコーダ40の学習に利用された文字列)に対応する音声フレームと圧縮文字列データのペアを利用することが好適である。言い換えれば、オートエンコーダ40の学習に利用した文字列を利用して教師データを生成することが好適である。
<音声フレームの取得>
第1変換部2020は音声フレームを取得する(S102)。音声フレームは、ソースデータの一部の時間区間を切り出した音声信号を表す音声データ、又は、その音声データから得られる特徴量である。ソースデータから音声フレームを生成する処理は、音声認識装置2000によって行われてもよいし、音声認識装置2000以外の装置によって行われてもよい。前者の場合、音声認識装置2000は、ソースデータを取得し、ソースデータから複数の音声フレームを生成し、各音声フレームを文字列データに変換する。一方、後者の場合、音声認識装置2000は、他の装置によってソースデータから得られた複数の音声フレームを取得し、各音声フレームを文字列データに変換する。
なお、音声を文字列に変換する処理を行う際に、録音データなどのソースデータから複数の音声フレームを生成する技術には、既存の技術を利用することができる。例えば、音声フレームを生成する処理は、ソースデータから音声区間(音声が存在する区間)を検出し、所定長のタイムウインドウを音声区間の先頭から一定の時間幅で移動させながら、タイムウインドウに含まれる音声信号を順に抽出していく処理となる。このようにして抽出された各音声信号や、その音声信号から得られる特徴量が、音声フレームとして利用される。
<文字列データの出力>
音声認識装置2000は、生成した文字列データを出力する(S106)。生成した文字列データの出力先は任意である(例えば、記憶装置やディスプレイ装置など)。
なお、音声認識装置2000を利用することで得られる文字列データの利用方法は様々である。例えば、音声認識装置2000を利用して得られる文字列データは、ソースデータによって表される会議やスピーチの発言内容を表すテキストデータを生成するため(いわゆる文字起こし)に利用される。この場合、音声認識装置2000は、ソースデータから抽出される時系列の複数の音声フレームを順に文字列データに変換していく。これにより、時系列の複数の文字列データが得られる。このようにして得られた時系列の複数の文字列データを利用することで、テキストデータが生成される。ここで、時系列の複数の音声フレームから得られた時系列の複数の文字列データを利用して、会議等の発言内容を表すテキストデータを生成する技術には、既存の技術を利用することができる。
<利用シーンに応じたモデルの選択>
前述したように、圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さいため、1つのオートエンコーダ40で扱うことができる文字列の種類の数は、文字列データで表現可能な文字列の種類の数よりも少なくなる。このことから、「第1モデル10、第2モデル20(=デコーダ44)」という学習済みモデルのセット1つで扱える文字列の種類は、文字列データで表現可能な文字列の種類の数よりも小さくなる。
そこで例えば、学習済みモデルのセットを利用シーンごとに用意し、音声認識装置2000の利用シーンに応じて、音声認識装置2000が利用するモデルを選択できるようにすることが好適である。例えば音声認識装置2000が、会議の録音データをテキストファイルに変換するために利用されるとする。この場合、会議の中に現れる文字列のバリエーションには、どの分野の人たちの会議なのかによって偏りが生じる。例えば、コンピュータ分野の人たちの会議ではコンピュータ分野の専門用語が多く現れる一方、医学分野の人たちの会議では医学分野の専門用語が多く現れる。
そこでこのような場合、分野ごとに学習済みモデルのセットを用意しておく。具体的には、コンピュータ分野の録音データに利用されるモデルのセットは、コンピュータ分野の専門用語を多く含む複数の文字列を利用して学習される。一方、医学分野の録音データに利用される学習済みモデルのセットは、医学分野の専門用語を多く含む複数の文字列を利用して学習される。
利用シーンごとにモデルのセットを選択する方法には、様々な方法を採用できる。例えば、1つの音声認識装置2000において、モデルのセットを切り替えられるようにしておく。この場合、音声認識装置2000からアクセス可能な記憶装置に、利用シーン(例えば分野)の識別情報と学習済みモデルのセットとを対応付けて、予め格納しておく。音声認識装置2000は、ユーザに対し、利用シーンを選択する画面を提供する。音声認識装置2000は、ユーザによって選択された利用シーンに対応する学習済みモデルのセットを記憶装置から読み出す。そして、第1変換部2020と第2変換部2040はそれぞれ、読み出したモデルのセットに含まれる第1モデル10と第2モデル20を利用する。これにより、ユーザによって選択された利用シーンに適した学習済みモデルを利用して、音声フレームから文字列データへの変換が行われる。
その他にも例えば、音声認識装置2000を複数用意し、各音声認識装置2000にそれぞれ異なるモデルのセットを設定しておいてもよい。この場合、利用シーンに対応した音声認識装置2000が利用されるようにする。例えば、ユーザからリクエストを受け付けるフロントエンドのマシンを用意し、そのマシンが前述した選択画面を提供するようにする。ユーザが選択画面で利用シーンを選択すると、選択された利用シーンに対応する音声認識装置2000を利用して、音声データから文字列データを得る処理が行われる。
上述したように利用シーンごとにモデルのセットを用意するためには、各利用シーンに対応するモデルの学習を行う。例えば、コンピュータ分野の音声を扱うためのモデルのセットと、医学分野の音声を扱うためのモデルのセットを用意するとする。この場合、前者のモデルのセットは、コンピュータ分野の音声に対応する音声フレームと文字列データを利用して学習する。例えば、コンピュータ分野の会話に出てくる各文字列を表す文字列データを利用してオートエンコーダ40の学習を行うことで、コンピュータ分野の音声を扱うためのエンコーダ42とデコーダ44を得ることができる。また、コンピュータ分野の会話に出てくる各文字列について、「その文字列を表す音声フレーム、その文字列をエンコーダ42に入力することで得られる圧縮文字列データ」のペアを用意し、用意した各ペアを利用して第1モデル10の学習を行う。これにより、コンピュータ分野の音声を扱うための第1モデル10を得ることができる。そして、第1変換部2020と第2変換部2040がそれぞれ、このようにして得られた第1モデル10と第2モデル20(デコーダ44)を利用するようにすることで、音声認識装置2000がコンピュータ分野の音声を扱うことができるようになる。
他の分野の音声についても同様のことをすることにより、様々な分野の音声に対応するモデルのセットを得ることができる。そのため、音声認識装置2000で様々な分野の音声を扱うことができるようになる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
1. 音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換部と、
前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換部と、を有し、
前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、音声認識装置。
2. 前記音声フレームは音声信号から得られた音声特徴量である、1.に記載の音声認識装置。
3. 前記正解データとして利用される前記圧縮文字列データは、その正解データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、1.又は2.に記載の音声認識装置。
4. コンピュータによって実行される制御方法であって、
音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換ステップと、
前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換ステップと、を有し、
前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、制御方法。
5. 前記音声フレームは音声信号から得られた音声特徴量である、4.に記載の制御方法。
6. 前記正解データとして利用される前記圧縮文字列データは、その正解データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、4.又は5.に記載の制御方法。
7. 4.から6いずれか一つに記載の制御方法をコンピュータに実行させるプログラム。
10 第1モデル
20 第2モデル
40 オートエンコーダ
42 エンコーダ
44 デコーダ
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 音声認識装置
2020 第1変換部
2040 第2変換部

Claims (5)

  1. 音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換部と、
    前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換部と、を有し、
    前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
    前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
    前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、音声認識装置。
  2. 前記音声フレームは音声信号から得られた音声特徴量である、請求項1に記載の音声認識装置。
  3. 前記教師データにおいて前記正解データとして利用される前記圧縮文字列データは、その教師データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、請求項1又は2に記載の音声認識装置。
  4. コンピュータによって実行される制御方法であって、
    音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換ステップと、
    前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換ステップで生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換ステップと、を有し、
    前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
    前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
    前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、制御方法。
  5. 御方法をコンピュータに実行させるプログラムであって、
    当該制御方法は、
    音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換ステップと、
    前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換ステップで生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換ステップと、を有し、
    前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
    前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
    前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである
    プログラム
JP2022501485A 2020-02-19 2020-02-19 音声認識装置、制御方法、及びプログラム Active JP7367839B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/006578 WO2021166129A1 (ja) 2020-02-19 2020-02-19 音声認識装置、制御方法、及びプログラム

Publications (3)

Publication Number Publication Date
JPWO2021166129A1 JPWO2021166129A1 (ja) 2021-08-26
JPWO2021166129A5 JPWO2021166129A5 (ja) 2022-10-06
JP7367839B2 true JP7367839B2 (ja) 2023-10-24

Family

ID=77390829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022501485A Active JP7367839B2 (ja) 2020-02-19 2020-02-19 音声認識装置、制御方法、及びプログラム

Country Status (3)

Country Link
US (1) US20230046763A1 (ja)
JP (1) JP7367839B2 (ja)
WO (1) WO2021166129A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017219769A (ja) 2016-06-09 2017-12-14 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US20180174589A1 (en) 2016-12-19 2018-06-21 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
JP2019133046A (ja) 2018-02-01 2019-08-08 日本電信電話株式会社 学習装置、学習方法及び学習プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6222821B2 (ja) * 2013-10-10 2017-11-01 日本放送協会 誤り修正モデル学習装置、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017219769A (ja) 2016-06-09 2017-12-14 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US20180174589A1 (en) 2016-12-19 2018-06-21 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
JP2019133046A (ja) 2018-02-01 2019-08-08 日本電信電話株式会社 学習装置、学習方法及び学習プログラム

Also Published As

Publication number Publication date
WO2021166129A1 (ja) 2021-08-26
JPWO2021166129A1 (ja) 2021-08-26
US20230046763A1 (en) 2023-02-16

Similar Documents

Publication Publication Date Title
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
JP6718828B2 (ja) 情報入力方法および装置
WO2022188734A1 (zh) 一种语音合成方法、装置以及可读存储介质
CN109859736B (zh) 语音合成方法及系统
CN109785824B (zh) 一种语音翻译模型的训练方法及装置
CN112349273A (zh) 基于说话人的语音合成方法、模型训练方法及相关设备
CN110136689B (zh) 基于迁移学习的歌声合成方法、装置及存储介质
CN113450758B (zh) 语音合成方法、装置、设备及介质
US20230394306A1 (en) Multi-Modal Machine Learning Models with Improved Computational Efficiency Via Adaptive Tokenization and Fusion
CN114882862A (zh) 一种语音处理方法及相关设备
WO2024183583A1 (zh) 语音活动检测方法、装置、电子设备及可读存储介质
CN110516125A (zh) 识别异常字符串的方法、装置、设备及可读存储介质
JP7367839B2 (ja) 音声認識装置、制御方法、及びプログラム
CN116958343A (zh) 面部动画生成方法、装置、设备、介质及程序产品
CN114464163A (zh) 语音合成模型的训练方法、装置、设备、存储介质和产品
CN114121010A (zh) 模型训练、语音生成、语音交互方法、设备以及存储介质
CN113870828A (zh) 音频合成方法、装置、电子设备和可读存储介质
JP7409475B2 (ja) 発話終端検出装置、制御方法、及びプログラム
US11984113B2 (en) Method and server for training a neural network to generate a textual output sequence
TWI732390B (zh) 語音貼圖產生方法與裝置
JP7435740B2 (ja) 音声認識装置、制御方法、及びプログラム
JP7501610B2 (ja) 音声認識装置、制御方法、及びプログラム
CN113823329B (zh) 数据处理方法以及计算机设备
CN115440198B (zh) 混合音频信号的转换方法、装置、计算机设备和存储介质
CN114822492B (zh) 语音合成方法及装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230925

R151 Written notification of patent or utility model registration

Ref document number: 7367839

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151