JP7367839B2 - 音声認識装置、制御方法、及びプログラム - Google Patents
音声認識装置、制御方法、及びプログラム Download PDFInfo
- Publication number
- JP7367839B2 JP7367839B2 JP2022501485A JP2022501485A JP7367839B2 JP 7367839 B2 JP7367839 B2 JP 7367839B2 JP 2022501485 A JP2022501485 A JP 2022501485A JP 2022501485 A JP2022501485 A JP 2022501485A JP 7367839 B2 JP7367839 B2 JP 7367839B2
- Authority
- JP
- Japan
- Prior art keywords
- string data
- data
- compressed
- model
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000006243 chemical reaction Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 description 20
- 230000005236 sound signal Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Character Discrimination (AREA)
Description
圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さい。
第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルである。
第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習されたデコーダである。
圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さい。
第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルである。
第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習されたデコーダである。
<概要>
図1は、実施形態1に係る音声認識装置2000の動作を概念的に例示する図である。ここで、図1を用いて説明する音声認識装置2000の動作は、音声認識装置2000の理解を容易にするための例示であり、音声認識装置2000の動作を限定するものではない。音声認識装置2000の動作の詳細やバリエーションについては後述する。
音声認識装置2000によれば、音声フレームを圧縮文字列データに変換するように学習された第1モデル10と、圧縮文字列データを文字列データに変換するように学習された第2モデル20とを用いて、音声フレームを文字列データが変換される。少なくとも第2モデル20は、ニューラルネットワークで実現される。このように、本発明によれば、ニューラルネットワークを用いて音声認識を行う新たな技術が提供される。
図3は、音声認識装置2000の機能構成を例示するブロック図である。音声認識装置2000は、第1変換部2020及び第2変換部2040を有する。第1変換部2020は第1モデル10を有する。第1変換部2020は、音声フレームを取得し、その音声フレームを第1モデル10に入力することで、その音声フレームを圧縮文字列データに変換する。第2変換部2040は第2モデル20を有する。第2変換部2040は、第1変換部2020を利用して得られた圧縮文字列データ(第1変換部2020が取得した音声フレームに対応する圧縮文字列データ)を第2モデル20に入力することで、その圧縮文字列データを文字列データに変換する。これにより、取得した音声フレームに対応する文字列データが得られる。
音声認識装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、音声認識装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図5は、実施形態1の音声認識装置2000によって実行される処理の流れを例示するフローチャートである。第1変換部2020は音声フレームを取得する(S102)。第1変換部2020は音声フレームを第1モデル10に入力することで、音声フレームを圧縮文字列データに変換する(S104)。第2変換部2040は、S104で得られた圧縮文字列データを第2モデル20に入力することで、圧縮文字列データを文字列データに変換する(S106)。
図2に示したように、オートエンコーダ40はエンコーダ42とデコーダ44で構成される。オートエンコーダ40は、例えば、ニューラルネットワークで実現される。エンコーダ42は、入力された文字列データを圧縮文字列データに変換(エンコード)するモデルである。デコーダ44は、エンコーダ42から出力された圧縮文字列データを文字列データに変換(デコード)するモデルである。
第1モデル10は、入力された音声フレームを圧縮文字列データに変換するように学習された、学習済みモデルである。モデルの種類には、ニューラルネットワークやサポートベクトルマシンなどといった任意のものを利用できる。
第1変換部2020は音声フレームを取得する(S102)。音声フレームは、ソースデータの一部の時間区間を切り出した音声信号を表す音声データ、又は、その音声データから得られる特徴量である。ソースデータから音声フレームを生成する処理は、音声認識装置2000によって行われてもよいし、音声認識装置2000以外の装置によって行われてもよい。前者の場合、音声認識装置2000は、ソースデータを取得し、ソースデータから複数の音声フレームを生成し、各音声フレームを文字列データに変換する。一方、後者の場合、音声認識装置2000は、他の装置によってソースデータから得られた複数の音声フレームを取得し、各音声フレームを文字列データに変換する。
音声認識装置2000は、生成した文字列データを出力する(S106)。生成した文字列データの出力先は任意である(例えば、記憶装置やディスプレイ装置など)。
前述したように、圧縮文字列データのデータサイズは文字列データのデータサイズよりも小さいため、1つのオートエンコーダ40で扱うことができる文字列の種類の数は、文字列データで表現可能な文字列の種類の数よりも少なくなる。このことから、「第1モデル10、第2モデル20(=デコーダ44)」という学習済みモデルのセット1つで扱える文字列の種類は、文字列データで表現可能な文字列の種類の数よりも小さくなる。
1. 音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換部と、
前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換部と、を有し、
前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、音声認識装置。
2. 前記音声フレームは音声信号から得られた音声特徴量である、1.に記載の音声認識装置。
3. 前記正解データとして利用される前記圧縮文字列データは、その正解データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、1.又は2.に記載の音声認識装置。
4. コンピュータによって実行される制御方法であって、
音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換ステップと、
前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換ステップと、を有し、
前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、制御方法。
5. 前記音声フレームは音声信号から得られた音声特徴量である、4.に記載の制御方法。
6. 前記正解データとして利用される前記圧縮文字列データは、その正解データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、4.又は5.に記載の制御方法。
7. 4.から6いずれか一つに記載の制御方法をコンピュータに実行させるプログラム。
20 第2モデル
40 オートエンコーダ
42 エンコーダ
44 デコーダ
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
2000 音声認識装置
2020 第1変換部
2040 第2変換部
Claims (5)
- 音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換部と、
前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換部によって生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換部と、を有し、
前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、音声認識装置。 - 前記音声フレームは音声信号から得られた音声特徴量である、請求項1に記載の音声認識装置。
- 前記教師データにおいて前記正解データとして利用される前記圧縮文字列データは、その教師データに含める音声フレームに対応する文字列データを、前記エンコーダを用いてエンコードすることで得られたものである、請求項1又は2に記載の音声認識装置。
- コンピュータによって実行される制御方法であって、
音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換ステップと、
前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換ステップで生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換ステップと、を有し、
前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである、制御方法。 - 制御方法をコンピュータに実行させるプログラムであって、
当該制御方法は、
音声フレームを圧縮文字列データに変換する第1モデルに対し、取得した音声フレームを入力することで、前記取得した音声フレームに対応する前記圧縮文字列データを生成する第1変換ステップと、
前記圧縮文字列データを文字列データに変換する第2モデルに対し、前記第1変換ステップで生成された圧縮文字列データを入力することで、前記取得した音声フレームに対応する前記文字列データを生成する第2変換ステップと、を有し、
前記圧縮文字列データのデータサイズは前記文字列データのデータサイズよりも小さく、
前記第1モデルは、音声フレームを入力データとし、かつ、その音声フレームによって表される文字列データをエンコードすることで得られる圧縮文字列データを正解データとする教師データで学習されたモデルであり、
前記第2モデルは、入力された文字列データを圧縮文字列データに変換するエンコーダと、前記エンコーダから出力された圧縮文字列データを文字列データに変換するデコーダとで構成されるオートエンコーダを学習することによって得られる、学習された前記デコーダである
プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/006578 WO2021166129A1 (ja) | 2020-02-19 | 2020-02-19 | 音声認識装置、制御方法、及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021166129A1 JPWO2021166129A1 (ja) | 2021-08-26 |
JPWO2021166129A5 JPWO2021166129A5 (ja) | 2022-10-06 |
JP7367839B2 true JP7367839B2 (ja) | 2023-10-24 |
Family
ID=77390829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022501485A Active JP7367839B2 (ja) | 2020-02-19 | 2020-02-19 | 音声認識装置、制御方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230046763A1 (ja) |
JP (1) | JP7367839B2 (ja) |
WO (1) | WO2021166129A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017219769A (ja) | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US20180174589A1 (en) | 2016-12-19 | 2018-06-21 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
JP2019133046A (ja) | 2018-02-01 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6222821B2 (ja) * | 2013-10-10 | 2017-11-01 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
-
2020
- 2020-02-19 WO PCT/JP2020/006578 patent/WO2021166129A1/ja active Application Filing
- 2020-02-19 JP JP2022501485A patent/JP7367839B2/ja active Active
- 2020-02-19 US US17/797,497 patent/US20230046763A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017219769A (ja) | 2016-06-09 | 2017-12-14 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US20180174589A1 (en) | 2016-12-19 | 2018-06-21 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
JP2019133046A (ja) | 2018-02-01 | 2019-08-08 | 日本電信電話株式会社 | 学習装置、学習方法及び学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2021166129A1 (ja) | 2021-08-26 |
JPWO2021166129A1 (ja) | 2021-08-26 |
US20230046763A1 (en) | 2023-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11106714B2 (en) | Summary generating apparatus, summary generating method and computer program | |
JP6718828B2 (ja) | 情報入力方法および装置 | |
WO2022188734A1 (zh) | 一种语音合成方法、装置以及可读存储介质 | |
CN109859736B (zh) | 语音合成方法及系统 | |
CN109785824B (zh) | 一种语音翻译模型的训练方法及装置 | |
CN112349273A (zh) | 基于说话人的语音合成方法、模型训练方法及相关设备 | |
CN110136689B (zh) | 基于迁移学习的歌声合成方法、装置及存储介质 | |
CN113450758B (zh) | 语音合成方法、装置、设备及介质 | |
US20230394306A1 (en) | Multi-Modal Machine Learning Models with Improved Computational Efficiency Via Adaptive Tokenization and Fusion | |
CN114882862A (zh) | 一种语音处理方法及相关设备 | |
WO2024183583A1 (zh) | 语音活动检测方法、装置、电子设备及可读存储介质 | |
CN110516125A (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
JP7367839B2 (ja) | 音声認識装置、制御方法、及びプログラム | |
CN116958343A (zh) | 面部动画生成方法、装置、设备、介质及程序产品 | |
CN114464163A (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 | |
CN114121010A (zh) | 模型训练、语音生成、语音交互方法、设备以及存储介质 | |
CN113870828A (zh) | 音频合成方法、装置、电子设备和可读存储介质 | |
JP7409475B2 (ja) | 発話終端検出装置、制御方法、及びプログラム | |
US11984113B2 (en) | Method and server for training a neural network to generate a textual output sequence | |
TWI732390B (zh) | 語音貼圖產生方法與裝置 | |
JP7435740B2 (ja) | 音声認識装置、制御方法、及びプログラム | |
JP7501610B2 (ja) | 音声認識装置、制御方法、及びプログラム | |
CN113823329B (zh) | 数据处理方法以及计算机设备 | |
CN115440198B (zh) | 混合音频信号的转换方法、装置、计算机设备和存储介质 | |
CN114822492B (zh) | 语音合成方法及装置、电子设备、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220810 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230925 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7367839 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |