JP2020013034A - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP2020013034A JP2020013034A JP2018136203A JP2018136203A JP2020013034A JP 2020013034 A JP2020013034 A JP 2020013034A JP 2018136203 A JP2018136203 A JP 2018136203A JP 2018136203 A JP2018136203 A JP 2018136203A JP 2020013034 A JP2020013034 A JP 2020013034A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- recognition
- speaker
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
特許請求の範囲に記載した以外の本発明の観点の代表的なものとして、次のものがあげ
られる。
プロセッサとメモリを有する計算機で音声の認識を行う音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第1の音声データから第1の音声特徴量を算出する第1のステップと、
前記計算機が、認識対象外の話者の音声データから話者の特性を表す話者特徴量を算出する第2のステップと、
前記計算機が、前記第1の音声特徴量と前記話者特徴量に基づいて音響モデルを学習する第3のステップと、
を含むことを特徴とする音声認識方法。
上記<9>に記載の音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出する第4のステップと、
前記計算機が、前記音響モデルを用いて前記第2の音声特徴量と前記話者特徴量に基づいて音声認識を実施する第5のステップと、
をさらに含むことを特徴とする音声認識方法。
2 メモリ
3 ストレージ装置
10 前処理部
20 特徴量算出部
25 話者特徴量算出部
30 学習部
31 学習用音声データ
32 認識用音声データ
33 音響モデル
34 言語モデル
40 認識部
50 ニューラルネットワーク
60 サブネットワーク
100 音声認識装置
Claims (8)
- プロセッサとメモリを有する音声認識装置であって、
複数の話者の音声が混合された第1の音声データから第1の音声特徴量を算出する音声特徴量算出部と、
前記第1の音声データに含まれる各音声の書き起こしデータおよび各音声の発話の順序を格納した発話順序情報と、
前記第1の音声特徴量と前記発話順序情報に基づいて音響モデルを学習する学習部と、
を有することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記音声特徴量算出部に複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出させ、発話の順序を受け付けて、前記音響モデルを用いて前記第2の音声特徴量と前記発話の順序に基づいて音声認識を実施する認識部を、さらに有することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記音声特徴量算出部に複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出させ、前記音響モデルを用いて前記第2の音声特徴量に対して音声認識を実施して前記発話の順序毎に音声認識結果を算出し、当該音声認識結果が算出されなくなるまで前記音声認識を実施する認識部を、さらに有することを特徴とする音声認識装置。 - プロセッサとメモリを有する計算機で音声の認識を行う音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第1の音声データから第1の音声特徴量を算出する第1のステップと、
前記計算機が、前記第1の音声データに含まれる各音声の書き起こしデータおよび各音声の発話の順序を格納した発話順序情報を取得する第2のステップと、
前記計算機が、前記第1の音声特徴量と前記発話順序情報に基づいて音響モデルを学習する第3のステップと、
を含むことを特徴とする音声認識方法。 - 請求項4に記載の音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出する第4のステップと、
前記計算機が、発話の順序を受け付ける第5のステップと、
前記計算機が、前記音響モデルを用いて前記第2の音声特徴量と前記発話の順序に基づいて音声認識を実施する第6のステップと、
をさらに含むことを特徴とする音声認識方法。 - 請求項4に記載の音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出する第4のステップと、
前記計算機が、前記音響モデルを用いて前記第2の音声特徴量に対して音声認識を実施して前記発話の順序毎に音声認識結果を算出し、当該音声認識結果が算出されなくなるまで前記音声認識を実施する第7のステップと、
をさらに含むことを特徴とする音声認識方法。 - プロセッサとメモリを有する音声認識装置であって、
複数の話者の音声が混合された第1の音声データから第1の音声特徴量を算出する音声特徴量算出部と、
認識対象外の話者の音声データから話者の特性を表す話者特徴量を算出する話者特徴量算出部と、
前記第1の音声特徴量と前記話者特徴量に基づいて音響モデルを学習する学習部と、
を有することを特徴とする音声認識装置。 - 請求項7に記載の音声認識装置であって、
前記話者特徴量算出部は、
前記音声特徴量算出部に複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出させ、さらに前記第2の音声データに含まれる話者のうち認識対象外の話者の発話である第3の音声データから話者の特性を表す第2の話者特徴量を算出し、
前記音響モデルを用いて前記第2の音声特徴量と前記第2の話者特徴量に基づいて音声認識を実施する認識部を、さらに有することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018136203A JP6985221B2 (ja) | 2018-07-19 | 2018-07-19 | 音声認識装置及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018136203A JP6985221B2 (ja) | 2018-07-19 | 2018-07-19 | 音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020013034A true JP2020013034A (ja) | 2020-01-23 |
JP6985221B2 JP6985221B2 (ja) | 2021-12-22 |
Family
ID=69169243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018136203A Active JP6985221B2 (ja) | 2018-07-19 | 2018-07-19 | 音声認識装置及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6985221B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020134567A (ja) * | 2019-02-13 | 2020-08-31 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
JP2021507312A (ja) * | 2018-04-13 | 2021-02-22 | 三菱電機株式会社 | 音声認識システム及び音声認識システムを用いる方法 |
JP2021128332A (ja) * | 2020-02-13 | 2021-09-02 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声チップおよび電子機器 |
WO2022145015A1 (ja) * | 2020-12-28 | 2022-07-07 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017515140A (ja) * | 2014-03-24 | 2017-06-08 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 混合音声認識 |
-
2018
- 2018-07-19 JP JP2018136203A patent/JP6985221B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017515140A (ja) * | 2014-03-24 | 2017-06-08 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 混合音声認識 |
Non-Patent Citations (1)
Title |
---|
SEKI ET AL.: "A Purely End-to-end System for Multi-speaker Speech Recognition", ARXIV:1805.05826V1, JPN6021038008, 15 May 2018 (2018-05-15), ISSN: 0004607549 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021507312A (ja) * | 2018-04-13 | 2021-02-22 | 三菱電機株式会社 | 音声認識システム及び音声認識システムを用いる方法 |
JP2020134567A (ja) * | 2019-02-13 | 2020-08-31 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
JP7112348B2 (ja) | 2019-02-13 | 2022-08-03 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
JP2021128332A (ja) * | 2020-02-13 | 2021-09-02 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声チップおよび電子機器 |
US11735179B2 (en) | 2020-02-13 | 2023-08-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech chip and electronic device |
JP7471213B2 (ja) | 2020-02-13 | 2024-04-19 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | 音声チップおよび電子機器 |
WO2022145015A1 (ja) * | 2020-12-28 | 2022-07-07 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6985221B2 (ja) | 2021-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3078020B1 (en) | Method and apparatus for speech recognition using neural networks with speaker adaptation | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
US8612224B2 (en) | Speech processing system and method | |
US8731928B2 (en) | Speaker adaptation of vocabulary for speech recognition | |
Ashraf et al. | Speaker independent Urdu speech recognition using HMM | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
WO2014183373A1 (en) | Systems and methods for voice identification | |
US11341954B2 (en) | Training keyword spotters | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
JP2002062891A (ja) | 音素割当て方法 | |
KR20210036169A (ko) | 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법 | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP3837061B2 (ja) | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 | |
Dharmale et al. | Implementation of efficient speech recognition system on mobile device for Hindi and English language | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
JP7222828B2 (ja) | 音声認識装置、音声認識方法及び記憶媒体 | |
KR20180124226A (ko) | 음성인식 작동 시스템 및 방법 | |
Wolf et al. | Channel selection using n-best hypothesis for multi-microphone ASR. | |
Zwyssig | Speech processing using digital MEMS microphones | |
Dharmale et al. | Implementation of Efficient Speech Recognition System on Mobile Device for Hindi and English | |
Kleynhans et al. | Acoustic model optimisation for a call routing system | |
Kokkinidis et al. | Finding the optimum training solution for Byzantine music recognition—A Max/Msp approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6985221 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |