JP6985221B2 - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP6985221B2 JP6985221B2 JP2018136203A JP2018136203A JP6985221B2 JP 6985221 B2 JP6985221 B2 JP 6985221B2 JP 2018136203 A JP2018136203 A JP 2018136203A JP 2018136203 A JP2018136203 A JP 2018136203A JP 6985221 B2 JP6985221 B2 JP 6985221B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- feature amount
- recognition
- utterance
- speakers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
特許請求の範囲に記載した以外の本発明の観点の代表的なものとして、次のものがあげ
られる。
プロセッサとメモリを有する計算機で音声の認識を行う音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第1の音声データから第1の音声特徴量を算出する第1のステップと、
前記計算機が、認識対象外の話者の音声データから話者の特性を表す話者特徴量を算出する第2のステップと、
前記計算機が、前記第1の音声特徴量と前記話者特徴量に基づいて音響モデルを学習する第3のステップと、
を含むことを特徴とする音声認識方法。
上記<9>に記載の音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出する第4のステップと、
前記計算機が、前記音響モデルを用いて前記第2の音声特徴量と前記話者特徴量に基づいて音声認識を実施する第5のステップと、
をさらに含むことを特徴とする音声認識方法。
2 メモリ
3 ストレージ装置
10 前処理部
20 特徴量算出部
25 話者特徴量算出部
30 学習部
31 学習用音声データ
32 認識用音声データ
33 音響モデル
34 言語モデル
40 認識部
50 ニューラルネットワーク
60 サブネットワーク
100 音声認識装置
Claims (6)
- プロセッサとメモリを有する音声認識装置であって、
複数の話者の音声が混合された第1の音声データから第1の音声特徴量を算出する音声特徴量算出部と、
前記第1の音声データに含まれる各音声の書き起こしデータおよび各音声の発話の順序を格納した発話順序情報と、
前記第1の音声特徴量と前記発話順序情報に基づいて音響モデルを学習する学習部と、
を有することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記音声特徴量算出部に複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出させ、発話の順序を受け付けて、前記音響モデルを用いて前記第2の音声特徴量と前記発話の順序に基づいて音声認識を実施する認識部を、さらに有することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記音声特徴量算出部に複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出させ、前記音響モデルを用いて前記第2の音声特徴量に対して音声認識を実施して前記発話の順序毎に音声認識結果を算出し、当該音声認識結果が算出されなくなるまで前記音声認識を実施する認識部を、さらに有することを特徴とする音声認識装置。 - プロセッサとメモリを有する計算機で音声の認識を行う音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第1の音声データから第1の音声特徴量を算出する第1のステップと、
前記計算機が、前記第1の音声データに含まれる各音声の書き起こしデータおよび各音声の発話の順序を格納した発話順序情報を取得する第2のステップと、
前記計算機が、前記第1の音声特徴量と前記発話順序情報に基づいて音響モデルを学習する第3のステップと、
を含むことを特徴とする音声認識方法。 - 請求項4に記載の音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出する第4のステップと、
前記計算機が、発話の順序を受け付ける第5のステップと、
前記計算機が、前記音響モデルを用いて前記第2の音声特徴量と前記発話の順序に基づいて音声認識を実施する第6のステップと、
をさらに含むことを特徴とする音声認識方法。 - 請求項4に記載の音声認識方法であって、
前記計算機が、複数の話者の音声が混合された第2の音声データから第2の音声特徴量を算出する第4のステップと、
前記計算機が、前記音響モデルを用いて前記第2の音声特徴量に対して音声認識を実施して前記発話の順序毎に音声認識結果を算出し、当該音声認識結果が算出されなくなるまで前記音声認識を実施する第7のステップと、
をさらに含むことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018136203A JP6985221B2 (ja) | 2018-07-19 | 2018-07-19 | 音声認識装置及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018136203A JP6985221B2 (ja) | 2018-07-19 | 2018-07-19 | 音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020013034A JP2020013034A (ja) | 2020-01-23 |
JP6985221B2 true JP6985221B2 (ja) | 2021-12-22 |
Family
ID=69169243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018136203A Active JP6985221B2 (ja) | 2018-07-19 | 2018-07-19 | 音声認識装置及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6985221B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
JP7112348B2 (ja) * | 2019-02-13 | 2022-08-03 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
CN111292716A (zh) * | 2020-02-13 | 2020-06-16 | 百度在线网络技术(北京)有限公司 | 语音芯片和电子设备 |
JP7517473B2 (ja) * | 2020-12-28 | 2024-07-17 | 日本電信電話株式会社 | 信号処理装置、信号処理方法及び信号処理プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9390712B2 (en) * | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
-
2018
- 2018-07-19 JP JP2018136203A patent/JP6985221B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020013034A (ja) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Žmolíková et al. | Speakerbeam: Speaker aware neural network for target speaker extraction in speech mixtures | |
Haeb-Umbach et al. | Speech processing for digital home assistants: Combining signal processing with deep-learning techniques | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
US8417527B2 (en) | Speaker adaptation of vocabulary for speech recognition | |
JP6980603B2 (ja) | 話者モデル作成システム、認識システム、プログラムおよび制御装置 | |
US20090150146A1 (en) | Microphone array based speech recognition system and target speech extracting method of the system | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
JPH0876788A (ja) | 音声認識における混同しやすい語の検出方法 | |
JP2007500367A (ja) | 音声認識方法およびコミュニケーション機器 | |
Shaikh Naziya et al. | Speech recognition system—a review | |
WO2020044543A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20210036169A (ko) | 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법 | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP3837061B2 (ja) | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 | |
CN112420021A (zh) | 学习方法、说话者识别方法以及记录介质 | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 | |
JP2007133413A (ja) | 話者テンプレート圧縮方法および装置、複数の話者テンプレートをマージする方法および装置、ならびに話者認証 | |
JP7222828B2 (ja) | 音声認識装置、音声認識方法及び記憶媒体 | |
JP7548316B2 (ja) | 音声処理装置、音声処理方法、プログラム、および音声認証システム | |
Wolf et al. | Channel selection using n-best hypothesis for multi-microphone ASR. | |
Joshi et al. | Mfcc-based voice recognition system for home automation using dynamic programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211005 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6985221 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |