JP2005140988A - 音声認識装置及び方法 - Google Patents
音声認識装置及び方法 Download PDFInfo
- Publication number
- JP2005140988A JP2005140988A JP2003377263A JP2003377263A JP2005140988A JP 2005140988 A JP2005140988 A JP 2005140988A JP 2003377263 A JP2003377263 A JP 2003377263A JP 2003377263 A JP2003377263 A JP 2003377263A JP 2005140988 A JP2005140988 A JP 2005140988A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech recognition
- model
- speakers
- speaker model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】 話者モデルを用いて話者の音声認識を行う音声認識装置であって、互いに特徴が異なる複数の下位の話者モデルと、複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを木構造形式で記憶するモデル記憶部103と、音声認識対象である複数の話者について一の話者モデルを選択する話者モデル選択部101と、選択された一の話者モデルを用いて複数の話者の音声認識を行う音声認識部103を備える。
【選択図】 図1
Description
複数の話者モデルを記憶する記憶手段と、
前記記憶手段から音声認識対象である複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行うことを特徴とする。
複数の話者モデルを記憶する記憶手段と、
前記音声認識装置から所定範囲内に位置する前記小型チップに記憶された情報を読み取る読み取り手段と、
読み取られた前記情報から、音声認識対象である話者の話者数を取得する話者数取得手段と、
前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする。
複数の話者モデルをそれぞれの話者についての属性情報と対応付けて記憶する記憶手段と、
音声認識対象である複数の話者の属性情報を取得する属性取得手段と、
前記属性情報に基づいて、話者ごとの話者モデルを前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする。
複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択工程と、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識工程と
を有することを特徴とする。
102 音声認識部
103、803 モデル記憶部
704 話者数取得部
705 IDタグ読み取り部
804 話者属性取得部
805 入力部
Claims (15)
- 話者モデルを用いて話者の音声認識を行う音声認識装置であって、
複数の話者モデルを記憶する記憶手段と、
前記記憶手段から音声認識対象である複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行うことを特徴とする音声認識装置。 - 前記選択手段が、前記記憶手段から音声認識対象である複数の話者のそれぞれについて話者モデルを選択し、選択された複数の話者モデルに基づいて前記一の話者モデルを選択することを特徴とする請求項1に記載の音声認識装置。
- 前記記憶手段が、互いに特徴が異なる複数の下位の話者モデルと、複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを記憶し、
前記選択手段が、音声認識対象である複数の話者のそれぞれについて下位の話者モデルを選択し、選択された複数の下位の話者モデルに共通する特徴を有する上位の話者モデルを前記一の話者モデルとして選択する
ことを特徴とする請求項2に記載の音声認識装置。 - 前記記憶手段が、前記複数の話者モデルを、互いに特徴が異なる複数の下位の話者モデルと、該複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを木構造形式で記憶することを特徴とする請求項3に記載の音声認識装置。
- 音声認識の対象となる話者の話者数を判定する判定手段をさらに備え、
前記記憶手段が、特定話者を対象としない話者モデルとして不特定話者モデルを記憶し、
前記選択手段は、前記判定手段によって音声認識の対象が複数の話者であると判定された場合、前記記憶手段から前記不特定話者モデルを選択する
ことを特徴とする請求項1に記載の音声認識装置。 - 前記記憶手段が、該記憶手段に記憶されているすべての話者モデルの最上位の話者モデルとして前記不特定話者モデルを記憶することを特徴とする請求項5に記載の音声認識装置。
- 前記記憶手段に記憶されている全ての話者モデルについて、音声認識対象である複数の話者ごとに各話者の発声に対する音声認識結果値の総和を計算する計算手段をさらに備え、
前記選択手段は、前記計算手段により計算された前記認識結果値の総和が最大の話者モデルを前記記憶手段から選択する
ことを特徴とする請求項1に記載の音声認識装置。 - 所定の情報が記憶され無線通信機能を備えた小型チップを所持する話者の音声認識を話者モデルを用いて行う音声認識装置であって、
複数の話者モデルを記憶する記憶手段と、
前記音声認識装置から所定範囲内に位置する前記小型チップに記憶された情報を読み取る読み取り手段と、
読み取られた前記情報から、音声認識対象である話者の話者数を取得する話者数取得手段と、
前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする音声認識装置。 - 話者モデルを用いて話者の音声認識を行う音声認識装置であって、
複数の話者モデルをそれぞれの話者についての属性情報と対応付けて記憶する記憶手段と、
音声認識対象である複数の話者の属性情報を取得する属性取得手段と、
前記属性情報に基づいて、話者ごとの話者モデルを前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする音声認識装置。 - 前記音声認識装置から所定範囲内に位置する音声認識対象である話者が所持する、無線通信機能を備えた小型チップに記憶された所定の情報を読み取る読み取り手段をさらに備え、
前記属性取得手段が、読み取られた前記小型チップに記憶された情報から、音声認識対象となる話者の属性情報を取得する
ことを特徴とする請求項9に記載の音声認識装置。 - 前記属性取得手段が、前記属性情報として、話者ID、性別、年齢、母国語、又は出身地の少なくとも1つ以上を取得することを特徴とする請求項9又は10に記載の音声認識装置。
- 前記選択手段が、前記属性取得手段が取得した複数の話者の属性情報のうち共通する属性情報に対応付けられている話者モデルを前記記憶手段から選択する
ことを特徴とする請求項9から11までのいずれか1項に記載の音声認識装置。 - 話者モデルを用いて話者の音声認識を行う音声認識方法であって、
複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択工程と、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識工程と
を有することを特徴とする音声認識方法。 - 話者モデルを用いて話者の音声認識を行うコンピュータに、
複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択手順と、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識手順と
を実行させるためのプログラム。 - 請求項14に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003377263A JP3840221B2 (ja) | 2003-11-06 | 2003-11-06 | 音声認識装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003377263A JP3840221B2 (ja) | 2003-11-06 | 2003-11-06 | 音声認識装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005140988A true JP2005140988A (ja) | 2005-06-02 |
JP3840221B2 JP3840221B2 (ja) | 2006-11-01 |
Family
ID=34688047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003377263A Expired - Fee Related JP3840221B2 (ja) | 2003-11-06 | 2003-11-06 | 音声認識装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3840221B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010032865A (ja) * | 2008-07-30 | 2010-02-12 | Kddi Corp | 音声認識装置、音声認識システムおよびプログラム |
WO2011007497A1 (ja) * | 2009-07-16 | 2011-01-20 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
WO2011040056A1 (ja) * | 2009-10-02 | 2011-04-07 | 独立行政法人情報通信研究機構 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
US8108212B2 (en) | 2007-03-13 | 2012-01-31 | Nec Corporation | Speech recognition method, speech recognition system, and server thereof |
WO2018216511A1 (ja) * | 2017-05-25 | 2018-11-29 | 日本電信電話株式会社 | 属性識別装置、属性識別方法、プログラム |
JP2020064630A (ja) * | 2019-10-11 | 2020-04-23 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
JP2020064370A (ja) * | 2018-10-15 | 2020-04-23 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
JP2022113569A (ja) * | 2021-01-25 | 2022-08-04 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | スマートスピーカー、処理方法及び処理プログラム |
-
2003
- 2003-11-06 JP JP2003377263A patent/JP3840221B2/ja not_active Expired - Fee Related
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8108212B2 (en) | 2007-03-13 | 2012-01-31 | Nec Corporation | Speech recognition method, speech recognition system, and server thereof |
JP2010032865A (ja) * | 2008-07-30 | 2010-02-12 | Kddi Corp | 音声認識装置、音声認識システムおよびプログラム |
WO2011007497A1 (ja) * | 2009-07-16 | 2011-01-20 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
JP5704071B2 (ja) * | 2009-07-16 | 2015-04-22 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
US8954327B2 (en) | 2009-07-16 | 2015-02-10 | Nec Corporation | Voice data analyzing device, voice data analyzing method, and voice data analyzing program |
KR20120086287A (ko) * | 2009-10-02 | 2012-08-02 | 독립행정법인정보통신연구기구 | 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치 |
CN103345467A (zh) * | 2009-10-02 | 2013-10-09 | 独立行政法人情报通信研究机构 | 语音翻译系统 |
JP5598998B2 (ja) * | 2009-10-02 | 2014-10-01 | 独立行政法人情報通信研究機構 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
US8862478B2 (en) | 2009-10-02 | 2014-10-14 | National Institute Of Information And Communications Technology | Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server |
CN102549653A (zh) * | 2009-10-02 | 2012-07-04 | 独立行政法人情报通信研究机构 | 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置 |
WO2011040056A1 (ja) * | 2009-10-02 | 2011-04-07 | 独立行政法人情報通信研究機構 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
KR101683943B1 (ko) * | 2009-10-02 | 2016-12-07 | 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 | 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치 |
CN103345467B (zh) * | 2009-10-02 | 2017-06-09 | 独立行政法人情报通信研究机构 | 语音翻译系统 |
JPWO2018216511A1 (ja) * | 2017-05-25 | 2020-02-27 | 日本電信電話株式会社 | 属性識別装置、属性識別方法、プログラム |
WO2018216511A1 (ja) * | 2017-05-25 | 2018-11-29 | 日本電信電話株式会社 | 属性識別装置、属性識別方法、プログラム |
US11133012B2 (en) * | 2017-05-25 | 2021-09-28 | Nippon Telegraph And Telephone Corporation | Attribute identification device, attribute identification method, and program |
US20210383812A1 (en) * | 2017-05-25 | 2021-12-09 | Nippon Telegraph And Telephone Corporation | Attribute identification method, and program |
US11756554B2 (en) | 2017-05-25 | 2023-09-12 | Nippon Telegraph And Telephone Corporation | Attribute identification method, and program |
JP2020064370A (ja) * | 2018-10-15 | 2020-04-23 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
JP2020064630A (ja) * | 2019-10-11 | 2020-04-23 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
JP7229144B2 (ja) | 2019-10-11 | 2023-02-27 | 株式会社野村総合研究所 | 文章記号挿入装置及びその方法 |
JP2022113569A (ja) * | 2021-01-25 | 2022-08-04 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | スマートスピーカー、処理方法及び処理プログラム |
JP7134269B2 (ja) | 2021-01-25 | 2022-09-09 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | スマートスピーカー、処理方法及び処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3840221B2 (ja) | 2006-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977452B2 (en) | Multi-lingual virtual personal assistant | |
CN101124623B (zh) | 语音认证系统及语音认证方法 | |
US7787697B2 (en) | Identification of an object in media and of related media objects | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
JP6171544B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JPS63223965A (ja) | 知的ワ−クステ−シヨン | |
JP2005234572A (ja) | 談話機能に対する予測モデルを判定する方法およびシステム | |
JP6866715B2 (ja) | 情報処理装置、感情認識方法、及び、プログラム | |
CN110136689B (zh) | 基于迁移学习的歌声合成方法、装置及存储介质 | |
KR20160030168A (ko) | 음성 인식 방법, 장치 및 시스템 | |
US11881209B2 (en) | Electronic device and control method | |
WO2020098523A1 (zh) | 一种语音识别方法、装置及计算设备 | |
JP3840221B2 (ja) | 音声認識装置及び方法 | |
KR102110393B1 (ko) | 감정 인식 방법 및 프로그램과, 감정 인식기 생성 방법 및 프로그램 | |
CN110570843B (zh) | 一种用户语音识别方法和装置 | |
JP4244423B2 (ja) | 適正単語列推定装置 | |
JP6910987B2 (ja) | 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム | |
JP4254753B2 (ja) | 話者認識方法 | |
KR101987644B1 (ko) | 낭독 효과 제공시스템 | |
JP4685712B2 (ja) | 話者顔画像決定方法及び装置及びプログラム | |
JP2006185342A (ja) | 情報処理装置および文字列分類方法およびプログラムおよび記録媒体 | |
US11922538B2 (en) | Apparatus for generating emojis, vehicle, and method for generating emojis | |
US20240193920A1 (en) | Method for predicting user personality by mapping multimodal information on personality expression space | |
JP2005018442A (ja) | 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体 | |
KR20130137367A (ko) | 이미지 기반 도서 관련 서비스 제공 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051219 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060718 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060804 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090811 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100811 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110811 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120811 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120811 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130811 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |