JP2010170075A - 情報処理装置、プログラム、および音響モデルを生成する方法 - Google Patents
情報処理装置、プログラム、および音響モデルを生成する方法 Download PDFInfo
- Publication number
- JP2010170075A JP2010170075A JP2009165595A JP2009165595A JP2010170075A JP 2010170075 A JP2010170075 A JP 2010170075A JP 2009165595 A JP2009165595 A JP 2009165595A JP 2009165595 A JP2009165595 A JP 2009165595A JP 2010170075 A JP2010170075 A JP 2010170075A
- Authority
- JP
- Japan
- Prior art keywords
- data set
- audio data
- acoustic model
- voice
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
【解決手段】情報処理装置30は、不特定多数話者の音声データセット242内の各音声データについて、低認識率話者の音声データセット222における平均的な声に対する類似度S0を求める類似度算出部110と、類似度が選択範囲内となる音声データを選択音声データセット232に保存する音声データ選択部112と、音声データセットと選択音声データセットに保存されている音声データとを用いて、音響モデル330を生成する音響モデル生成部と、を具えている。
【選択図】図2
Description
F(A1,A2)=0.8×A1+0.2×A2
R=Sd_av/Smax ×Rmax
ここで、認識スコア差分Smaxは認識スコア差Sdの平均値Sd_avの推定最大値であり、最大混合率Rmaxは混合率Rの最大値である。混合率決定部324によって使用されるこれらのおよびその他のデータおよびパラメータは、メモリ40に格納されていてもよい。
R=(1−C/Cmax)×Rmax
ここで、選択音声データセット232の最大数Cmaxは選択音声データセット232のデータ数Cの推定最大値であり、混合率の最大値Rmaxは混合率Rの最大値である。
R=(Sd_av/Smax×Rmax+(1−C/Cmax)×Rmax)/2
Rmax=1−(100−r)/s/100
と決定する。ここで、sは調整係数である。
混合率最小値Rmin=1/(Nt+1)
と設定してもよい。
R’=R+(Rmax−R)×(At−A)/α
ここで、Rmaxは混合率Rの最大値であり、認識率Atは認識率Aの目標認識率%、αは調整係数である。
例えば、混合率最大値Rmax=0.3、混合率R=0.1、調整係数α=500、目標認識率At=90%、認識率A=70%の場合、R’=0.108となる。
R’=R−(R/β)×(Dmax−Dt)
ここで、Dmaxは、モデル評価部332における話者別の音声データの認識率Dの低下の最大値[%]、Dtは認識率Dの低下の許容値[%]であり、βは調整係数(例、500)である。
例えば、混合率R=0.2、調整係数β=100、Dmax=10%、Dt=2%の場合、R’=0.184となる。
(付記1) 低認識率話者が発声した音声データを格納する第1の音声データセットと、
不特定多数話者の発声した音声データを格納する第2の音声データセットと、
前記第2の音声データセットの音声データに追加される音声データを格納する第3の音声データセットと、
前記第2の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存する音声データ選択部と、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。
(付記2) 低認識率話者が発声した音声データを格納する第1の音声データセットと、
不特定多数話者の発声した音声データを格納する第2の音声データセットと、
前記第2の音声データセットの音声データに混合される候補となる音声データを格納する第4の音声データセットと、
前記第4の音声データセットから取り出され前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、
前記第4の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存する音声データ選択部と、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。
(付記3) 前記類似度算出部は、前記第4の音声データセット内の各音声データについて、前記類似度を第1の類似度として求め、前記第2の音声データセットにおける平均的な声に対する第2の類似度を求め、
前記音声データ選択部は、前記第1の類似度と前記第2の類似度の差が選択範囲内となる音声データを前記選択音声データとして前記第3の音声データセットに保存するものであることを特徴とする、付記2に記載の情報処理装置。
(付記4) 前記情報処理装置は、さらに、前記第2の音声データセットを用いて生成された第2の音響モデルと、前記第2の音響モデルを前記第1の音声データセットに対して適応処理して前記低認識率話者用の第3の音響モデルを生成するモデル適応部とを具え、
前記類似度算出部は、前記第3の音響モデルおよび前記第2の音響モデルを用いて前記第2の音声データセット中の各音声データを音声認識してそれぞれの認識スコアを前記第1と第2の類似度として求める音声認識部を含むものであることを特徴とする、付記3に記載の情報処理装置。
(付記5) 前記情報処理装置は、さらに、前記第2の音声データセットの音声データと前記第3の音声データセットの音声データとを混合率に従って混合して第5の音声データセットを生成する混合音声データセット生成部を具え、
前記音響モデル生成部は、前記第5の音声データセットを用いて前記第1の音響モデルを生成するものであることを特徴とする、付記1乃至4のいずれかに記載の情報処理装置。
(付記6) さらに、前記第1の音響モデルを用いた評価用の第6の音声データセットおよび前記第1の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部を具えることを特徴とする、付記5に記載の情報処理装置。
(付記7) 前記混合率の値を調整しても前記第1の音響モデルが閾値レベル以上改善されないかまたは前記第1の音響モデルの生成の開始から所定時間が経過した場合には、現在の前記第1の音響モデルを最終的な音響モデルとして決定することを特徴とする、付記5または6に記載の情報処理装置。
(付記8) 前記情報処理装置は、さらに、前記第2の音声データセットの音声データと前記第3の音声データセットの音声データとを混合率に従って混合して第5の音声データセットを生成する混合音声データセット生成部と、前記第1の音響モデルを用いた評価用の第6の音声データセットおよび前記第1の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部と、を具え、
前記混合率決定部は、前記第1の類似度と前記第2の類似度の差の平均値の大きさに応じて前記混合率の値を算出し、
前記音響モデル生成部は、前記第5の音声データセットを用いて前記第1の音響モデルを生成するものであることを特徴とする、付記3または4に記載の情報処理装置。
(付記9) 前記混合率決定部は、前記第3の音声データセットのデータ数に応じて前記混合率の値を算出するものであることを特徴とする、付記6乃至8のいずれかに記載の情報処理装置。
(付記10) 前記情報処理装置は、さらに、前記第2の音声データセットを用いて生成された第2の音響モデルと、前記第2の音響モデルを前記第1の音声データセットに対して周波数スペクトルに関して適応処理して前記低認識率話者用の第3の音響モデルを生成するモデル適応部とを具え、
前記類似度算出部は、前記第3の音響モデルを用いて前記第4の音声データセット中の各音声データを音声認識してその認識スコアを前記類似度として求める音声認識部を含むものであることを特徴とする、付記4に記載の情報処理装置。
(付記11) プロセッサとメモリとを有する情報処理装置に用いられるプログラムであって、
前記メモリには、低認識率話者が発声した音声データを格納する第1の音声データセットと、不特定多数話者の発声した音声データを格納する第2の音声データセットと、前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、が記憶されており、
前記第2の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求めるステップと、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存するステップと、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、音響モデルを生成するステップと、
を前記プロセッサに実行させるためのプログラム。
100 音声選択部
102 既存音響モデル
104 モデル適応部
106 低認識率話者音響モデル
110 類似度算出部
112 データ選択部
222 低認識率話者音声データセット
232 選択音声データセット
242 学習用音声データセット
300 最適モデル生成部
322 混合音声データセット生成部
324 混合率決定部
326 混合音声データセット
328 音響モデル生成部
330 音響モデル
332 モデル評価部
334 モデル出力部
422 最適な音響モデル
424 評価用音声データセット
Claims (10)
- 低認識率話者が発声した音声データを格納する第1の音声データセットと、
不特定多数話者の発声した音声データを格納する第2の音声データセットと、
前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、
前記第2の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存する音声データ選択部と、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。 - 低認識率話者が発声した音声データを格納する第1の音声データセットと、
不特定多数話者の発声した音声データを格納する第2の音声データセットと、
前記第2の音声データセットの音声データに混合される候補となる音声データを格納する第4の音声データセットと、
前記第4の音声データセットから取り出され前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、
前記第4の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存する音声データ選択部と、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。 - 前記類似度算出部は、前記第4の音声データセット内の各音声データについて、前記類似度を第1の類似度として求め、前記第2の音声データセットにおける平均的な声に対する第2の類似度を求め、
前記音声データ選択部は、前記第1の類似度と前記第2の類似度の差が選択範囲内となる音声データを前記選択音声データとして前記第3の音声データセットに保存するものであることを特徴とする、請求項2に記載の情報処理装置。 - 前記情報処理装置は、さらに、前記第2の音声データセットを用いて生成された第2の音響モデルと、前記第2の音響モデルを前記第1の音声データセットに対して適応処理して前記低認識率話者用の第3の音響モデルを生成するモデル適応部とを具え、
前記類似度算出部は、前記第3の音響モデルおよび前記第2の音響モデルを用いて前記第2の音声データセット中の各音声データを音声認識してそれぞれの認識スコアを前記第1と第2の類似度として求める音声認識部を含むものであることを特徴とする、請求項2に記載の情報処理装置。 - 前記情報処理装置は、さらに、前記第2の音声データセットの音声データと前記第3の音声データセットの音声データとを混合率に従って混合して第5の音声データセットを生成する混合音声データセット生成部を具え、
前記音響モデル生成部は、前記第5の音声データセットを用いて前記第1の音響モデルを生成するものであることを特徴とする、請求項1乃至4のいずれかに記載の情報処理装置。 - さらに、前記第1の音響モデルを用いた評価用の第6の音声データセットおよび前記第1の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部を具えることを特徴とする、請求項5に記載の情報処理装置。
- 前記混合率の値を調整しても前記第1の音響モデルが閾値レベル以上改善されないかまたは前記第1の音響モデルの生成の開始から所定時間が経過した場合には、現在の前記第1の音響モデルを最終的な音響モデルとして決定することを特徴とする、請求項5または6に記載の情報処理装置。
- 前記情報処理装置は、さらに、前記第2の音声データセットの音声データと前記第3の音声データセットの音声データとを混合率に従って混合して第5の音声データセットを生成する混合音声データセット生成部と、前記第1の音響モデルを用いた評価用の第6の音声データセットおよび前記第1の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部と、を具え、
前記混合率決定部は、前記第1の類似度と前記第2の類似度の差の平均値の大きさに応じて前記混合率の値を算出し、
前記音響モデル生成部は、前記第5の音声データセットを用いて前記第1の音響モデルを生成するものであることを特徴とする、請求項3または4に記載の情報処理装置。 - 前記混合率決定部は、前記第3の音声データセットのデータ数に応じて前記混合率の値を算出するものであることを特徴とする、請求項6乃至8のいずれかに記載の情報処理装置。
- プロセッサとメモリとを有する情報処理装置に用いられるプログラムであって、
前記メモリには、低認識率話者が発声した音声データを格納する第1の音声データセットと、不特定多数話者の発声した音声データを格納する第2の音声データセットと、前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、が記憶されており、
前記第2の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求めるステップと、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存するステップと、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、音響モデルを生成するステップと、
を前記プロセッサに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009165595A JP5326892B2 (ja) | 2008-12-26 | 2009-07-14 | 情報処理装置、プログラム、および音響モデルを生成する方法 |
US12/645,476 US8290773B2 (en) | 2008-12-26 | 2009-12-22 | Information processing apparatus, method and recording medium for generating acoustic model |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008332090 | 2008-12-26 | ||
JP2008332090 | 2008-12-26 | ||
JP2009165595A JP5326892B2 (ja) | 2008-12-26 | 2009-07-14 | 情報処理装置、プログラム、および音響モデルを生成する方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010170075A true JP2010170075A (ja) | 2010-08-05 |
JP5326892B2 JP5326892B2 (ja) | 2013-10-30 |
Family
ID=42285986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009165595A Active JP5326892B2 (ja) | 2008-12-26 | 2009-07-14 | 情報処理装置、プログラム、および音響モデルを生成する方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8290773B2 (ja) |
JP (1) | JP5326892B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013083798A (ja) * | 2011-10-11 | 2013-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置、音響モデル適応方法、およびプログラム |
JP2014157323A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
JP2014228580A (ja) * | 2013-05-20 | 2014-12-08 | 日本電信電話株式会社 | 音声モデル生成装置、方法、プログラム |
Families Citing this family (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
KR101791907B1 (ko) * | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
KR101961139B1 (ko) * | 2012-06-28 | 2019-03-25 | 엘지전자 주식회사 | 이동 단말기 및 그것의 음성 인식 방법 |
US9495955B1 (en) * | 2013-01-02 | 2016-11-15 | Amazon Technologies, Inc. | Acoustic model training |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) * | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
JP6556575B2 (ja) * | 2015-09-15 | 2019-08-07 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11107461B2 (en) | 2016-06-01 | 2021-08-31 | Massachusetts Institute Of Technology | Low-power automatic speech recognition device |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
EP3553773B1 (en) * | 2018-04-12 | 2020-06-03 | Spotify AB | Training and testing utterance-based frameworks |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
KR102637339B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR102206181B1 (ko) * | 2018-12-19 | 2021-01-22 | 엘지전자 주식회사 | 단말기 및 그의 동작 방법 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US10997967B2 (en) * | 2019-04-18 | 2021-05-04 | Honeywell International Inc. | Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
KR102281590B1 (ko) * | 2019-07-31 | 2021-07-29 | 엘지전자 주식회사 | 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
JP7314079B2 (ja) * | 2020-02-21 | 2023-07-25 | 株式会社東芝 | データ生成装置、データ生成方法およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01161399A (ja) * | 1987-12-18 | 1989-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置における話者適応化方法 |
JP2000099078A (ja) * | 1998-09-24 | 2000-04-07 | Nec Corp | 標準パターン学習装置 |
JP2001013986A (ja) * | 1999-06-29 | 2001-01-19 | Nec Corp | 音声認識用音響モデルの話者適応装置及び方法 |
JP2002358093A (ja) * | 2001-05-31 | 2002-12-13 | Matsushita Electric Ind Co Ltd | 音声認識方法及び音声認識装置及びその記憶媒体 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737487A (en) * | 1996-02-13 | 1998-04-07 | Apple Computer, Inc. | Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
US6253181B1 (en) * | 1999-01-22 | 2001-06-26 | Matsushita Electric Industrial Co., Ltd. | Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
US6917918B2 (en) * | 2000-12-22 | 2005-07-12 | Microsoft Corporation | Method and system for frame alignment and unsupervised adaptation of acoustic models |
EP1239459A1 (en) * | 2001-03-07 | 2002-09-11 | Sony International (Europe) GmbH | Adaptation of a speech recognizer to a non native speaker pronunciation |
JP3876703B2 (ja) | 2001-12-12 | 2007-02-07 | 松下電器産業株式会社 | 音声認識のための話者学習装置及び方法 |
JP2003255980A (ja) | 2002-03-04 | 2003-09-10 | Sharp Corp | 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体 |
US7315811B2 (en) * | 2003-12-31 | 2008-01-01 | Dictaphone Corporation | System and method for accented modification of a language model |
JP5230103B2 (ja) * | 2004-02-18 | 2013-07-10 | ニュアンス コミュニケーションズ,インコーポレイテッド | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム |
JP2005283646A (ja) | 2004-03-26 | 2005-10-13 | Matsushita Electric Ind Co Ltd | 音声認識率推定装置 |
DE602004023134D1 (de) * | 2004-07-22 | 2009-10-22 | France Telecom | Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist |
KR100815115B1 (ko) * | 2006-03-31 | 2008-03-20 | 광주과학기술원 | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
-
2009
- 2009-07-14 JP JP2009165595A patent/JP5326892B2/ja active Active
- 2009-12-22 US US12/645,476 patent/US8290773B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01161399A (ja) * | 1987-12-18 | 1989-06-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置における話者適応化方法 |
JP2000099078A (ja) * | 1998-09-24 | 2000-04-07 | Nec Corp | 標準パターン学習装置 |
JP2001013986A (ja) * | 1999-06-29 | 2001-01-19 | Nec Corp | 音声認識用音響モデルの話者適応装置及び方法 |
JP2002358093A (ja) * | 2001-05-31 | 2002-12-13 | Matsushita Electric Ind Co Ltd | 音声認識方法及び音声認識装置及びその記憶媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013083798A (ja) * | 2011-10-11 | 2013-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル適応装置、音響モデル適応方法、およびプログラム |
JP2014157323A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
JP2014228580A (ja) * | 2013-05-20 | 2014-12-08 | 日本電信電話株式会社 | 音声モデル生成装置、方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20100169093A1 (en) | 2010-07-01 |
JP5326892B2 (ja) | 2013-10-30 |
US8290773B2 (en) | 2012-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5326892B2 (ja) | 情報処理装置、プログラム、および音響モデルを生成する方法 | |
JP4274962B2 (ja) | 音声認識システム | |
US9043213B2 (en) | Speech recognition and synthesis utilizing context dependent acoustic models containing decision trees | |
US9099082B2 (en) | Apparatus for correcting error in speech recognition | |
US7590537B2 (en) | Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition | |
US8301445B2 (en) | Speech recognition based on a multilingual acoustic model | |
JP5459680B2 (ja) | 音声処理システム及び方法 | |
US20060129392A1 (en) | Method for extracting feature vectors for speech recognition | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
US7574359B2 (en) | Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JPWO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
US8078462B2 (en) | Apparatus for creating speaker model, and computer program product | |
Herbig et al. | Self-learning speaker identification for enhanced speech recognition | |
Yamagishi et al. | HSMM-based model adaptation algorithms for average-voice-based speech synthesis | |
JP2008176202A (ja) | 音声認識装置及び音声認識プログラム | |
Sainath et al. | An exploration of large vocabulary tools for small vocabulary phonetic recognition | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
US8909518B2 (en) | Frequency axis warping factor estimation apparatus, system, method and program | |
Furui | Generalization problem in ASR acoustic model training and adaptation | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
Shahnawazuddin et al. | A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models | |
Deng et al. | Speech Recognition | |
Suzuki et al. | Discriminative re-ranking for automatic speech recognition by leveraging invariant structures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120405 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130708 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5326892 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |