JP7040449B2 - 音声処理装置、情報処理装置、音声処理方法および情報処理方法 - Google Patents
音声処理装置、情報処理装置、音声処理方法および情報処理方法 Download PDFInfo
- Publication number
- JP7040449B2 JP7040449B2 JP2018538027A JP2018538027A JP7040449B2 JP 7040449 B2 JP7040449 B2 JP 7040449B2 JP 2018538027 A JP2018538027 A JP 2018538027A JP 2018538027 A JP2018538027 A JP 2018538027A JP 7040449 B2 JP7040449 B2 JP 7040449B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- certainty
- word string
- word
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 18
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000004364 calculation method Methods 0.000 claims description 49
- 238000004891 communication Methods 0.000 claims description 36
- 230000007704 transition Effects 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 51
- 230000006870 function Effects 0.000 description 15
- 238000000034 method Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 8
- 238000013500 data storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
1.音声処理システムの概要
2.音声処理装置およびサーバの構成
3.音声処理部の詳細
4.動作
5.応用例
6.ハードウェア構成
7.むすび
本開示の実施形態は、ユーザが発した音声を機械的に認識する音声処理システムに関する。音声処理システムは、ユーザが発した音声の認識結果に基づき、多様な処理を行い得る。以下、図1を参照し、本開示の実施形態による音声処理システムの概要を説明する。
ここで、音声処理装置20が行う音声認識の概要を説明する。音声処理装置20は、音声データの信号波形から、発話内容の単語列を推定する。この単語列の推定については、下記数式1のように、音響モデルおよび言語モデルを用いて定式化される。なお、数式1においてXは音響特徴量の系列であり、lは単語列であり、単語列lは音声認識が利用する辞書データ内の語彙によって構成される。辞書データ内の語彙が多いほど、より多くの音声を正式に認識することが可能となるが、探索のための処理量が増加する。
しかし、辞書データに含まれる単語列を構成する一部の単語を含む入力音声については、当該単語列を構成する他の単語と入力音声の他の部分が相違しても、入力音声が当該単語列に相当する確信度として閾値を上回る値が算出され得る。例えば、辞書データに現在時刻を確認するための「check the time」が含まれている場合、ジョギングの周回時間を確認するため「check lap time」という発話について、「check the time」との一部重複により閾値を上回る確信度が算出され得る。結果、ユーザは周回時間を確認したいのに、現在時刻がユーザにフィードバックされてしまう。
図4は、本開示の実施形態による音声処理装置20およびサーバ30の機能ブロック図である。
図4に示したように、サーバ30は、通信部324および音声認識部340を備える。通信部324は、音声処理装置20とのインタフェースであり、音声処理装置20から音声データを受信し、音声認識部340による音声データの認識結果を音声処理装置20に送信する。
音声処理装置20は、図4に示したように、収音部220と、動作モード制御部236と、通信部240と、音声処理部250と、を備える。
以上、図4を参照して、音声処理装置20およびサーバ30の全体構成を説明した。続いて、図5~図10を参照し、音声処理装置20に含まれる音声処理部250の機能をより詳細に説明する。
音声分析部252は、収音部220から供給される音声データを処理および分析することにより、入力音声に対応する音響特徴量の系列Xを得る。
辞書データ記憶部254は、複数の単語列の各々について音響データを記憶する。単語列推定部256は、例えば数式1を参照して説明したように、辞書データ記憶部254を参照し、音声分析部252から供給される音響特徴量の系列Xに相当する尤度が最も高い単語列を推定する。以下、単語列推定部256により推定された単語列を最尤単語列とも称する。
確率モデル記憶部258は、音素同士の結合の自然さを表現するn-gram確率を音素の組み合わせごとに記憶する。音素列推定部260は、例えば数式2および数式3を参照して説明したように、確率モデル記憶部258を参照し、音声分析部252から供給される音響特徴量の系列Xに相当する尤度が最も高い音素列を推定する。以下、音素列推定部260により推定された音素列を最尤音素列とも称する。
発話確信度算出部262は、数式4に示したように、最尤単語列と最尤音素列の対数尤度差を、発話内容が最尤単語列に相当する確信度(発話確信度)として算出する。
分割部264は、単語列推定部256により推定された最尤単語列を2以上の要素部分に分割する。そして、分割部264は、各要素部分の開始タイミングおよび終了タイミングを示す情報を部分確信度算出部266に供給する。ここで、図6を参照し、分割部264の処理の具体例を説明する。
部分確信度算出部266は、最尤単語列を構成する要素部分ごとに、各要素部分の内容が入力音声における対応部分の内容に相当する確信度を算出する。例えば、部分確信度算出部266は、各要素部分の尤度と、各要素部分に対応する音素部分の尤度との関係に基づき、要素部分ごとの確信度を算出する。部分確信度算出部266は、このような要素部分ごとの確信度ciの算出を以下の数式5に従って行うことができる。
決定部268は、発話確信度算出部262により算出された発話確信度、および部分確信度算出部266により特定された部分最小確信度に基づき、最尤単語列の扱いを決定する。例えば、決定部268は、発話確信度が閾値th1以上であり、部分最小確信度が閾値th2以上であることに基づき、最尤単語列を音声認識結果として利用することを決定し、発話確信度が閾値th1未満であること、または部分最小確信度が閾値th2未満であることに基づき、最尤単語列を棄却することを決定してもよい。上記の閾値判定により最尤単語列が棄却された場合、決定部268は、ハイブリッドモードにおいてサーバ30から受信されるサーバ認識結果の利用を決定してもよい。このように発話確信度に加えて部分最小確信度を利用する効果を説明する。
以上、音声処理部250が有する機能について説明した。続いて、分割部264による最尤単語列の分割処理の具体例を説明する。
以上、本開示の実施形態による音声処理装置20およびサーバ30の機能を説明した。続いて、図11を参照し、本開示の実施形態による音声処理装置20の動作を整理する。
以上、本開示の実施形態を説明した。続いて、本開示の実施形態の応用例を説明する。応用例は、上述した音声処理部250の機能を利用するアプリケーションの提案に関する。
…
SpeechResult: check the time
TotalScore: 0.6
…
SpeechResult: check the time
TotalScore: 0.6
EachWord: {
Word1: {
SpeechResult: Check
Score: 0.8
StartTime: 0.11
EndTime: 0.56
}
Word2: {
SpeechResult: the time
Score: 0.2
StartTime: 0.56
EndTime: 1.25
}
}
…
SpeechResult: check the time
TotalScore: 0.6
EachWord: {
Word1: {
SpeechResult: Check
Score: 0.8
StartTime: 0.11
EndTime: 0.56
}
Word2: {
SpeechResult: the
Score: 0.1
StartTime: 0.56
EndTime: 0.72
}
Word3: {
SpeechResult: time
Score: 0.7
StartTime: 0.72
EndTime: 1.25
}
}
…
以上、本開示の実施形態を説明した。上述した最尤単語列の推定および確信度の計算などの情報処理は、ソフトウェアと、以下に説明する音声処理装置20のハードウェアとの協働により実現される。
以上説明したように、本開示の実施形態によれば、最尤単語列全体での確信度よりも緻密な、最尤単語列を構成する要素部分ごとの確信度が算出される。従って、発話された入力音声が語彙内音声であったか否かの判定をより高精度に行うことが可能である。
(1)
辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定する単語列推定部と、
前記単語列推定部により推定された単語列を構成する要素部分について、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度を算出する算出部と、
を備える、音声処理装置。
(2)
前記音声処理装置は、前記単語列推定部により推定された単語列を2以上の要素部分に分割する分割部をさらに備え、
前記算出部は、前記2以上の要素部分について前記確信度を算出する、前記(1)に記載の音声処理装置。
(3)
前記分割部は、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、前記単語列を分割する、前記(2)に記載の音声処理装置。
(4)
前記分割部は、前記単語列において、非音声部分を前記非音声部分の継続長さに応じた数の音素を有する単語として扱う、前記(3)に記載の音声処理装置。
(5)
前記音声処理装置は、前記入力音声に相当する音素列を、音素遷移の確率モデルに基づいて推定する音素列推定部をさらに備え、
前記算出部は、前記単語列を構成する要素部分の尤度と、当該要素部分に対応する前記音素列における音素部分の尤度との関係に基づき、前記確信度を算出する、前記(1)~(4)のいずれか一項に記載の音声処理装置。
(6)
前記算出部による前記確信度の算出の結果に基づき、前記単語列推定部により推定された前記単語列の扱いを決定する決定部をさらに備える、前記(1)~(5)のいずれか一項に記載の音声処理装置。
(7)
前記決定部は、前記算出部により算出された1または2以上の確信度のうちで最も小さい確信度が閾値以上であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用し、前記最も小さい確信度が前記閾値未満であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、前記(6)に記載の音声処理装置。
(8)
前記決定部は、前記算出部により算出された1または2以上の確信度のうちで最も小さい確信度が閾値以上であり、かつ、前記単語列の全体での確信度が所定値以上であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用し、
前記最も小さい確信度が前記閾値未満であること、または前記単語列の全体での確信度が所定値未満であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、前記(6)または(7)に記載の音声処理装置。
(9)
前記音声処理装置は、前記入力音声を示す音声データを外部装置に送信し、前記外部装置から前記音声データについての音声認識に基づく情報を受信する通信部をさらに備え、
前記決定部は、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定した場合、前記外部装置から受信された前記音声認識に基づく情報の利用を決定する、前記(6)~(8)のいずれか一項に記載の音声処理装置。
(10)
前記音声処理装置は、前記算出部により算出された確信度が閾値未満である要素部分がある場合、当該要素部分に対応する音声の再発話を誘導する再発話誘導部をさらに備える、前記(1)~(9)のいずれか一項に記載の音声処理装置。
(11)
前記音声処理装置は、前記単語列推定部により推定された単語列を、前記単語列を構成する確信度と共に、前記入力音声に基づいて動作するアプリケーションに出力するインタフェースをさらに備える、前記(1)~(10)のいずれか一項に記載の音声処理装置。
(12)
入力音声の推定により得られた単語列を、前記単語列を構成する要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得する取得部と、
前記取得部により取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定する決定部と、
を備える、情報処理装置。
(13)
前記取得部は、さらに前記入力音声を示す音声データを取得し、
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声データの認識を外部装置に依頼することを決定する、前記(12)に記載の情報処理装置。
(14)
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声の再発話を誘導することを決定する、前記(12)に記載の情報処理装置。
(15)
辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定することと、
推定された単語列を構成する要素部分について、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度をプロセッサにより算出することと、
を含む、音声処理方法。
(16)
入力音声の推定により得られた単語列を、前記単語列を構成する要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得することと、
取得された前記確信度を示す情報に基づき、前記単語列の扱いをプロセッサにより決定することと、
を含む、情報処理方法。
30 サーバ
220 収音部
236 動作モード制御部
240 通信部
250 音声処理部
252 音声分析部
254 辞書データ記憶部
256 単語列推定部
258 確率モデル記憶部
260 音素列推定部
262 発話確信度算出部
264 分割部
266 部分確信度算出部
268 決定部
270 インタフェース
280 アプリケーション部
290 表示部
324 通信部
340 音声認識部
Claims (14)
- 辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定する単語列推定部と、
前記単語列推定部により推定された単語列を、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割する分割部と、
前記2以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度を算出する算出部と、
を備える、音声処理装置。 - 前記分割部は、前記単語列において、非音声部分を前記非音声部分の継続長さに応じた数の音素を有する単語として扱う、請求項1に記載の音声処理装置。
- 前記音声処理装置は、前記入力音声に相当する音素列を、音素遷移の確率モデルに基づいて推定する音素列推定部をさらに備え、
前記算出部は、前記単語列を構成する要素部分の尤度と、当該要素部分に対応する前記音素列における音素部分の尤度との関係に基づき、前記確信度を算出する、請求項1または2に記載の音声処理装置。 - 前記算出部による前記確信度の算出の結果に基づき、前記単語列推定部により推定された前記単語列の扱いを決定する決定部をさらに備える、請求項1~3のいずれか一項に記載の音声処理装置。
- 前記決定部は、前記算出部により算出された1または2以上の確信度のうちで最も小さい確信度が閾値以上であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用し、前記最も小さい確信度が前記閾値未満であることに基づき前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、請求項4に記載の音声処理装置。
- 前記決定部は、前記算出部により算出された1または2以上の確信度のうちで最も小さい確信度が閾値以上であり、かつ、前記単語列の全体での確信度が所定値以上であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用し、
前記最も小さい確信度が前記閾値未満であること、または前記単語列の全体での確信度が所定値未満であることに基づき、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定する、請求項4または5に記載の音声処理装置。 - 前記音声処理装置は、前記入力音声を示す音声データを外部装置に送信し、前記外部装置から前記音声データについての音声認識に基づく情報を受信する通信部をさらに備え、
前記決定部は、前記単語列推定部により推定された前記単語列を音声認識結果として利用しないことを決定した場合、前記外部装置から受信された前記音声認識に基づく情報の利用を決定する、請求項4~6のいずれか一項に記載の音声処理装置。 - 前記音声処理装置は、前記算出部により算出された確信度が閾値未満である要素部分がある場合、当該要素部分に対応する音声の再発話を誘導する再発話誘導部をさらに備える、請求項1~7のいずれか一項に記載の音声処理装置。
- 前記音声処理装置は、前記単語列推定部により推定された単語列を、前記単語列を構成する確信度と共に、前記入力音声に基づいて動作するアプリケーションに出力するインタフェースをさらに備える、請求項1~8のいずれか一項に記載の音声処理装置。
- 入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割された単語列を、前記単語列を構成する前記2以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得する取得部と、
前記取得部により取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定する決定部と、
を備える、情報処理装置。 - 前記取得部は、さらに前記入力音声を示す音声データを取得し、
前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声データの認識を外部装置に依頼することを決定する、請求項10に記載の情報処理装置。 - 前記決定部は、前記確信度が閾値未満であった要素部分に対応する音声の再発話を誘導することを決定する、請求項10に記載の情報処理装置。
- 辞書データに含まれる単語列のうちで、入力音声に相当する単語列を推定することと、
推定された単語列を、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割することと、
前記2以上の要素部分それぞれについて、当該要素部分の内容が前記入力音声における対応部分の内容に相当する確信度をプロセッサにより算出する算出することと、
を含む、音声処理方法。 - 入力音声の推定により得られ、音素数が所定数未満である単語は隣接単語と共に1つの要素部分を構成し、音素数が前記所定数以上である単語は1つの要素部分を構成するように、2以上の要素部分に分割された単語列を、前記単語列を構成する前記2以上の要素部分の内容が前記入力音声における対応部分の内容に相当する確信度と共に取得することと、
取得された前記確信度を示す情報に基づき、前記単語列の扱いを決定することと、
を含む、情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016176188 | 2016-09-09 | ||
JP2016176188 | 2016-09-09 | ||
PCT/JP2017/020220 WO2018047421A1 (ja) | 2016-09-09 | 2017-05-31 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018047421A1 JPWO2018047421A1 (ja) | 2019-06-24 |
JP7040449B2 true JP7040449B2 (ja) | 2022-03-23 |
Family
ID=61562320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018538027A Active JP7040449B2 (ja) | 2016-09-09 | 2017-05-31 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10957322B2 (ja) |
EP (1) | EP3511931A4 (ja) |
JP (1) | JP7040449B2 (ja) |
WO (1) | WO2018047421A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7040449B2 (ja) * | 2016-09-09 | 2022-03-23 | ソニーグループ株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
EP3663935A4 (en) * | 2017-08-01 | 2020-07-01 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
WO2021029642A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
WO2021029643A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
CN114223029A (zh) | 2019-08-13 | 2022-03-22 | 三星电子株式会社 | 支持装置进行语音识别的服务器及服务器的操作方法 |
JP7248564B2 (ja) * | 2019-12-05 | 2023-03-29 | Tvs Regza株式会社 | 情報処理装置及びプログラム |
US20210312901A1 (en) * | 2020-04-02 | 2021-10-07 | Soundhound, Inc. | Automatic learning of entities, words, pronunciations, and parts of speech |
KR20220010259A (ko) * | 2020-07-17 | 2022-01-25 | 삼성전자주식회사 | 음성 신호 처리 방법 및 장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358097A (ja) | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2004046106A (ja) | 2002-05-15 | 2004-02-12 | Pioneer Electronic Corp | 音声認識装置及び音声認識プログラム |
JP2007052307A (ja) | 2005-08-19 | 2007-03-01 | Advanced Telecommunication Research Institute International | 音声認識結果の検査装置及びコンピュータプログラム |
JP2009276495A (ja) | 2008-05-14 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 |
JP2013064777A (ja) | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
JP2014115499A (ja) | 2012-12-11 | 2014-06-26 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6434521B1 (en) * | 1999-06-24 | 2002-08-13 | Speechworks International, Inc. | Automatically determining words for updating in a pronunciation dictionary in a speech recognition system |
JP4543294B2 (ja) * | 2000-03-14 | 2010-09-15 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
JP4259100B2 (ja) | 2002-11-26 | 2009-04-30 | パナソニック株式会社 | 音声認識用未知発話検出装置及び音声認識装置 |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
JP4722700B2 (ja) * | 2005-12-28 | 2011-07-13 | 株式会社コナミデジタルエンタテインメント | チャットシステム、チャット装置及びチャットサーバの制御方法、プログラム |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US9620128B2 (en) * | 2012-05-31 | 2017-04-11 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US9431008B2 (en) * | 2013-05-29 | 2016-08-30 | Nuance Communications, Inc. | Multiple parallel dialogs in smart phone applications |
DE112015003382B4 (de) * | 2014-07-23 | 2018-09-13 | Mitsubishi Electric Corporation | Spracherkennungseinrichtung und Spracherkennungsverfahren |
US20170256270A1 (en) * | 2016-03-02 | 2017-09-07 | Motorola Mobility Llc | Voice Recognition Accuracy in High Noise Conditions |
US10636414B2 (en) * | 2016-03-10 | 2020-04-28 | Sony Corporation | Speech processing apparatus and speech processing method with three recognizers, operation modes and thresholds |
US9761227B1 (en) * | 2016-05-26 | 2017-09-12 | Nuance Communications, Inc. | Method and system for hybrid decoding for enhanced end-user privacy and low latency |
JP7040449B2 (ja) * | 2016-09-09 | 2022-03-23 | ソニーグループ株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
CN109215631A (zh) * | 2017-07-05 | 2019-01-15 | 松下知识产权经营株式会社 | 语音识别方法、程序、语音识别装置和机器人 |
-
2017
- 2017-05-31 JP JP2018538027A patent/JP7040449B2/ja active Active
- 2017-05-31 WO PCT/JP2017/020220 patent/WO2018047421A1/ja unknown
- 2017-05-31 EP EP17848366.5A patent/EP3511931A4/en not_active Withdrawn
- 2017-05-31 US US16/325,262 patent/US10957322B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002358097A (ja) | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
JP2004046106A (ja) | 2002-05-15 | 2004-02-12 | Pioneer Electronic Corp | 音声認識装置及び音声認識プログラム |
JP2007052307A (ja) | 2005-08-19 | 2007-03-01 | Advanced Telecommunication Research Institute International | 音声認識結果の検査装置及びコンピュータプログラム |
JP2009276495A (ja) | 2008-05-14 | 2009-11-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 |
JP2013064777A (ja) | 2011-09-15 | 2013-04-11 | Ntt Docomo Inc | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
JP2014115499A (ja) | 2012-12-11 | 2014-06-26 | Nippon Hoso Kyokai <Nhk> | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20190189124A1 (en) | 2019-06-20 |
US10957322B2 (en) | 2021-03-23 |
EP3511931A1 (en) | 2019-07-17 |
JPWO2018047421A1 (ja) | 2019-06-24 |
WO2018047421A1 (ja) | 2018-03-15 |
EP3511931A4 (en) | 2019-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7040449B2 (ja) | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 | |
US10365887B1 (en) | Generating commands based on location and wakeword | |
US11564090B1 (en) | Audio verification | |
US11061644B2 (en) | Maintaining context for voice processes | |
US11232808B2 (en) | Adjusting speed of human speech playback | |
US10917758B1 (en) | Voice-based messaging | |
US10448115B1 (en) | Speech recognition for localized content | |
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
US11823678B2 (en) | Proactive command framework | |
US9837068B2 (en) | Sound sample verification for generating sound detection model | |
US11887596B2 (en) | Multiple skills processing | |
US11574637B1 (en) | Spoken language understanding models | |
US10553206B2 (en) | Voice keyword detection apparatus and voice keyword detection method | |
US10854191B1 (en) | Machine learning models for data driven dialog management | |
US11195522B1 (en) | False invocation rejection for speech processing systems | |
US11532301B1 (en) | Natural language processing | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
KR20210053722A (ko) | 전자장치 및 그 제어방법 | |
US11626107B1 (en) | Natural language processing | |
US11996081B2 (en) | Visual responses to user inputs | |
US11328713B1 (en) | On-device contextual understanding | |
US11626106B1 (en) | Error attribution in natural language processing systems | |
US11430435B1 (en) | Prompts for user feedback | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
JP2014197072A (ja) | 音声合成システム、及び音声合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190214 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200521 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220221 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7040449 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |