JP6729635B2 - 音声認識装置、ロボット、音声認識方法及び記録媒体 - Google Patents
音声認識装置、ロボット、音声認識方法及び記録媒体 Download PDFInfo
- Publication number
- JP6729635B2 JP6729635B2 JP2018117630A JP2018117630A JP6729635B2 JP 6729635 B2 JP6729635 B2 JP 6729635B2 JP 2018117630 A JP2018117630 A JP 2018117630A JP 2018117630 A JP2018117630 A JP 2018117630A JP 6729635 B2 JP6729635 B2 JP 6729635B2
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- timing
- utterance
- voice
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 85
- 238000001514 detection method Methods 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003183 myoelectrical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Manipulator (AREA)
- Studio Devices (AREA)
Description
発話者の口唇画像を取得する取得手段と、
前記取得手段により取得された発話者の口唇画像から前記発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方のタイミングを認識する認識手段と、
自装置の周囲の音声のうちノイズ音の大きさを表すノイズ音パラメータを検出する検出手段と、
前記発話者の前記発話開始のタイミングに関するずれ、及び/又は、前記発話者の前記発話終了のタイミングに関するずれを調整するずれ調整量を、前記検出手段により検出されたノイズ音パラメータで表されるノイズ音が大きいほど、より小さくなるように算出する算出手段と、
前記認識手段により認識された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方のタイミングに対応する、前記算出されたずれ調整量に基づいて調整する調整手段と、
前記調整手段により調整された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方のタイミングに対応する音声認識の開始タイミング及び音声認識の終了タイミングの少なくともいずれか一方とする制御手段と、
を備えることを特徴とする。
[音声認識装置100の構成]
図1は、本実施形態の音声認識装置100の機能的構成を示すブロック図である。
図1に示すように、音声認識装置100は、CPU1と、RAM2と、記憶部3と、操作部4と、撮影部5と、音声入出力部6と、通信部7とを備えている。また、音声認識装置100の各部は、バス8を介して接続されている。
記憶部3には、プログラム記憶部3aが設けられている。プログラム記憶部3aには、CPU1で実行されるシステムプログラムや、各種処理を実行するための処理プログラム、これらのプログラムの実行に必要なデータ等が記憶されている。
具体的には、操作部4は、例えば、音声認識装置100本体の電源のON/OFFに係る電源ボタン、モードや機能等の選択指示に係るカーソルボタンや決定ボタン(何れも図示略)を備えている。
そして、ユーザにより各種ボタンが操作されると、操作部4は、操作されたボタンに応じた操作指示をCPU1に出力する。CPU1は、操作部4から出力され入力された操作指示に従って所定の動作を各部に実行させる。
なお、ロボットとしての音声認識装置100において、駆動部等の他の構成部は図示及び説明を省略している。
次に、本実施形態における音声認識装置100の動作について説明する。
図2は、音声認識処理を示すフローチャートである。この音声認識処理は、操作部4を介して、音声認識処理の実行指示が入力されたことをトリガとして実行される。なお、音声認識処理の実行開始に伴い、撮影部5による撮影画像の生成と音声入出力部6による音声の入力とが逐次行われるようになっている。
一方、ステップS11において、ノイズ音量(Npow)が第1の閾値(TH_N_MIN)以上であると判定された場合(ステップS11;NO)、CPU1は、ノイズ音量(Npow)が第2の閾値(TH_N_MAX)よりも大きいか否かを判定する(ステップS13)。
一方、ステップS13において、ノイズ音量(Npow)が第2の閾値(TH_N_MAX)より大きくないと判定された場合(ステップS13;NO)、CPU1は、調整係数(rtCoeff)をrtCoeff=(TH_N_MAX−Npow)/(TH_N_MAX−TH_N_MIN)の式に基づき更新し(ステップS15)、ステップS8へ移行する。
これにより、自装置の周囲の音声が大きい場合には、発話開始のタイミング及び発話終了のタイミングの調整量を小さくすることができるので、自装置の周囲の音声が発話音声と結合する可能性を低減することができ、音声認識の精度に与える自装置の周囲の音声の影響を低減することができる。
以下、本発明の実施形態2について説明する。
実施形態2における構成は、音声認識装置100の記憶部3のプログラム記憶部3aに本実施形態の音声認識処理を実行するためのプログラムが記憶されるとともに、記憶部3に顔データベースや個人ずれ調整量データベースが記憶されている他は、実施形態1で説明したものと同様であるので説明を省略し、以下実施形態2の動作について説明する。
図4は、実施形態2の音声認識処理を示すフローチャートである。
図4に示すように、CPU1は、先ず、音声入出力部6のマイクより入力された音声入力信号から音声認識装置100の周囲のノイズ音量(N音量(Npow))を算出する(ステップS20)。
一方、ステップS21において、ノイズ音量(Npow)が所定の閾値よりも大きくないと判定された場合(ステップS21;NO)、CPU1は、第2の音声認識処理を実行し、音声認識処理を終了する。なお、第2の音声認識処理は、実施形態1で説明した音声認識処理と同様であるので説明を省略する。
図5は、第1の音声認識処理を示すフローチャートである。
図5に示すように、CPU1は、先ず、発話状態を初期化する(ステップS30)。具体的には、CPU1は、発話中であるか否かを示す発話中フラグを「0」の状態にセットする。
一方、ステップS33において、個人IDに対応するずれ調整量が個人ずれ調整量データベースに登録されていると判定された場合(ステップS33;YES)、CPU1は、個人用のずれ調整量をセットする(ステップS35)。具体的には、CPU1は、発話開始時刻STのずれを調整する際のずれ調整量(SRT_PERSONAL=個人用の値)、及び、発話終了時刻ETのずれを調整する際のずれ調整量(ERT_PERSONAL=個人用の値)をセットする。
図6は、ずれ調整量算出処理を示すフローチャートである。このずれ調整量算出処理は、上述の第1の音声認識処理の前に行われる処理であり、操作部4を介して、ずれ調整量算出処理の実行指示が入力されたことをトリガとして実行される。
一方、ステップS50において、静かな環境であると判定された場合(ステップS50;YES)、CPU1は、ループ回数(i)に初期値(1)を設定する(ステップS51)。
一方、ステップS55において、ループ回数(i)が所定のループ回数に到達したと判定された場合(ステップS55;YES)、CPU1は、下記の算出式に基づいて、ずれ調整量を算出する(ステップS56)。ここで、CPU1は、算出手段として機能したこととなる。
ST_PERSONAL=Σ(STi−ST_Vi)/i
ET_PERSONAL=Σ(ETi−ET_Vi)/i
以下、本発明の実施形態2の変形例について説明する。
この変形例では、上記実施形態2で説明した音声認識処理のうち、第1の音声認識処理(ステップS22)の処理内容が異なる点、上記実施形態2で説明したずれ調整量算出処理の代わりに識別器生成処理が行われる点、また、上記実施形態2で説明した個人ずれ調整量データベースの代わりに識別器データベースと機械学習用データセットが記憶部3に記憶されている点の他は、実施形態2で説明したものと同様であるので説明を省略し、以下変形例の動作について説明する。
図7は、本変形例の第1の音声認識処理を示すフローチャートである。
図7に示すように、CPU1は、先ず、発話状態を初期化する(ステップS60)。具体的には、CPU1は、発話中であるか否かを示す発話中フラグを「0」の状態にセットする。
一方、ステップS63において、個人IDに対応する発話判定識別器が識別器データベースに登録されていると判定された場合(ステップS63;YES)、CPU1は、個人用の発話判定識別器をセットする(ステップS65)。
図8は、識別器生成処理を示すフローチャートである。この識別器生成処理は、上述の第1の音声認識処理の前に行われる処理であり、操作部4を介して、識別器生成処理の実行指示が入力されたことをトリガとして実行される。
一方、ステップS80において、静かな環境であると判定された場合(ステップS80;YES)、CPU1は、ループ回数(i)に初期値(1)を設定する(ステップS81)。
一方、ステップS85において、ループ回数(i)が所定のループ回数に到達したと判定された場合(ステップS85;YES)、CPU1は、機械学習用データセットに登録された各フレーム画像を用いて機械学習を行い、発話判定識別器を生成する(ステップS86)。ここで、CPU1は、生成手段として機能したこととなる。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
<請求項1>
発話者の口の動きを認識する認識手段と、
外部音を検出する検出手段と、
前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された外部音とに基づいて音声認識タイミングを制御する制御手段と、
を備えることを特徴とする音声認識装置。
<請求項2>
前記検出手段は、前記外部音として自装置の周囲の音声を検出し、
前記制御手段は、前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された自装置の周囲の音声とに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項1に記載の音声認識装置。
<請求項3>
前記認識手段は、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項2に記載の音声認識装置。
<請求項4>
前記検出手段により検出された自装置の周囲の音声に基づいて前記発話開始のタイミングと前記発話終了のタイミングとのうちの少なくともいずれか一方を調整する調整手段を備え、
前記制御手段は、前記調整手段により調整された前記発話開始のタイミングを音声認識の開始タイミングとし、前記調整手段により調整された前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項3に記載の音声認識装置。
<請求項5>
前記検出手段は、自装置の周囲の音声の大きさを検出し、
前記制御手段は、前記検出手段により検出された自装置の周囲の音声の大きさに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項4に記載の音声認識装置。
<請求項6>
前記検出手段は、自装置の周囲のSN比を検出し、
前記制御手段は、前記検出手段により検出された自装置の周囲のSN比に基づいて音声認識タイミングを制御する、
ことを特徴とする請求項2から4のいずれか1項に記載の音声認識装置。
<請求項7>
前記調整手段は、前記検出手段により検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、当該音声の大きさが所定の閾値よりも小さい場合に比べて、前記発話開始のタイミング及び前記発話終了のタイミングの調整量を小さくする、
ことを特徴とする請求項5に記載の音声認識装置。
<請求項8>
前記検出手段は、前記外部音として前記発話者の音声を検出し、
前記制御手段は、前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された当該発話者の音声とに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項1に記載の音声認識装置。
<請求項9>
前記認識手段は、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項8に記載の音声認識装置。
<請求項10>
前記検出手段により検出された前記発話者の音声に基づいて、当該発話者の前記発話開始のタイミングに関するずれ、及び/又は、当該発話者の前記発話終了のタイミングに関するずれを調整するずれ調整量を算出する算出手段を備え、
前記制御手段は、前記算出手段により算出された前記ずれ調整量を加味した前記発話開始のタイミングを音声認識の開始タイミングとし、当該ずれ調整量を加味した前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項9に記載の音声認識装置。
<請求項11>
前記検出手段は、前記外部音として自装置の周囲の音声を更に検出し、
前記制御手段は、前記検出手段によって検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、前記算出手段により算出された前記ずれ調整量を加味した前記発話開始のタイミングを音声認識の開始タイミングとし、当該ずれ調整量を加味した前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項10に記載の音声認識装置。
<請求項12>
前記検出手段によって検出された前記発話者の音声と同期がとられている当該発話者の口唇画像に対して発話中又は非発話中のラベリングを行うことにより、当該発話者に対応した発話判定識別器を予め生成する生成手段と、
前記生成手段によって生成された前記発話判定識別器を用いて、当該発話判定識別器に対応する発話者の口唇画像が発話中の画像であるか非発話中の画像であるかを判別する判別手段と、を備え、
前記認識手段は、前記判別手段による判別の結果に基づいて、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項8に記載の音声認識装置。
<請求項13>
前記制御手段は、前記認識手段によって認識された前記発話開始のタイミングを音声認識の開始タイミングとし、前記発話終了のタイミングを音声認識の終了タイミングとして、音声認識タイミングを制御する、
ことを特徴とする請求項12に記載の音声認識装置。
<請求項14>
前記生成手段は、発話中又は非発話中のラベリングが行われた複数の前記口唇画像を機械学習させることにより前記発話判定識別器を生成する、
ことを特徴とする請求項13に記載の音声認識装置。
<請求項15>
前記検出手段は、自装置の周囲の音声を更に検出し、
前記制御手段は、前記検出手段によって検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、前記認識手段によって認識された前記発話開始のタイミングを音声認識の開始タイミングとし、前記発話終了のタイミングを音声認識の終了タイミングとして、音声認識タイミングを制御する、
ことを特徴とする請求項13又は14に記載の音声認識装置。
<請求項16>
前記制御手段は、前記音声認識タイミングとして音声認識区間を制御する、
ことを特徴とする請求項1から15のいずれか1項に記載の音声認識装置。
<請求項17>
前記検出手段は、前記発話者の音声の周波数範囲に含まれる音声を対象として、自装置の周囲の音声を検出する、
ことを特徴とする請求項2〜7、11〜15のいずれか一項に記載の音声認識装置。
<請求項18>
前記自装置の周囲の音声には、前記発話者以外の人の声と、人の声以外の音が含まれることを特徴とする請求項17に記載の音声認識装置。
<請求項19>
請求項1から16のいずれか1項に記載の前記音声認識装置を搭載したロボット。
<請求項20>
発話者の口の動きを認識する認識ステップと、
外部音を検出する検出ステップと、
前記認識ステップにより認識された前記発話者の口の動きと前記検出ステップにより検出された外部音とに基づいて音声認識タイミングを制御する制御ステップと、
を含むことを特徴とする音声認識方法。
<請求項21>
コンピュータを、
発話者の口の動きを認識する認識手段、
外部音を検出する検出手段、
前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された外部音とに基づいて音声認識タイミングを制御する制御手段、
として機能させることを特徴とするプログラム。
1 CPU
2 RAM
3 記憶部
3a プログラム記憶部
4 操作部
5 撮影部
6 音声入出部
7 通信部
Claims (8)
- 発話者の口唇画像を取得する取得手段と、
前記取得手段により取得された発話者の口唇画像から前記発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方のタイミングを認識する認識手段と、
自装置の周囲の音声のうちノイズ音の大きさを表すノイズ音パラメータを検出する検出手段と、
前記発話者の前記発話開始のタイミングに関するずれ、及び/又は、前記発話者の前記発話終了のタイミングに関するずれを調整するずれ調整量を、前記検出手段により検出されたノイズ音パラメータで表されるノイズ音が大きいほど、より小さくなるように算出する算出手段と、
前記認識手段により認識された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方のタイミングに対応する、前記算出されたずれ調整量に基づいて調整する調整手段と、
前記調整手段により調整された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方のタイミングに対応する音声認識の開始タイミング及び音声認識の終了タイミングの少なくともいずれか一方とする制御手段と、
を備えることを特徴とする音声認識装置。 - 前記検出手段は、前記ノイズ音パラメータとして、自装置の周囲のSN比を検出する、
ことを特徴とする請求項1に記載の音声認識装置。 - 前記算出手段は、前記検出されたノイズ音パラメータで表されるノイズ音の大きさが第1閾値及び前記第1閾値よりも大きい第2閾値で規定される範囲内にある場合に、前記ずれ調整量を、前記検出手段により検出されたノイズ音パラメータが大きいほど、より小さくなるように算出する、
ことを特徴とする請求項1又は2に記載の音声認識装置。 - 前記制御手段は、前記検出されたノイズ音パラメータで表されるノイズ音の大きさが前記第2閾値よりも大きい場合に、前記認識手段により認識された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方に対応する前記音声認識の開始タイミング及び前記音声認識の終了タイミングの前記少なくともいずれか一方とする、ことを特徴とする請求項3に記載の音声認識装置。
- 前記制御手段は、前記音声認識のタイミングとして音声認識区間を制御する、
ことを特徴とする請求項1から4のいずれか1項に記載の音声認識装置。 - 請求項1から5のいずれか1項に記載の前記音声認識装置を搭載したロボット。
- 音声認識装置が実行する音声認識方法であって、
発話者の口唇画像を取得する取得ステップと、
前記取得ステップにより取得された発話者の口唇画像から前記発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方のタイミングを認識する認識ステップと、
自装置の周囲の音声のうちノイズ音の大きさを表すノイズ音パラメータを検出する検出ステップと、
前記発話者の前記発話開始のタイミングに関するずれ、及び/又は、前記発話者の前記発話終了のタイミングに関するずれを調整するずれ調整量を、前記検出ステップにより検出されたノイズ音パラメータで表されるノイズ音が大きいほど、より小さくなるように算出する算出ステップと、
前記認識ステップにより認識された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方のタイミングに対応する、前記算出されたずれ調整量に基づいて調整する調整ステップと、
前記調整ステップにより調整された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方のタイミングに対応する音声認識の開始タイミング及び音声認識の終了タイミングの少なくともいずれか一方とする制御ステップと、
を含むことを特徴とする音声認識方法。 - コンピュータが読み取り可能なプログラムを記録した記録媒体であって、
コンピュータに、
発話者の口唇画像を取得する取得機能と、
前記取得機能により取得された発話者の口唇画像から前記発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方のタイミングを認識する認識機能と、
自装置の周囲の音声のうちノイズ音の大きさを表すノイズ音パラメータを検出する検出機能と、
前記発話者の前記発話開始のタイミングに関するずれ、及び/又は、前記発話者の前記発話終了のタイミングに関するずれを調整するずれ調整量を、前記検出機能により検出されたノイズ音パラメータで表されるノイズ音が大きいほど、より小さくなるように算出する算出機能と、
前記認識機能により認識された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方のタイミングに対応する、前記算出されたずれ調整量に基づいて調整する調整機能と、
前記調整機能により調整された前記少なくともいずれか一方のタイミングを、前記少なくともいずれか一方のタイミングに対応する音声認識の開始タイミング及び音声認識の終了タイミングの少なくともいずれか一方とする制御機能と、
を実現させることを特徴とするプログラムを記録した記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811551686.8A CN110033790B (zh) | 2017-12-25 | 2018-12-18 | 声音认识装置、机器人、声音认识方法以及记录介质 |
US16/231,518 US10910001B2 (en) | 2017-12-25 | 2018-12-23 | Voice recognition device, robot, voice recognition method, and storage medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017247211 | 2017-12-25 | ||
JP2017247211 | 2017-12-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019113820A JP2019113820A (ja) | 2019-07-11 |
JP6729635B2 true JP6729635B2 (ja) | 2020-07-22 |
Family
ID=67223672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018117630A Active JP6729635B2 (ja) | 2017-12-25 | 2018-06-21 | 音声認識装置、ロボット、音声認識方法及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6729635B2 (ja) |
CN (1) | CN110033790B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114224A1 (zh) * | 2019-12-13 | 2021-06-17 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5305422A (en) * | 1992-02-28 | 1994-04-19 | Panasonic Technologies, Inc. | Method for determining boundaries of isolated words within a speech signal |
US7860718B2 (en) * | 2005-12-08 | 2010-12-28 | Electronics And Telecommunications Research Institute | Apparatus and method for speech segment detection and system for speech recognition |
JP2011059186A (ja) * | 2009-09-07 | 2011-03-24 | Gifu Univ | 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体 |
JP2011191423A (ja) * | 2010-03-12 | 2011-09-29 | Honda Motor Co Ltd | 発話認識装置、発話認識方法 |
JP5996603B2 (ja) * | 2013-10-31 | 2016-09-21 | シャープ株式会社 | サーバ、発話制御方法、発話装置、発話システムおよびプログラム |
JP6128146B2 (ja) * | 2015-02-24 | 2017-05-17 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
JP6060989B2 (ja) * | 2015-02-25 | 2017-01-18 | カシオ計算機株式会社 | 音声録音装置、音声録音方法、及びプログラム |
US10026417B2 (en) * | 2016-04-22 | 2018-07-17 | Opentv, Inc. | Audio driven accelerated binge watch |
-
2018
- 2018-06-21 JP JP2018117630A patent/JP6729635B2/ja active Active
- 2018-12-18 CN CN201811551686.8A patent/CN110033790B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019113820A (ja) | 2019-07-11 |
CN110033790A (zh) | 2019-07-19 |
CN110033790B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7979276B2 (en) | Speech recognition apparatus and speech recognition method | |
CN108133709B (zh) | 语音识别装置和语音识别方法 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
JP5451749B2 (ja) | 撮像装置、集積回路、撮像方法、プログラム及び記録媒体 | |
US10910001B2 (en) | Voice recognition device, robot, voice recognition method, and storage medium | |
JP4561914B2 (ja) | 操作入力装置、操作入力方法、プログラム | |
JP4729927B2 (ja) | 音声検出装置、自動撮像装置、および音声検出方法 | |
US8126720B2 (en) | Image capturing apparatus and information processing method | |
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
US20090132250A1 (en) | Robot apparatus with vocal interactive function and method therefor | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
JP2015175983A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP6729635B2 (ja) | 音声認識装置、ロボット、音声認識方法及び記録媒体 | |
JP2019154575A (ja) | 個人識別装置および特徴収集装置 | |
US20130311174A1 (en) | Audio control device and imaging device | |
JPWO2019131159A1 (ja) | 制御処理装置および制御処理方法、並びにプログラム | |
JP2014122978A (ja) | 撮像装置、音声認識方法、及びプログラム | |
JP2004004239A (ja) | 音声認識対話装置およびプログラム | |
JP7217471B2 (ja) | 撮像装置 | |
JP2020086034A (ja) | 情報処理装置、情報処理装置およびプログラム | |
US12051412B2 (en) | Control device, system, and control method | |
JP2004212533A (ja) | 音声コマンド対応機器操作装置、音声コマンド対応機器、プログラム、及び記録媒体 | |
JP4447857B2 (ja) | 音声検出装置 | |
CN113409809A (zh) | 语音降噪方法、装置及设备 | |
JP2005038160A (ja) | 画像生成装置およびその画像生成方法、ならびにコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181218 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6729635 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |