JP6230726B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP6230726B2
JP6230726B2 JP2016564532A JP2016564532A JP6230726B2 JP 6230726 B2 JP6230726 B2 JP 6230726B2 JP 2016564532 A JP2016564532 A JP 2016564532A JP 2016564532 A JP2016564532 A JP 2016564532A JP 6230726 B2 JP6230726 B2 JP 6230726B2
Authority
JP
Japan
Prior art keywords
speech
voice
unit
user
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016564532A
Other languages
English (en)
Other versions
JPWO2016098228A1 (ja
Inventor
勇 小川
勇 小川
利行 花沢
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2016098228A1 publication Critical patent/JPWO2016098228A1/ja
Application granted granted Critical
Publication of JP6230726B2 publication Critical patent/JP6230726B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Description

この発明は、入力された音声から音声区間を抽出し、抽出した音声区間に対して音声認識を行う音声認識装置および音声認識方法に関するものである。
近年、携帯端末やナビゲーション装置には操作入力を音声で行うための音声認識装置が搭載されている。音声認識装置に入力される音声信号には、操作入力を指示するユーザが発話した音声のみならず外部の騒音など目的外の音も含まれる。そこで、騒音環境下で入力された音声信号からユーザが発話した区間(以下、音声区間と称する)を適切に抽出して音声認識を行う技術が必要であり、種々の技術が開示されている。
例えば、特許文献1には、音声信号から音声区間検出用の音響特徴量を抽出し、画像フレームから音声区間検出用の画像特徴量を抽出し、抽出した音響特徴量および画像特徴量を合わせた音響画像特徴量を生成し、当該音響画像特徴量に基づいて音声区間を判定する音声区間検出装置が開示されている。
また、特許文献2には、音声入力話者の口元画像の解析から発話の有無を判断して発話者の位置を特定し、特定した位置における口元の動きは目的音の発生であるとして、ノイズ判定には含めないように構成する音声入力装置が開示されている。
また、特許文献3には、入力音声に対する音声区間の切り出しのしきい値を変数i(例えばi=5)の値に応じて順次変更し、変更されたしきい値に応じて音声区間の切り出しを行って複数の認識候補を求め、求めた複数の認識候補から得られる認識スコアを集計して最終的な認識結果を決定する数字列音声認識装置が開示されている。
特開2011−59186号公報 特開2006−39267号公報 特開平8−314495号公報
しかしながら、上述した特許文献1および特許文献2に開示された技術では、入力音声に対する音声区間検出および音声認識処理と並行して常時、撮像部で動画像を撮像して口元画像の解析から発話の有無を判定する必要があり、演算量が増大するという課題があった。
また、上述した特許文献3に開示された技術では、ユーザの1回の発話に対して、しきい値を変更して5回の音声区間検出処理および音声認識処理を行う必要があり、演算量が増大するという課題があった。
さらに、これらの演算量の大きい音声認識装置をタブレット端末などの処理性能の低いハードウェア上で用いられている場合には、音声認識結果を得るまでの遅延時間が長くなるという課題があった。また、タブレット端末などの処理性能に合わせて画像認識処理あるいは音声認識処理の演算量を削減すると、認識処理性能が低下するという課題があった。
この発明は、上記のような課題を解決するためになされたもので、処理性能の低いハードウェア上で用いられる場合にも、音声認識結果を得るまでの遅延時間を短縮し、且つ認識処理性能の低下を抑制する音声認識結果および音声認識方法を提供することを目的とする。
この発明に係る音声認識装置は、集音された音声を取得し、音声データに変換する音声入力部と、音声以外の情報を取得する非音声情報入力部と、非音声情報入力部が取得した音声以外の情報からユーザ状態を認識する非音声操作認識部と、非音声操作認識部が認識したユーザ状態からユーザが発話しているか否か判定を行う非発話区間判定部と、非発話区間判定部がユーザが発話していないと判定した場合に音声入力部が変換した音声データから第1のしきい値を設定し、非発話区間判定部がユーザが発話していると判定した場合に音声入力部が変換した音声データから第2のしきい値を設定するしきい値学習部と、しきい値学習部が設定したしきい値を用いて音声入力部が変換した音声データからユーザの発話を示す音声区間を検出する音声区間検出部と、音声区間検出部が検出した音声区間の音声データを認識して認識結果を出力する音声認識部とを備え、音声区間検出部は、第2のしきい値を用いて音声区間を検出することができない場合に、第1のしきい値を適用して音声区間を検出するものである。
この発明によれば、処理性能の低いハードウェア上で用いられる場合にも、音声認識結果を得るまでの遅延時間を短縮し、且つ認識処理性能の低下を抑制することができる。
実施の形態1に係る音声認識装置の構成を示すブロック図である。 実施の形態1に係る音声認識装置の処理、音声入力レベルおよびCPU負荷を示す説明図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 実施の形態2に係る音声認識装置の構成を示すブロック図である。 実施の形態2に係る音声認識装置の操作シナリオ記憶部が記憶する操作シナリオの一例を示す図である。 実施の形態2に係る音声認識装置の処理、音声入力レベルおよびCPU負荷を示す説明図である。 実施の形態2に係る音声認識装置の動作を示すフローチャートである。 実施の形態3に係る音声認識装置の構成を示すブロック図である。 実施の形態3に係る音声認識装置の処理、音声入力レベルおよびCPU負荷を示す説明図である。 実施の形態3に係る音声認識装置の動作を示すフローチャートである。 本願発明の音声認識装置を搭載した携帯端末のハードウェア構成を示す図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る音声認識装置100の構成を示すブロック図である。
音声認識装置100は、タッチ操作入力部(非音声情報入力部)101、画像入力部(非音声情報入力部)102、口唇画像認識部(非音声操作認識部)103、非発話区間判定部104、音声入力部105、音声区間検出しきい値学習部106、音声区間検出部107および音声認識部108で構成されている。
なお、以下ではユーザのタッチ操作はタッチパネル(不図示)を介して行われる場合を例に説明を行うが、タッチパネル以外の入力手段を用いた場合、あるいはタッチ操作以外の入力方法を用いた入力手段を用いた場合にも、当該音声認識装置100を適用することが可能である。
タッチ操作入力部101は、ユーザのタッチパネルへの接触を検知し、タッチパネルへの接触を検知した座標値を取得する。画像入力部102は、カメラなどの撮像手段により撮影された動画像を取得し、画像データに変換する。口唇画像認識部103は、画像入力部102が取得した画像データの解析を行い、ユーザの口唇の動きを認識する。非発話区間判定部104は、タッチ操作入力部101が取得した座標値が、非発話の操作を行うための領域内に存在している場合に、口唇画像認識部103の認識結果を参照してユーザが発話を行っているか否か判定を行う。当該判定において、ユーザが発話を行っていないと判定した場合に、非発話区間判定部104は音声区間検出しきい値学習部106に対して音声区間検出に用いるしきい値の学習を指示する。非発話区間判定部104が判定に用いる、発話の操作を行うための領域とは、タッチパネル上に配置された音声入力受け付けボタンなどが配置された領域であり、非発話の操作を行うための領域とは下位の画面に遷移するためのボタンなどが配置された領域である。
音声入力部105は、マイクなどの集音手段により集音された音声を取得し、音声データに変換する。音声区間検出しきい値学習部106は、音声入力部105が取得した音声からユーザの発話を検出するためのしきい値を設定する。音声区間検出部107は、音声区間検出しきい値学習部106が設定したしきい値に基づいて、音声入力部105が取得した音声からユーザの発話を検出する。音声認識部108は、音声区間検出部107がユーザの発話を検出した場合に、音声入力部105が取得した音声を認識し、音声認識結果であるテキストを出力する。
次に、図2および図3を参照しながら、実施の形態1に係る音声認識装置100の動作について説明する。図2は実施の形態1に係る音声認識装置100の入力操作の一例を示す説明図であり、図3は実施の形態1に係る音声認識装置100の動作を示すフローチャートである。
まず、図2(a)は、ユーザにより第1のタッチ操作が行われた時間A、タッチ操作の入力タイムアウトを示す時間B、第2のタッチ操作が行われた時間C、しきい値学習完了を示す時間D、および音声入力タイムアウトを示す時間Eを時間軸上に示している。
図2(b)は、音声入力部105に入力される音声の入力レベルの時間変化を示している。実線は発話音声F(Fは発話音声の先頭、Fは発話音声の末尾)を示し、一点破線は騒音Gを示している。なお、音声入力レベルの軸上に示した値Hは第1の音声区間検出しきい値を示し、値Iは第2の音声区間検出しきい値を示している。
図2(c)は、音声認識装置100のCPU負荷の時間変化を示している。領域Jは画像認識処理の負荷を示し、領域Kはしきい値学習処理の負荷を示し、領域Lは音声区間検出処理の負荷を示し、領域Mは音声認識処理の負荷を示している。
音声認識装置100が機能している状態において、タッチ操作入力部101はタッチパネルへのタッチ操作が検出されたか否か判定を行っている(ステップST1)。当該判定が行われている状態において、ユーザがタッチパネルの一部を指で押下すると、タッチ操作入力部101は当該タッチ操作を検出し(ステップST1;YES)、タッチ操作を検出した座標値を取得して非発話区間判定部104に出力する(ステップST2)。非発話区間判定部104はステップST2で出力された座標値を取得すると、内蔵されたタイマを起動してタッチ操作を検出してからの経過時間の計測を開始する(ステップST3)。
例えば、ステップST1において図2(a)で示した第1のタッチ操作(時間A)を検出すると、ステップST2で当該第1のタッチ操作の座標値を取得し、ステップST3で第1のタッチ操作を検出してからの経過時間を計測する。計測される経過時間は、図2(a)のタッチ操作入力タイムアウト(時間B)への到達を判定するために用いられる。
非発話区間判定部104は、音声入力部105に音声入力の開始を指示し、音声入力部105は当該指示に基づいて音声の入力受け付けを開始し(ステップST4)、取得した音声を音声データに変換する(ステップST5)。変換された音声データは、例えば音声入力部105が取得した音声信号をデジタル化したPCM(Pulse Code Modulation)データなどで構成される。
また、非発話区間判定部104は、ステップST2で出力された座標値が設定された発話を示す領域外の値であるか否か判定を行う(ステップST6)。座標値が発話を示す領域外の値である場合(ステップST6;YES)、発話を伴わない非発話の操作であると判断して画像入力部102に画像入力の開始を指示する。画像入力部102は当該指示に基づいて動画像入力の受け付けを開始し(ステップST7)、取得した動画像を動画データなどのデータ信号に変換する(ステップST8)。ここで、動画データとは、例えば画像入力部102が取得した画像信号をデジタル化して連続した静止画像の列に変換した画像フレームなどで構成される。以下、画像フレームを例に説明する。
口唇画像認識部103は、ステップST8で変換された画像フレームからユーザの口唇の動きを画像認識する(ステップST9)。口唇画像認識部103は、ステップST9で認識した画像認識結果からユーザが発話しているか否か判定を行う(ステップST10)。ステップST10の具体的な処理としては、例えば口唇画像認識部103は画像フレームから口唇画像を抽出し、口唇の幅と高さとから口唇の形状を公知の技術により算出した後、口唇形状の変化があらかじめ設定された発話時の口唇形状パターンと一致するか否かにより発話しているか否かの判定を行う。口唇形状パターンと一致する場合には発話していると判定する。
口唇画像認識部103においてユーザが発話していると判定された場合(ステップST10;YES)、ステップST12の処理に進む。一方、口唇画像認識部103においてユーザが発話していないと判定された場合(ステップST10;NO)、非発話区間判定部104は音声区間検出しきい値学習部106に対して音声区間検出のしきい値を学習するよう指示する。音声区間検出しきい値学習部106は当該指示に基づいて、例えば音声入力部105から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を記録する(ステップST11)。
さらに、非発話区間判定部104は、ステップST3で起動したタイマが計測したタイマ値が、あらかじめ設定したタイムアウトしきい値に到達したか否か、すなわちタッチ操作入力のタイムアウトに到達したか否か判定を行う(ステップST12)。具体的には、図2の時間Bに到達したか否か判定を行う。タッチ操作入力のタイムアウトに到達していない場合(ステップST12;NO)、ステップST9の処理に戻り、上述した処理を繰り返す。一方、タッチ操作入力のタイムアウトに到達した場合(ステップST12;YES)、非発話区間判定部104は、音声区間検出しきい値学習部106に対してステップST11で記録した音声入力レベルの値を第1の音声区間検出しきい値として記憶領域(不図示)に保存させる(ステップST13)。図2の例では、第1のタッチ操作を検出した時間Aからタッチ操作入力タイムアウトの時間Bまでの時間内に入力された音声データから最も大きい音声入力レベルの値、即ち図2(b)の値Hを第1の音声区間検出しきい値として保存する。
続いて、非発話区間判定部104は、画像入力部102に対して画像入力の受け付けを停止する指示を出力し(ステップST14)、音声入力部105に対して音声入力の受け付けを停止する指示を出力する(ステップST15)。その後、フローチャートはステップST1の処理に戻り、上述した処理を繰り返す。
上述したステップST7からステップST15の処理により、画像認識処理を実施している間は音声区間検出しきい値学習処理のみが動作する(図2(c)の時間Aから時間Bにおける領域J(画像認識処理)および領域K(音声区間検出しきい値学習処理)参照)。
一方、ステップST6の判定処理において、座標値が発話を示す領域内の値である場合(ステップST6;NO)、発話を伴う操作であると判断して、非発話区間判定部104は音声区間検出しきい値学習部106に対して音声区間検出のしきい値の学習を指示する。音声区間検出しきい値学習部106は、当該指示に基づいて、例えば音声入力部105から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を学習し、第2の音声区間検出しきい値として保存する(ステップST16)。
図2の例では、第2のタッチ操作を検出した時間Cからしきい値学習が完了した時間Dまでの時間内に入力された音声データから最も大きい音声入力レベルの値、即ち図2(b)の値Iを第2の音声区間検出しきい値として保存する。なお、第2の音声区間検出しきい値の学習時にはユーザが発話していないものとする。
次に、音声区間検出部107は、ステップST16で保存された第2の音声区間検出しきい値に基づいて、ステップST16の音声区間検出しきい値の学習が完了した後に音声入力部105を介して入力された音声データから音声区間が検出可能か否か判定を行う(ステップST17)。図2の例では、第2の音声区間検出しきい値である値Iに基づいて音声区間を検出する。具体的には、しきい値学習完了の時間Dの後に入力された音声データの音声入力レベルが第2の音声区間検出しきい値Iを上回った点を発話の先頭と判断し、発話の先頭に後続する音声データにおいて第2の音声区間検出しきい値である値Iを下回った点を発話の末尾と判断する。
仮に、音声データに騒音が存在しない場合には、図2の発話音声Fに示すように先頭Fおよび末尾Fの検出が可能となり、ステップST17の判定処理において、音声区間が検出可能であると判定される(ステップST17;YES)。音声区間が検出可能である場合(ステップST17;YES)、音声区間検出部107は検出した音声区間を音声認識部108に入力し、音声認識部108が音声認識を行い、音声認識結果のテキストを出力する(ステップST21)。その後、音声入力部105は非発話区間判定部104から入力される音声入力の受け付け停止指示に基づいて音声入力の受け付けを停止し(ステップST22)、ステップST1の処理に戻る。
一方、仮に音声データに騒音が発生している場合、例えば図2の発話音声Fに騒音Gが重畳していると、発話音声Fの先頭Fは第2の音声区間検出しきい値である値Iを上回るため正しく検出されるが、発話音声Fの末尾Fが騒音Gと重畳して第2の音声区間検出しきい値の値Iを下回らないため正しく検出されず、ステップST17の判定処理において音声区間が検出できないと判定される(ステップST17;NO)。音声区間が検出できない場合(ステップST17;NO)、音声区間検出部107はあらかじめ設定された音声入力タイムアウト値を参照して、音声入力タイムアウトに到達したか否か判定を行う(ステップST18)。ステップST18の処理についてより詳細に説明すると、音声区間検出部107は発話音声Fの先頭Fを検出してからの時間をカウントしており、カウント値があらかじめ設定された音声入力タイムアウトの時間Eに到達したか否かの判定を行う。
音声入力タイムアウトに到達していない場合(ステップST18;NO)、音声区間検出部107は、ステップST17の処理に戻り、音声区間の検出を続ける。一方、音声入力タイムアウトに到達した場合(ステップST18;YES)、音声区間検出部107はステップST13で保存された第1の音声区間検出しきい値を判定用のしきい値に設定する(ステップST19)。
音声区間検出部107は、ステップST19で設定された第1の音声区間検出しきい値に基づいて、ステップST16の音声区間検出しきい値の学習が完了した後に音声入力部105を介して入力された音声データから音声区間が検出可能か否か判定を行う(ステップST20)。ここでは、ステップST16の学習処理後に入力された音声データを記憶領域(不図示)に格納しておき、格納されていた音声データに対してステップST19で新たに設定された第1の音声区間検出しきい値を適用して発話音声の先頭および末尾を検出する。
図2の例において仮に騒音Gが発生している場合にも、発話音声Fの先頭Fは第1の音声区間検出しきい値である値Hを上回り、且つ発話音声Fの末尾Fが第1の音声区間検出しきい値である値Hを下回ることから、音声区間が検出可能であると判定される(ステップST20;YES)。
音声区間が検出可能である場合(ステップST20;YES)、ステップST21の処理に進む。一方、第1の音声区間検出しきい値を適用しても音声区間が検出できない場合(ステップST20;NO)、音声認識を行わずにステップST22の処理に進み、ステップST1の処理に戻る。
ステップST17からステップST22の処理により音声認識処理を実施している間は音声区間検出処理のみが動作する(図2(c)の時間Dから時間Eにおける領域L(音声区間検出処理)および領域M(音声認識処理)参照)。
以上のように、この実施の形態1によれば、タッチ操作で非発話の操作を検出し、非発話の操作時のみ画像認識処理を行ってユーザの発話の判定を行う非発話区間判定部104と、ユーザが非発話の場合に音声データの第1の音声区間検出しきい値を学習する音声区間検出しきい値学習部106と、タッチ操作で発話の操作を検出した後で学習した第2の音声区間検出しきい値を適用して音声区間検出に失敗した場合に、第1の音声区間検出しきい値を用いて再度音声区間検出を行う音声区間検出部107とを備えるように構成したので、発話操作時の学習区間で設定した第2の音声区間検出しきい値が適切な値でなかった場合にも、第1の音声区間検出しきい値を用いて正しい音声区間を検出することができる。また、画像認識処理と音声認識処理が同時に動作しないように制御することができ、処理性能の低いタブレット端末などに当該音声認識装置100を適用した場合にも、音声認識結果を得るまでの遅延時間を短縮させ、音声認識性能の低下を抑制することができる。
また、上述した実施の形態1では、非発話の操作時のみカメラなどによって撮影した動画像データに対して画像認識処理を行いユーザが発話しているか否かの判定を行う構成を支援したが、カメラ以外の手段によって取得したデータを用いてユーザの発話を判定するように構成してもよい。例えば、タブレット端末が近接センサを搭載している場合には、当該近接センサによって取得したデータからタブレット端末のマイクとユーザの口唇との距離を算出し、マイクと口唇との距離があらかじめ設定したしきい値よりも小さくなった場合に、ユーザが発話したと判定するように構成してもよい。
これにより、音声認識処理が動作していない状態での装置への処理負荷の増大を抑制することができ、処理性能の低いタブレット端末において音声認識性能を向上させると共に、音声認識以外の処理を行うことができる。
さらに、近接センサを用いることにより、カメラを使用する場合よりも消費電力を抑制することができ、バッテリ寿命の制約が大きいタブレット端末において利便性を向上させることができる。
実施の形態2.
上述した実施の形態1では非発話の操作を検出した場合に、口唇画像認識部103が口唇画像の認識を行いユーザの発話を判定する構成を示したが、この実施の形態2ではユーザの操作状態に基づいて発話または非発話の操作を判定し、非発話操作時に音声入力レベルを学習する構成について説明を行う。
図4は、実施の形態2に係る音声認識装置200の構成を示すブロック図である。
実施の形態2に係る音声認識装置200は、実施の形態1で示した音声認識装置100の画像入力部102、口唇画像認識部103および非発話区間判定部104に替えて、操作状態判定部(非音声操作認識部)201、操作シナリオ記憶部202および非発話区間判定部203を設けて構成している。
以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
操作状態判定部201は、タッチ操作入力部101から入力されるユーザのタッチパネルへのタッチ操作の情報および操作シナリオ記憶部202に記憶されたタッチ操作により遷移する操作状態を示す情報を参照して、ユーザの操作状態を判定する。ここで、タッチ操作の情報とは、例えばタッチパネルへのユーザの接触を検知した座標値などである。
操作シナリオ記憶部202は、タッチ操作により遷移する操作状態を記憶する記憶領域である。例えば、操作画面として、初期画面、初期画面の下位層に位置し、ユーザが操作画面を選択するための操作画面選択画面、当該操作画面選択画面の下位層に位置し、選択された画面での操作画面の3つの画面が設けられているとする。初期画面においてユーザがタッチ操作を行い操作画面選択画面に遷移した場合、操作状態が初期状態から操作画面選択状態に遷移することを示す情報が操作シナリオとして記憶されている。また、操作画面選択画面においてユーザが選択ボタンに対応したタッチ操作を行い、選択画面の操作画面に遷移した場合、操作状態が操作画面選択状態から選択した画面での特定項目入力状態に遷移することを示す情報が操作シナリオとして記憶されている。
図5は、実施の形態2に係る音声認識装置200の操作シナリオ記憶部202が記憶する操作シナリオの一例を示す図である。
図5の例では、操作シナリオは、操作状態、表示画面、遷移条件、遷移先の状態、発話を伴う操作であるか非発話の操作であるかを示す情報で構成されている。
まず、操作状態は、上述した「初期状態」および「操作画面選択状態」に相当する具体例として「作業場所選択」が対応付けられ、上述した「選択した画面の操作状態」に相当する具体例として「場所Aの作業中」および「場所Bの作業中」が対応付けられて構成されている。さらに、上述した「特定項目の入力状態」に相当する具体例として「作業C実施中」など4つの操作状態が対応付けられている。
例えば、操作状態が「作業場所選択」である場合、操作画面には「作業場所選択」が表示される。「作業場所選択」が表示された操作画面において、遷移条件である「作業場所Aボタンにタッチ」を行った場合、「場所Aの作業中」の操作状態に遷移する。一方、遷移条件である「作業場所Bボタンにタッチ」を行った場合、「場所Bの作業中」の操作状態に遷移する。「作業場所Aボタンにタッチ」および「作業場所Bボタンにタッチ」の操作は非発話の操作であることを示している。
また、例えば、操作状態が「作業C実施中」である場合、操作画面には「作業C」が表示される「作業C」が表示された操作画面において、遷移条件である「終了ボタンにタッチ」を行った場合、「場所Aの作業中」の操作状態に遷移する。「終了ボタンにタッチ」の操作は非発話の操作であることを示している。
次に、図6および図7を参照しながら、実施の形態2に係る音声認識装置200の動作について説明する。図6は実施の形態2に係る音声認識装置200の入力操作の一例を示す説明図であり、図7は実施の形態2に係る音声認識装置200の動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置100と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
まず、図6(a)は、ユーザにより第1のタッチ操作が行われた時間A、第1のタッチ操作の入力タイムアウトを示す時間B、第2のタッチ操作が行われた時間A、第2のタッチ操作の入力タイムアウトを示す時間B、第3のタッチ操作が行われた時間C、しきい値学習完了を示す時間D、および音声入力タイムアウトを示す時間Eを時間軸上に示している。
図6(b)は、音声入力部105に入力される音声の入力レベルの時間変化を示している。実線は発話音声F(Fは発話音声の先頭、Fは発話音声の末尾)を示し、一点破線は騒音Gを示している。音声入力レベルの軸上に示した値Hは第1の音声区間検出しきい値を示し、値Iは第2の音声区間検出しきい値を示している。
図6(c)は、音声認識装置200のCPU負荷の時間変化を示している。領域Kはしきい値学習処理の負荷を示し、領域Lは音声区間検出処理の負荷を示し、領域Mは音声認識処理の負荷を示している。
ユーザがタッチパネルの一部を指で押下すると、タッチ操作入力部101は当該タッチ操作を検出し(ステップST1;YES)、タッチ操作を検知した座標値を取得して非発話区間判定部203および操作状態判定部201に出力する(ステップST31)。非発話区間判定部203はステップST31で出力された座標値を取得すると、内蔵されたタイマを起動してタッチ操作を検出してからの経過時間の計測を開始する(ステップST3)。さらに非発話区間判定部203は、音声入力部105に音声入力の開始を指示し、音声入力部105は当該指示に基づいて音声の入力受け付けを開始し(ステップST4)、取得した音声を音声データに変換する(ステップST5)。
一方、操作状態判定部201は、ステップST31で出力された座標値を取得すると、操作シナリオ記憶部202を参照して操作画面の操作状態を判定する(ステップST32)。判定結果は非発話区間判定部203に出力される。非発話区間判定部203は、ステップST31で出力された座標値およびステップST32で出力された操作状態を参照してタッチ操作が発話を伴わない非発話の操作であるか否か判定を行う(ステップST33)。非発話の操作である場合(ステップST33;YES)、非発話区間判定部203は、音声区間検出しきい値学習部106に対して音声区間検出のしきい値を学習するよう指示し、当該指示に基づいて音声区間検出しきい値学習部106は、例えば音声入力部105から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を記録する(ステップST11)。その後、ステップST12、ST13,ST15の処理を行い、ステップST1の処理に戻る。
ステップST33において非発話の操作であると判定される場合(ステップST33;YES)の例を、以下に2つ示す。
まず、操作状態が「初期状態」から「操作画面選択状態」への遷移を示す場合を例に説明する。図6(a)の時間Aで示す第1のタッチ操作が入力された場合、ユーザの第1のタッチ操作が初期画面で行われ、当該第1のタッチ操作で入力された座標値が特定の操作画面への移行を選択する領域(例えば、操作画面選択へ進むボタン)内であった場合、操作状態判定部201は、ステップST32として操作シナリオ記憶部202を参照して、操作状態が「初期状態」から「操作画面選択状態」に遷移することを示す遷移情報を判定結果として取得する。
非発話区間判定部203は、ステップST32で取得された操作状態を参照して「初期状態」でのタッチ操作は、画面の遷移を行うための発話を必要としない非発話の操作であると判定する(ステップST33;YES)。非発話の操作であると判定された場合には、第1のタッチ操作入力タイムアウトの時間Bに到達するまで音声区間しきい値学習処理のみが動作する(図6(c)の時間Aから時間Bにおける領域K(音声区間検出しきい値学習処理)参照)。
次に、「操作画面選択状態」から「選択画面での操作状態」への遷移を示す場合を例に説明する。図6(a)の時間Bで示す第2のタッチ操作が入力された場合、ユーザの第2のタッチ操作が操作画面選択画面で行われ、当該第2のタッチ操作で入力された座標値が特定の操作画面への移行を選択する領域(例えば、操作画面を選択するボタン)内であった場合、操作状態判定部201はステップST32として操作シナリオ記憶部202を参照して、操作状態が「操作画面選択状態」から「選択画面での操作状態」に遷移することを示す遷移情報を判定結果として取得する。
非発話区間判定部203は、ステップST32で取得された操作状態を参照して、「操作画面選択状態」でのタッチ操作は非発話の操作であると判定する(ステップST33;YES)。非発話の操作であると判定された場合には、第2のタッチ操作入力タイムアウトの時間Bに到達するまで音声区間しきい値学習処理のみが動作する(図6(c)の時間Aから時間Bにおける領域K(音声区間検出しきい値学習処理)参照)。
一方、発話の操作である場合(ステップST33;NO)、非発話区間判定部203は、音声区間検出しきい値学習部106に対して音声区間検出のしきい値を学習するよう指示し、当該指示に基づいて音声区間検出しきい値学習部106は、例えば音声入力部105から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を学習し、第2の音声区間検出しきい値として保存する(ステップST16)。その後、ステップST17からステップST22と同様の処理を行う。
ステップST33において発話の操作であると判定される場合(ステップST33;NO)の例を、以下に示す。
「選択画面での操作状態」から「特定項目の入力状態」への遷移を示す場合を例に説明する。図6(a)の時間Cで示す第3のタッチ操作が入力された場合、ユーザの第3のタッチ操作が選択画面での操作画面で行われ、当該第3のタッチ操作で入力された座標値が特定の操作項目への移行を選択する領域(例えば、項目を選択するボタン)内であった場合、操作状態判定部201はステップST32として操作シナリオ記憶部202を参照して、操作状態が「操作画面での操作状態」から「特定項目の入力状態」に遷移することを示す遷移情報を判定結果として取得する。
非発話区間判定部203は、ステップST32で取得された操作状態を参照して「選択画面での操作状態」でのタッチ操作であり、且つステップSTST31で出力された座標値が発話を伴う特定の項目の入力領域内である場合に、発話の操作であると判定する(ステップST33;NO)。発話の操作であると判定された場合には、しきい値学習完了の時間Dまで音声区間しきい値学習処理が動作し、さらに音声入力タイムアウトの時間Eまで音声区間検出処理および音声認識処理が動作する((図6(c)の時間Cから時間Dにおける領域K(音声区間検出しきい値学習処理)、時間Dから時間Eにおける領域L(音声区間検出処理)および領域M(音声認識処理)参照)。
以上のように、この実施の形態2によれば、操作シナリオ記憶部202に記憶されたタッチ操作により遷移する操作状態と、タッチ操作入力部101から入力されるタッチ操作の情報とから、ユーザの操作状態を判定する操作状態判定部201を備え、非発話の操作であると判定された場合に音声区間検出しきい値学習部106に対して第1の音声区間検出しきい値の学習を指示する非発話区間判定部203を備えるように構成したので、非発話の操作を検出するためにカメラなどの撮像手段を必要とせず、演算量の大きい画像認識処理を必要としないことから、処理性能の低いタブレット端末に当該音声認識装置200を適用した場合にも音声認識性能の低下を抑制することができる。
また、発話の操作を検出した後に学習した第2の音声区間検出しきい値を用いて音声区間の検出に失敗した場合に、非発話の操作時に学習した第1の音声区間検出しきい値を用いて再度音声区間検出を行うように構成したので、発話の操作時に適切なしきい値が設定できなかった場合にも正しい音声区間を検出することができる。
また、非発話の操作を検出するためにカメラなどの入力手段を必要とせず、入力手段の消費電力を抑制することができる。これにより、バッテリ寿命の制約が大きいタブレット端末などにおいて利便性を向上させることができる。
実施の形態3.
上述した実施の形態1および実施の形態2を組み合わせて音声認識装置を構成してもよい。
図8は、実施の形態3に係る音声認識装置300の構成を示すブロック図である。音声認識装置300は、図4で示した実施の形態2に係る音声認識装置200に画像入力部102および口唇画像認識部103を追加して設けると共に、非発話区間判定部203を非発話区間判定部301に置き換えて構成している。
非発話区間判定部301が発話を伴わない非発話の操作であると判定した場合に、画像入力部102がカメラなどの撮像手段により撮影された動画像を取得して画像データに変更し、口唇画像認識部103が取得された画像データの解析を行い、ユーザの口唇の動きを認識する。口唇画像認識部103においてユーザが発話していないと判定された場合に、非発話区間判定部301は音声区間検出しきい値学習部106に音声区間検出のしきい値の学習を指示する。
次に、図9および図10を参照しながら、実施の形態3に係る音声認識装置300の動作について説明する。図9は実施の形態3に係る音声認識装置300の入力操作の一例を示す説明図であり、図10は実施の形態3に係る音声認識装置300の動作を示すフローチャートである。なお、以下では実施の形態2に係る音声認識装置200と同一のステップには図7で使用した符号と同一の符号を付し、説明を省略または簡略化する。
まず、図9(a)から図9(c)の構成は実施の形態2の図6で示した構成と同一であり、図9(c)における画像認識処理を示す領域Jが追加されている点のみが異なる。
ステップST33において、非発話区間判定部301がタッチ操作入力部101から出力された座標値および操作状態判定部201から出力された操作状態を参照してタッチ操作が発話を伴わない非発話の操作であるか否か判定を行う処理までは実施の形態2と同一であるため、説明を省略する。非発話の操作である場合(ステップST33;YES)、非発話区間判定部301は、実施の形態1の図3で示したステップST11からステップST15の処理を行い、ステップST1の処理に戻る。すなわち、実施の形態2の処理に加えて、画像入力部102および口唇画像認識部103の画像認識処理を追加して行う。一方、発話の操作である場合(ステップST33;NO)、ステップST16からステップST22の処理を行い、ステップST1の処理に戻る。
ステップST33において非発話の操作であると判定される場合(ステップST33;YES)の例は、図9における第1のタッチ操作および第2のタッチ操作である。一方、ステップST33において発話の操作であると判定される場合(ステップST33;NO)の例は、図9における第3のタッチ操作である。なお、図9(c)において、第1のタッチ操作および第2のタッチ操作における音声区間検出しきい値学習処理(領域K参照)に加えて画像認識処理(領域J参照)がさらに行われている。その他は実施の形態2で示した図6と同一であるため、詳細な説明は省略する。
以上のように、この実施の形態3によれば、操作シナリオ記憶部202に記憶されたタッチ操作により遷移する操作状態と、タッチ操作入力部101から入力されるタッチ操作の情報とから、ユーザの操作状態を判定する操作状態判定部201を備え、非発話の操作であると判定された場合にのみ口唇画像認識部103に対して画像認識処理を指示し、非発話の操作であると判定された場合にのみ音声区間検出しきい値学習部106に対して第1の音声区間検出しきい値の学習を指示する非発話区間判定部301を備えるように構成したので、処理負荷の大きい画像認識処理と音声認識処理が同時に動作しないように制御し、且つ操作シナリオに基づいて画像認識処理を行う場合を制限することができる。また、確実にユーザが発話を行っていない時に第1の音声区間検出しきい値を学習することができる。これらにより、処理性能の低いタブレット端末などに当該音声認識装置300を適用した場合にも音声認識性能を向上させることができる。
また、発話の操作を検出した後で学習した第2の音声区間検出しきい値を用いて音声区間検出に失敗した場合に、非発話の操作時に学習した第1の音声区間検出しきい値を用いて再度音声区間検出を行うように構成したので、発話の操作時に適切なしきい値が設定できなかった場合にも正しい音声区間を検出することができる。
また、上述した実施の形態3では、非発話の操作時のみカメラなどによって撮影した動画像に対して画像認識処理を行いユーザが発話しているか否かの判定を行う構成を示したが、カメラ以外の手段によって取得したデータを用いてユーザの発話を判定するように構成してもよい。例えば、タブレット端末が近接センサを搭載している場合には、当該近接センサによって取得したデータからタブレット端末のマイクとユーザの口唇との距離を算出し、マイクと口唇との距離があらかじめ設定したしきい値よりも小さくなった場合に、ユーザが発話したと判定するように構成してもよい。
これにより、音声認識処理が動作していない状態での装置への処理負荷の増大を抑制することができ、処理性能の低いタブレット端末において音声認識性能を向上させると共に、音声認識以外の処理を行うことができる。
さらに、近接センサを用いることにより、カメラを使用する場合よりも消費電力を抑制することができ、バッテリ寿命の制約が大きいタブレット端末において操作性を向上させることができる。
なお、上述した実施の形態1から実施の形態3では、音声区間検出しきい値学習部106が設定する音声入力レベルのしきい値を1つとする場合を例に示したが、非発話操作を検出するごとに音声区間検出しきい値学習部106が音声入力レベルのしきい値を学習し、学習したしきい値を複数設定するように構成してもよい。
複数のしきい値を設定する場合、音声区間検出部107は、図3のフローチャートで示したステップST19およびステップST20の音声区間検出処理を、設定された複数のしきい値を用いて複数回実施し、発話音声区間の先頭および末尾を検出した場合のみ、検出した音声区間として結果を出力するように構成してもよい。
これにより、音声区間検出処理のみ複数回実施させることができ、処理負荷の増大を抑制することができ、処理性能の低いタブレット端末に当該音声認識装置を適用した場合にも音声認識性能を向上させることができる。
また、上述した実施の形態1から実施の形態3では、図3のフローチャートで示したステップST20の判定処理において、音声区間が検出されなかった場合、音声認識を行うことなく、音声の入力を停止する構成を示したが、音声区間が検出されなかった場合にも音声認識を行って認識結果を出力するように構成してもよい。
例えば、発話音声の先頭を検出したが末尾が検出されずに音声入力タイムアウトとなった場合、検出した発話音声の先頭から音声入力タイムアウトとなるまでの音声区間を音声区間として検出して音声認識を行い、認識結果を出力するように構成してもよい。これにより、ユーザが発話の操作を行った場合に必ず音声認識結果が応答として出力されるため、ユーザが音声認識装置の挙動を容易に把握することができ、音声認識装置の操作性を向上させることができる。
また、上述した実施の形態1から実施の形態3は、タッチ操作で発話の操作を検出した後に学習した第2の音声区間検出しきい値を用いて音声区間の検出に失敗した場合(例えば、タイムアウトが発生した場合)に、タッチ操作で非発話の操作時に学習した第1の音声区間検出しきい値を用いて再度音声区間検出処理を行い、音声認識結果を出力するように構成したが、音声区間の検出に失敗した場合でも音声認識を行って認識結果を出力し、非発話の操作時に学習した第1の音声区間検出しきい値を用いて音声区間検出を実施して得られた音声認識結果を修正候補として提示するように構成してもよい。これにより、音声認識結果を最初に出力するまでの応答時間を短縮することができ、音声認識装置の操作性を向上させることができる。
上述した実施の形態1から実施の形態3で示した音声認識装置100,200,300は、例えば図11で示すハードウェア構成を有するタブレット端末などの携帯端末400に搭載される。図11の携帯端末400は、タッチパネル401、マイク402、カメラ403、CPU404、ROM(Read Only Memory)405、RAM(Random Access Memory)406およびストレージ407で構成されている。ここで、音声認識装置100,200,300を実行するハードウェアは、図11で示したCPU404、ROM405、RAM406およびストレージ407である。
タッチ操作入力部101、画像入力部102、口唇画像認識部103、非発話区間判定部104,203,301、音声入力部105、しきい値学習部106、音声区間検出部107、音声認識部108および操作状態判定部201は、CPU404がROM405、RAM406およびストレージ407に記憶されたプログラムを実行することにより、実現される。また、複数のプロセッサが連携して上述した機能を実行してもよい。
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る音声認識装置は、処理負荷を抑制することが可能なため、タブレット端末やスマートフォン端末など高い処理性能を有していない機器に適用し、迅速な音声認識結果の出力且つ性能の高い音声認識を行うのに適している。
100,200,300 音声認識装置、101 タッチ操作入力部、102 画像入力部、103 口唇画像認識部、104,203,301 非発話区間判定部、105 音声入力部、106 音声区間検出しきい値学習部、107 音声区間検出部、108 音声認識部、201 操作状態判定部、202 操作シナリオ記憶部、400 携帯端末、401 タッチパネル、402 マイク、403 カメラ、404 CPU、405 ROM、406 RAM、407 ストレージ。

Claims (6)

  1. 集音された音声を取得し、音声データに変換する音声入力部と、
    前記音声以外の情報を取得する非音声情報入力部と、
    前記非音声情報入力部が取得した前記音声以外の情報からユーザ状態を認識する非音声操作認識部と、
    前記非音声操作認識部が認識したユーザ状態から前記ユーザが発話しているか否か判定を行う非発話区間判定部と、
    前記非発話区間判定部が前記ユーザが発話していないと判定した場合に前記音声入力部が変換した音声データから第1のしきい値を設定し、前記非発話区間判定部が前記ユーザが発話していると判定した場合に前記音声入力部が変換した音声データから第2のしきい値を設定するしきい値学習部と、
    前記しきい値学習部が設定したしきい値を用いて前記音声入力部が変換した音声データからユーザの発話を示す音声区間を検出する音声区間検出部と、
    前記音声区間検出部が検出した音声区間の音声データを認識して認識結果を出力する音声認識部とを備え、
    前記音声区間検出部は、前記第2のしきい値を用いて前記音声区間を検出することができない場合に、前記第1のしきい値を適用して前記音声区間を検出することを特徴とする音声認識装置。
  2. 前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報および前記ユーザ状態を撮像した画像データを取得し、
    前記非音声操作認識部は、前記非音声情報入力部が取得した画像データから前記ユーザの口唇の動きを認識し、
    前記非発話区間判定部は、前記非音声情報入力部が取得した位置情報および前記非音声操作認識部が認識した口唇の動きを示す情報から前記ユーザが発話しているか否か判定を行うことを特徴とする請求項1記載の音声認識装置。
  3. 前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報を取得し、
    前記非音声操作認識部は、前記非音声情報入力部が取得した位置情報およびタッチ操作入力により遷移する前記ユーザの操作状態を示した遷移情報から、前記ユーザの操作入力の操作状態を認識し、
    前記非発話区間判定部は、前記非音声操作認識部が認識した操作状態および前記非音声情報入力部が取得した位置情報から、前記ユーザが発話しているか否か判定を行うことを特徴とする請求項1記載の音声認識装置。
  4. 前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報および前記ユーザ状態を撮像した画像データを取得し、
    前記非音声操作認識部は、前記非音声情報入力部が取得した位置情報およびタッチ操作入力により遷移する前記ユーザの操作状態を示した遷移情報から、前記ユーザの操作入力の操作状態を認識し、且つ前記非音声情報入力部が取得した画像データから前記ユーザの口唇の動きを認識し、
    前記非発話区間判定部は、前記非音声操作認識部が認識した操作状態および口唇の動きを示す情報、および前記非音声情報入力部が取得した位置情報から、前記ユーザが発話しているか否か判定を行うことを特徴とする請求項1記載の音声認識装置。
  5. 前記音声区間検出部は、前記音声区間の開始点を検出してからの時間をカウントし、当該カウントした値が設定されたタイムアウト時間に到達しても前記音声区間の終了点を検出できない場合に、前記第2のしきい値を用いて前記音声区間の開始点から前記タイムアウト時間までを前記音声区間として検出し、さらに前記第1のしきい値を用いて前記音声区間の開始点から前記タイムアウト時間までを修正候補の音声区間として検出し、
    前記音声認識部は、前記音声区間検出部が検出した前記音声区間の音声データを認識して認識結果を出力すると共に、前記修正候補の音声区間の音声データを認識して認識結果修正候補を出力することを特徴とする請求項1記載の音声認識装置。
  6. 音声入力部が、集音された音声を取得し、音声データに変換するステップと、
    非音声情報入力部が、前記音声以外の情報を取得するステップと、
    非音声操作認識部が、前記音声以外の情報からユーザ状態を認識するステップと、
    非発話区間判定部が、前記認識したユーザ状態から前記ユーザが発話しているか否か判定を行うステップと、
    しきい値学習部が、前記ユーザが発話していないと判定された場合に前記音声データから第1のしきい値を設定し、前記ユーザが発話していと判定された場合に前記音声データから第2のしきい値を設定するステップと、
    音声区間検出部が、前記第1のしきい値または前記第2のしきい値を用いて前記音声入力部が変換した音声データからユーザの発話を示す音声区間を検出するステップであって、前記第2のしきい値を用いて前記音声区間を検出することができない場合に、前記第1のしきい値を適用して前記音声区間を検出するステップと、
    音声認識部が、前記検出した音声区間の音声データを認識して認識結果を出力するステップとを備えたことを特徴とする音声認識方法。
JP2016564532A 2014-12-18 2014-12-18 音声認識装置および音声認識方法 Expired - Fee Related JP6230726B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/083575 WO2016098228A1 (ja) 2014-12-18 2014-12-18 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JPWO2016098228A1 JPWO2016098228A1 (ja) 2017-04-27
JP6230726B2 true JP6230726B2 (ja) 2017-11-15

Family

ID=56126149

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016564532A Expired - Fee Related JP6230726B2 (ja) 2014-12-18 2014-12-18 音声認識装置および音声認識方法

Country Status (5)

Country Link
US (1) US20170287472A1 (ja)
JP (1) JP6230726B2 (ja)
CN (1) CN107004405A (ja)
DE (1) DE112014007265T5 (ja)
WO (1) WO2016098228A1 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
JP2018005274A (ja) * 2016-06-27 2018-01-11 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) * 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
KR102133728B1 (ko) * 2017-11-24 2020-07-21 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
CN107992813A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇部状态检测方法及装置
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
JP7351105B2 (ja) * 2018-06-21 2023-09-27 カシオ計算機株式会社 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット
CN112585674A (zh) * 2018-08-31 2021-03-30 三菱电机株式会社 信息处理装置、信息处理方法和程序
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109558788B (zh) * 2018-10-08 2023-10-27 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109410957B (zh) * 2018-11-30 2023-05-23 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7266448B2 (ja) * 2019-04-12 2023-04-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識方法、話者認識装置、及び話者認識プログラム
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2648014B2 (ja) * 1990-10-16 1997-08-27 三洋電機株式会社 音声切り出し装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
ATE389934T1 (de) * 2003-01-24 2008-04-15 Sony Ericsson Mobile Comm Ab Rauschreduzierung und audiovisuelle sprachaktivitätsdetektion
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
JP2007199552A (ja) * 2006-01-30 2007-08-09 Toyota Motor Corp 音声認識装置と音声認識方法
JP4755918B2 (ja) * 2006-02-22 2011-08-24 東芝テック株式会社 データ入力装置及び方法並びにプログラム
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP4715738B2 (ja) * 2006-12-19 2011-07-06 トヨタ自動車株式会社 発話検出装置及び発話検出方法
JP2009098217A (ja) * 2007-10-12 2009-05-07 Pioneer Electronic Corp 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
JP5797009B2 (ja) * 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
JP4959025B1 (ja) * 2011-11-29 2012-06-20 株式会社ATR−Trek 発話区間検出装置及びプログラム
JP6051991B2 (ja) * 2013-03-21 2016-12-27 富士通株式会社 信号処理装置、信号処理方法、及び信号処理プログラム

Also Published As

Publication number Publication date
US20170287472A1 (en) 2017-10-05
DE112014007265T5 (de) 2017-09-07
JPWO2016098228A1 (ja) 2017-04-27
CN107004405A (zh) 2017-08-01
WO2016098228A1 (ja) 2016-06-23

Similar Documents

Publication Publication Date Title
JP6230726B2 (ja) 音声認識装置および音声認識方法
JP4557919B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
US10930303B2 (en) System and method for enhancing speech activity detection using facial feature detection
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20100277579A1 (en) Apparatus and method for detecting voice based on motion information
US20140222430A1 (en) System and Method for Multimodal Utterance Detection
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
US20160379633A1 (en) Speech-Controlled Actions Based on Keywords and Context Thereof
JP6844608B2 (ja) 音声処理装置および音声処理方法
WO2015154419A1 (zh) 一种人机交互装置及方法
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
JP6562790B2 (ja) 対話装置および対話プログラム
JP2006181651A (ja) 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
KR20150112337A (ko) 디스플레이 장치 및 그 사용자 인터랙션 방법
JP5797009B2 (ja) 音声認識装置、ロボット、及び音声認識方法
JP2010128015A (ja) 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム
JP2011257943A (ja) ジェスチャ操作入力装置
JP2015175983A (ja) 音声認識装置、音声認識方法及びプログラム
JP6827536B2 (ja) 音声認識装置および音声認識方法
JP7215417B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20140297257A1 (en) Motion sensor-based portable automatic interpretation apparatus and control method thereof
JP6916130B2 (ja) 話者推定方法および話者推定装置
JP2015194766A (ja) 音声認識装置および音声認識方法
JP2020067562A (ja) ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法
JP2004301893A (ja) 音声認識装置の制御方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171017

R150 Certificate of patent or registration of utility model

Ref document number: 6230726

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees