JP6553111B2 - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP6553111B2
JP6553111B2 JP2017054907A JP2017054907A JP6553111B2 JP 6553111 B2 JP6553111 B2 JP 6553111B2 JP 2017054907 A JP2017054907 A JP 2017054907A JP 2017054907 A JP2017054907 A JP 2017054907A JP 6553111 B2 JP6553111 B2 JP 6553111B2
Authority
JP
Japan
Prior art keywords
threshold
voice signal
voice
signal
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017054907A
Other languages
English (en)
Other versions
JP2018156044A (ja
Inventor
籠嶋 岳彦
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017054907A priority Critical patent/JP6553111B2/ja
Priority to CN201710767713.4A priority patent/CN108630202B/zh
Priority to US15/705,134 priority patent/US10579327B2/en
Publication of JP2018156044A publication Critical patent/JP2018156044A/ja
Application granted granted Critical
Publication of JP6553111B2 publication Critical patent/JP6553111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60QARRANGEMENT OF SIGNALLING OR LIGHTING DEVICES, THE MOUNTING OR SUPPORTING THEREOF OR CIRCUITS THEREFOR, FOR VEHICLES IN GENERAL
    • B60Q9/00Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling
    • B60Q9/002Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling for parking purposes, e.g. for warning the driver that his vehicle has contacted or is about to contact an obstacle
    • B60Q9/007Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling for parking purposes, e.g. for warning the driver that his vehicle has contacted or is about to contact an obstacle providing information about the distance to an obstacle, e.g. varying sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Description

本実施形態は、音声認識装置、音声認識方法及び音声認識プログラムに関する。
音声認識装置は、マイクロホンで対象とする話者の音声を収録して認識し、その認識結果をテキスト化(文字に)する機能を有している。しかし、環境によっては背景にある雑音と音声とを区別しにくい。特に、複数人の音声を録音する場合に、マイクロホンからの距離や向きによって音声を取得しくい状況が生じる。また、室内や会議等では一人の音声でも反響によって音声認識に適さない音が含まれる場合がある。しかし、確実に音声を取得するために、音量の小さい音声をとれば雑音との区別がより難しくなる。
特許第5538415号公報
以上のように、音声認識のための音量に対する閾値を環境に応じて適切に設定することが困難であった。
本実施形態はユーザとのインタラクティブな調整指示に基づいて、ユーザ所望の範囲での音声取得が可能になるような音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
実施形態に係る音声認識装置は、取得部と、閾値設定部と、認識部とを備える。取得部は、音声を集音して音声信号を取得する。閾値設定部は、前記音声信号に対する閾値を設定する。認識部は、認識指示入力に従って前記閾値と前記音声信号とを比較して、前記音声信号が閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上の場合は、認識対象の話者の音声信号として認識処理を実行する。前記閾値設定部は、第1の閾値t1と第2の閾値t2(t1<t2)とを用意し、前記認識部は、第2の閾値t2を前記音声信号と比較し、前記音声信号が前記第2の閾値t2より高い場合には、音声認識処理に移行し、前記閾値設定部は、前記音声信号が前記第2の閾値t2を超えない場合には、前記第2の閾値t2の再設定を行い、前記認識部は、前記第1の閾値t1を前記音声信号と比較し、前記音声信号が前記第1の閾値t1を超えた場合には音声認識処理を行い、音声信号の再取得を促し、再取得の音声信号を再度前記第1の閾値t1と比較し、再取得の音声信号が前記第1の閾値t1を超えた場合には音声認識処理を行い、前記閾値設定部は、二回目の音声認識結果が一回目の音声認識結果と同じ場合には、前記第2の閾値t2を下げて再設定し、前記音声信号、再取得の音声信号が前記第1の閾値t1を超えない場合には、その音声信号を破棄する
第1の実施形態に係る音声認識装置の構成を示すブロック図。 第1の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第2の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第2の実施形態に係る音声認識装置の具体例を示す概念図。 第3の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第4の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第4の実施形態に係る音声認識装置の表示例を示す概念図。 第5の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第5の実施形態に係る音声認識装置に併用して有用な残響除去機能を有する音響処理装置の構成を示すブロック図。 第1〜第5の実施形態に係る音声認識装置をコンピュータ装置によって実現する場合の構成を示すブロック図。
音声認識処理では、例えば、収録点からの距離に応じた閾値を設定する方法によって、閾値に満たない音量の音声信号はカットし、閾値以上となる音量の音声信号が入力された場合に、その音声を認識処理するようにすることができる。ただし、閾値の設定は、環境によってセンシティブなので、常に適正な値に設定されるとは限らない。そこで、ユーザとのインタラクティブな調整指示に基づいて、ユーザ所望の範囲での音声取得が可能になるような音声認識装置を提供する。
以下、本発明に係る実施形態について、図面を参照して説明する。
(第1の実施形態)
図1は、第1の実施形態に係る音声認識装置100の構成を示すブロック図である。この音声認識装置は、マイクロホン101によって集音される音声信号を変換器102でデジタル信号に変換した上で、信号処理器103に入力する。この信号処理器103は、指示入力装置104からの指示に従って、音声信号を諸条件に基づく閾値と比較し、閾値に満たない信号成分をカットした上で音声信号の音声認識を行い、テキストデータに変換して、表示装置105に表示させる。
上記構成による音声認識装置100において、図2を参照してその音声認識処理について説明する。
図2は、上記信号処理器103における音声認識処理の流れを示すフローチャートである。本実施形態に係る音声認識処理では、調整処理過程と認識処理過程とを備える。
調整処理過程では、指示入力装置104からの調整指示入力を待機し(ステップS11)、調整指示入力があった場合には調整区間を設定し(ステップS12)、その調整期間の音声信号を切り出して(ステップS13)、閾値を入力音声信号の音量レベルより低い値に調整し登録する(ステップS14)。認識処理過程では、指示入力装置104からの認識指示入力を待機し(ステップS15)、認識指示入力があった場合には登録された閾値を読み出し(ステップS16)、その閾値と入力音声信号とを比較して(ステップS17)、入力音声信号の音量レベルが閾値を上回るか否かを判断する(ステップS18)。ここで入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し(ステップS19)、ステップS18に戻って次の認識指示入力を待機する。入力音声信号の音量レベルが閾値を超えた場合は、認識対象の話者の音声信号として認識処理を実行し(ステップS20)、テキストデータに変換して(ステップS21)、表示装置105に表示させる(ステップS22)。
上記の音声認識処理によれば、調整指示入力によって設定される調整区間の入力音声信号について閾値を調整し登録するので、その閾値よりも音量が小さい雑音や対象者以外の会話の信号を排除し、閾値以上の音量で入力される認識対象の話者の音声信号を収録して音声認識を実行することが可能となる。
なお、上記実施形態では、閾値調整時に調整指示入力をトリガにして調整区間を設定するようにしたが、その入力操作時に「閾値を調整するので何かお話してください。」のガイダンスを流し、ガイダンス通知後に調整区間を設定して、その調整区間の入力音声信号について閾値を調整するようにしてもよい。また、調整指示入力に代わってトリガーワードを利用してもよい。すなわち、認識対象の話者が発声する予め設定されたトリガーワードを検知し、このトリガーワードまたはトリガーワードに続く音声信号について閾値を調整するようにしてもよい。例えば、トリガーワードとしてニックネーム(愛称)「AAA」を登録しておき、「AAA、テレビスイッチオン」の音声信号が入力された場合に、「AAA」に反応して調整処理を起動し、「テレビスイッチオン」の音声信号により閾値を調整する。
上述した実施形態における音量レベルとしては、入力音声信号の所定の時間区間毎のパワーを用いることができるが、他にも種々の指標を用いることができる。他えば、非音声区間において背景雑音のパワーを求めておいて、入力音声信号のパワーと背景雑音のパワーの比を音量レベルとして用いても良い。このようにすることで、マイクの感度やアンプのゲインが変更された場合でも閾値の再調整が不要という効果がある。またこのほかにも、入力音声の周期性を表す指標などの音声らしさを表す指標を組み合わせて用いるようにしてもよい。複数の指標を組み合わせたベクトルを用いる場合は、あらかじめ混合ガウス分布などで学習した音声のモデルとベクトルとを照合して得られる尤度を音量レベルとして用いるようにしてもよい。これにより、音量の大きな雑音が音声として切り出される誤りが減少する効果がある。
(第2の実施形態)
次に、第2の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図3は、本実施形態に係る音声認識処理の流れを示すフローチャート、図4は具体例である。なお、図3において、図2に示す第1の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、再調整処理過程を備える。すなわち、ステップS22において、テキストデータが表示装置105に表示された時、ユーザがその表示内容を見て、認識させたくない音声の認識結果があった場合、指示入力装置103を通じて再調整処理を指示する(ステップS23)。この再調整処理では、認識させたくない音声の認識結果を指定して削除する指示の入力を待機し(ステップS24)、その削除指示を受けると、その音声が検出されないレベルまで閾値を上げる(ステップS25)。これにより、音声認識処理において、認識対象の話者の音声信号だけが拾われ、音声認識処理に供されるようになる。
図4に具体例を示す。ここでは、図4(a)に示すように配置されている社員旅行の企画メンバーA,B,Cが、音声認識装置のマイクロホンMに向かって会議を行っているとき、近隣の非企画メンバーDの声を拾ってしまう場合を想定する。
会議の内容が図4(b)に示すように音声認識され、テキスト表示されたとする。このとき、近隣の非企画メンバーDの声もテキスト表示されている。この非企画メンバーDの音声認識は不要なので、再調整処理を指示し、非企画メンバーDのテキスト部分を指定して削除を指示する。これにより、非企画メンバーDの音声が検出されないレベルまで閾値が上がり、以後の会話にDの声は無視されるようになる。
(第3の実施形態)
次に、第3の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図5は、本実施形態に係る音声認識処理の流れを示すフローチャートである。なお、図5において、図2に示す第1の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、調整処理過程において、ステップS13の処理後、閾値を2つ(第1の閾値t1、第2の閾値t2、t1<t2)用意し登録する(ステップS26)。ここで、ステップS15で認識指示入力があった場合、第2の閾値t2を読み出し(ステップS27)、第2の閾値t2と入力音声信号とを比較し(ステップS28)、入力音声信号の音量レベルが第2の閾値t2より高い場合には、ステップS20の音声認識処理に移行する。
さらに、本実施形態では、ステップS29で入力音声信号の音量レベルが第2の閾値t2を超えない場合には、閾値再調整を行う。
具体的には、まず、第1の閾値t1を読み出し(ステップS30)、第1の閾値t1と入力音声信号とを比較し(ステップS31)、入力音声信号の音量レベルが第1の閾値t1を超えた場合には、音声認識処理を行う(ステップS33)。この音声認識処理が一回目か否かを判断し(ステップS34)、1回目の場合は音声再入力を指示し(ステップS35)、音声信号が再入力された場合(ステップS36)には、ステップS30に戻り、第1の閾値t1との比較を行う。ステップS34の音声認識処理が二回目で認識結果が一回目と同じ内容の場合には、「声が小さくて入らなかったのでもう一度言い直した」と判断して第2の閾値t2を下げて再登録し(ステップS37)、ステップS32の比較処理に移行する。ステップS32で音量レベルが第1の閾値t1を超えない場合には、ステップS19の入力音声信号破棄に移行し、一連の処理を終了する。
なお、ステップS37で第2の閾値t2が下げられた場合は、過去の認識結果の中から閾値以上になる結果を遡って出力するようにしてもよい。
(第4の実施形態)
次に、第4の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図6は、本実施形態に係る音声認識処理の流れを示すフローチャート、図7は表示例である。なお、図6において、図2に示す第1の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、閾値の調整・登録処理(ステップS14)において、入力音声信号の音量を計測し(ステップS141)、表示装置105に、図7に示すような音量レベルを示すレベルメータと閾値を表示し(ステップS142)、ユーザが指示入力装置104を通じて指定する値に閾値を調整する(ステップS143)。
このように、本実施形態によれば、音声特徴量のレベルメータと、閾値を表示して、ユーザが閾値を調整できるようになる。
(第5の実施形態)
次に、第5の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図8は、本実施形態に係る音声認識処理の流れを示すフローチャートである。なお、図8において、図2に示す第1の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、閾値の調整・登録処理(ステップS14)において、入力音声信号の特徴量を抽出し(ステップS144)、その特徴量からマイクロホン101と話者との距離を推定し(ステップS145)、所定距離範囲内の話者の音声信号を取り込む値に閾値を調整する(ステップS146)。これにより、(1)マイクロホン101から近い話者の声だけ認識することが可能となる。さらに、話者の声の大きさを推定して閾値を調整する(ステップS147)。これにより、(2)話者の声の大きさを推定して認識するかどうかを判断するため、近くの話者のひそひそ話しは認識しないようにすることができる。
ここで、上記音声信号の特徴量として、残響音を利用することができる。すなわち、直接音と残響音との比率が距離によって異なることに着目し、残響除去のための音響処理装置(収録した音声信号から跳ね返ってきた音声信号を差し引く)を併用して残響音の音量を計測することで距離を推定することが可能となる。
上記残響除去のための音響処理装置の具体的な構成を図9に示す。図9に示す音響処理装置200は、記憶部201と、推定部202と、除去部203とを備える。記憶部201は、第1処理区間に含まれる第1観測信号に対して残響の除去が完了した信号を表す参照信号を記憶する。推定部202は、遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第2観測信号と参照信号とを用いて残響除去フィルタのフィルタ係数を推定する。除去部203は、第2観測信号と、参照信号と、推定されたフィルタ係数を有する残響除去フィルタとを用いて、第2観測信号から残響が除去された信号を表す出力信号を求める。
上記構成による音響処理装置は、音源から離れたマイクロホンにより集音する状況に対して、その物理現象と合致したモデルに基づいて、フィルタ係数が不安定とならない手法により、残響除去フィルタを推定し、推定したフィルタを用いて残響除去処理を行う。これにより、残響除去処理の精度が向上し、音声認識のための特徴量として有効活用することができる。
以上説明したとおり、第1乃至第5の実施形態によれば、音声認識処理の精度を向上させることが可能となる。
次に、第1乃至第5の実施形態に係る音声認識装置のハードウェア構成について図8を用いて説明する。図10は、第1から第5の実施形態に係る音声認識装置のハードウェア構成例を示すブロック図である。
第1乃至第5の実施形態にかかる音声認識装置は、CPU(Central Processing Unit)301などの制御装置と、ROM(Read Only Memory)302やRAM(Random Access Memory)303などの記憶装置と、マイクロホン101、操作入力装置104、表示装置105が接続される入出力I/F304と、ネットワークに接続して通信を行う通信I/F305と、各部を接続するバス306を備えている。
第1乃至第5の実施形態に係る音声認識装置で実行されるプログラムは、ROM302等に予め組み込まれて提供される。
第1乃至第5の実施形態に係る音声認識装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1乃至第5の実施形態にかかる音声認識装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1乃至第5の実施形態にかかる音声認識装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1乃至第5の実施形態にかかる音声認識装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、CPU301がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
100…音声認識装置、101…マイクロホン、102…変換器、103…信号処理器、104…指示入力装置、105…表示装置、
200…音響処理装置、201…記憶部、202…推定部、203…除去部、
301…CPU、302…ROM、303…RAM、304…入出力I/F、305…通信I/F、306…バス。

Claims (8)

  1. 音声を集音して音声信号を取得する取得部と、
    前記音声信号に対する閾値を設定する閾値設定部と、
    認識指示入力に従って前記閾値と前記音声信号とを比較して、前記音声信号が前記閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する認識部と
    を具備し、
    前記閾値設定部は、第1の閾値t1と第2の閾値t2(t1<t2)とを用意し、
    前記認識部は、第2の閾値t2を前記音声信号と比較し、前記音声信号が前記第2の閾値t2より高い場合には、音声認識処理に移行し、
    前記閾値設定部は、前記音声信号が前記第2の閾値t2を超えない場合には、前記第2の閾値t2の再設定を行い、
    前記認識部は、前記第1の閾値t1を前記音声信号と比較し、前記音声信号が前記第1の閾値t1を超えた場合には音声認識処理を行い、音声信号の再取得を促し、再取得の音声信号を再度前記第1の閾値t1と比較し、再取得の音声信号が前記第1の閾値t1を超えた場合には音声認識処理を行い、
    前記閾値設定部は、二回目の音声認識結果が一回目の音声認識結果と同じ場合には、前記第2の閾値t2を下げて再設定し、前記音声信号、再取得の音声信号が前記第1の閾値t1を超えない場合には、その音声信号を破棄する音声認識装置。
  2. 前記閾値設定部は、前記音声信号の音量を計測し、その音量レベルと前記閾値をユーザに提示して、ユーザが指定する値に閾値を設定する請求項1記載の音声認識装置。
  3. 音声を集音して音声信号を取得する取得部と、
    前記音声信号に対する閾値を設定する閾値設定部と、
    認識指示入力に従って前記閾値と前記音声信号とを比較して、前記音声信号が前記閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する認識部と
    を具備し、
    前記閾値設定部は、前記音声信号の特徴量を抽出し、その特徴量から前記取得部と前記話者との距離を推定し、所定距離範囲内の話者の音声信号を取り込む値に閾値を設定する音声認識装置。
  4. 前記取得部と前記話者との距離は、直接音と残響音との比率に基づいて推定する請求項記載の音声認識装置。
  5. 音声を集音して音声信号を取得し、
    前記音声信号に対する閾値を設定し、
    認識指示に従って前記閾値と前記音声信号とを比較して、前記音声信号が前記閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行し、
    前記閾値の設定は、
    第1の閾値t1と第2の閾値t2(t1<t2)とを用意し、
    第2の閾値t2を前記音声信号と比較し、前記音声信号が前記第2の閾値t2より高い場合には、音声認識処理に移行し、
    前記音声信号が前記第2の閾値t2を超えない場合には、前記第2の閾値t2の再設定を行い、
    前記第1の閾値t1を前記音声信号と比較し、前記音声信号が前記第1の閾値t1を超えた場合には音声認識処理を行い、音声信号の再取得を促し、再取得の音声信号を再度前記第1の閾値t1と比較し、再取得の音声信号が前記第1の閾値t1を超えた場合には音声認識処理を行い、
    二回目の音声認識結果が一回目の音声認識結果と同じ場合には、前記第2の閾値t2を下げて再設定し、前記音声信号、再取得の音声信号が前記第1の閾値t1を超えない場合には、その音声信号を破棄する音声認識方法。
  6. 音声を集音して音声信号を取得し、
    前記音声信号に対する閾値を設定し、
    認識指示に従って前記閾値と前記音声信号とを比較して、前記音声信号が前記閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行し、
    前記閾値の設定は、前記音声信号の特徴量を抽出し、その特徴量から前記音声信号の取得位置と前記話者との距離を推定し、所定距離範囲内の話者の音声信号を取り込む値に閾値を設定する音声認識方法。
  7. 音声認識処理をコンピュータに実行させるための音声認識プログラムであって、
    音声を集音して音声信号を取得する取得ステップと、
    前記音声信号に対する閾値を設定する閾値設定ステップと、
    認識指示入力に従って前記閾値と前記音声信号とを比較して、前記音声信号が前記閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する認識ステップと
    を具備し、
    前記閾値設定ステップは、
    第1の閾値t1と第2の閾値t2(t1<t2)とを用意し、
    第2の閾値t2を前記音声信号と比較し、前記音声信号が前記第2の閾値t2より高い場合には、音声認識処理に移行し、
    前記音声信号が前記第2の閾値t2を超えない場合には、前記第2の閾値t2の再設定を行い、
    前記第1の閾値t1を前記音声信号と比較し、前記音声信号が前記第1の閾値t1を超えた場合には音声認識処理を行い、音声信号の再取得を促し、再取得の音声信号を再度前記第1の閾値t1と比較し、再取得の音声信号が前記第1の閾値t1を超えた場合には音声認識処理を行い、
    二回目の音声認識結果が一回目の音声認識結果と同じ場合には、前記第2の閾値t2を下げて再設定し、前記音声信号、再取得の音声信号が前記第1の閾値t1を超えない場合には、その音声信号を破棄する
    音声認識プログラム。
  8. 音声認識処理をコンピュータに実行させるための音声認識プログラムであって、
    音声を集音して音声信号を取得する取得ステップと、
    前記音声信号に対する閾値を設定する閾値設定ステップと、
    認識指示入力に従って前記閾値と前記音声信号とを比較して、前記音声信号が前記閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する認識ステップと
    を具備し、
    前記閾値設定ステップは、前記音声信号の特徴量を抽出し、その特徴量から前記音声信号の取得位置と前記話者との距離を推定し、所定距離範囲内の話者の音声信号を取り込む値に閾値を設定する音声認識プログラム。
JP2017054907A 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム Active JP6553111B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017054907A JP6553111B2 (ja) 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム
CN201710767713.4A CN108630202B (zh) 2017-03-21 2017-08-31 语音识别装置、语音识别方法以及记录介质
US15/705,134 US10579327B2 (en) 2017-03-21 2017-09-14 Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017054907A JP6553111B2 (ja) 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2018156044A JP2018156044A (ja) 2018-10-04
JP6553111B2 true JP6553111B2 (ja) 2019-07-31

Family

ID=63581073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017054907A Active JP6553111B2 (ja) 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (3)

Country Link
US (1) US10579327B2 (ja)
JP (1) JP6553111B2 (ja)
CN (1) CN108630202B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11462217B2 (en) 2019-06-11 2022-10-04 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6642808B2 (ja) * 2017-03-29 2020-02-12 京セラドキュメントソリューションズ株式会社 音声入力システム、音声入力装置および音声入力プログラム
JP7173049B2 (ja) * 2018-01-10 2022-11-16 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020085953A (ja) * 2018-11-16 2020-06-04 トヨタ自動車株式会社 音声認識支援装置及び音声認識支援プログラム
WO2020111880A1 (en) 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. User authentication method and apparatus
JP7131362B2 (ja) * 2018-12-20 2022-09-06 トヨタ自動車株式会社 制御装置、音声対話装置及びプログラム
KR20200084727A (ko) 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11308949B2 (en) * 2019-03-12 2022-04-19 International Business Machines Corporation Voice assistant response system based on a tone, keyword, language or etiquette behavioral rule
JP7266432B2 (ja) * 2019-03-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
CN110083645A (zh) 2019-05-06 2019-08-02 浙江核新同花顺网络信息股份有限公司 一种报告生成的系统和方法
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
CN110265018B (zh) * 2019-07-01 2022-03-04 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム
TWI719791B (zh) * 2019-12-31 2021-02-21 緯創資通股份有限公司 觸控靈敏度的調整方法及使用此方法的行動裝置
CN111416909B (zh) * 2020-03-31 2022-07-08 惠州Tcl移动通信有限公司 音量自适应调节方法、系统、存储介质及移动终端
CN112463107A (zh) * 2020-11-25 2021-03-09 Oppo广东移动通信有限公司 音频播放参数确定方法、装置、电子设备和可读存储介质
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0977172A4 (en) 1997-03-19 2000-12-27 Hitachi Ltd METHOD AND DEVICE FOR DETERMINING THE START AND END POINT OF A SOUND SECTION IN VIDEO
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
JP3891023B2 (ja) * 2002-04-01 2007-03-07 日本電気株式会社 通訳システム及びプログラム
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2009109536A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識システム及び音声認識装置
EP2293289B1 (en) * 2008-06-06 2012-05-30 Raytron, Inc. Speech recognition system and method
EP3258468B1 (en) 2008-11-10 2019-08-21 Google LLC Multisensory speech detection
JP5402089B2 (ja) * 2009-03-02 2014-01-29 富士通株式会社 音響信号変換装置、方法、及びプログラム
JP2011002534A (ja) * 2009-06-17 2011-01-06 Brother Industries Ltd 音声認識装置
JP5621783B2 (ja) * 2009-12-10 2014-11-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
JP5673330B2 (ja) 2011-04-25 2015-02-18 株式会社デンソー 音声入力装置
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
TWI601032B (zh) * 2013-08-02 2017-10-01 晨星半導體股份有限公司 應用於聲控裝置的控制器與相關方法
WO2015030642A1 (en) * 2013-08-29 2015-03-05 Telefonaktiebolaget L M Ericsson (Publ) Volume reduction for an electronic device
EP2878515B1 (en) * 2013-11-29 2017-03-08 Harman Becker Automotive Systems GmbH Generating an audio signal with a configurable distance cue
JP6276132B2 (ja) 2014-07-30 2018-02-07 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
CN105812517A (zh) * 2014-12-31 2016-07-27 陕西天涯信息技术有限公司 一种具有语音识别功能的受话装置
WO2016136044A1 (ja) * 2015-02-23 2016-09-01 ソニー株式会社 情報処理システムおよび情報処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11462217B2 (en) 2019-06-11 2022-10-04 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof

Also Published As

Publication number Publication date
US10579327B2 (en) 2020-03-03
US20180275951A1 (en) 2018-09-27
JP2018156044A (ja) 2018-10-04
CN108630202B (zh) 2021-12-03
CN108630202A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
JPH09212196A (ja) 雑音抑圧装置
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
JP2010112996A (ja) 音声処理装置、音声処理方法およびプログラム
JP6276132B2 (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
KR20190130533A (ko) 음성 검출기를 구비한 보청기 및 그 방법
JP2014126856A (ja) 雑音除去装置及びその制御方法
JP6374936B2 (ja) 音声認識方法、音声認識装置及びプログラム
KR20190129805A (ko) 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
KR20220104693A (ko) 라이브 스피치 검출
JP2006234888A (ja) 残響除去装置、残響除去方法、残響除去プログラムおよび記録媒体
JP4510539B2 (ja) 特定話者音声出力装置及び特定話者判定プログラム
CN110661923A (zh) 一种在会议中记录发言信息的方法和装置
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
CN113380244A (zh) 一种设备播放音量的智能调节方法和系统
JP2005157086A (ja) 音声認識装置
WO2021059497A1 (ja) 音信号処理装置、音信号処理方法および記憶媒体
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190703

R151 Written notification of patent or utility model registration

Ref document number: 6553111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151