JP2018156044A - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP2018156044A
JP2018156044A JP2017054907A JP2017054907A JP2018156044A JP 2018156044 A JP2018156044 A JP 2018156044A JP 2017054907 A JP2017054907 A JP 2017054907A JP 2017054907 A JP2017054907 A JP 2017054907A JP 2018156044 A JP2018156044 A JP 2018156044A
Authority
JP
Japan
Prior art keywords
threshold value
input
audio signal
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017054907A
Other languages
English (en)
Other versions
JP6553111B2 (ja
Inventor
籠嶋 岳彦
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017054907A priority Critical patent/JP6553111B2/ja
Priority to CN201710767713.4A priority patent/CN108630202B/zh
Priority to US15/705,134 priority patent/US10579327B2/en
Publication of JP2018156044A publication Critical patent/JP2018156044A/ja
Application granted granted Critical
Publication of JP6553111B2 publication Critical patent/JP6553111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60QARRANGEMENT OF SIGNALLING OR LIGHTING DEVICES, THE MOUNTING OR SUPPORTING THEREOF OR CIRCUITS THEREFOR, FOR VEHICLES IN GENERAL
    • B60Q9/00Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling
    • B60Q9/002Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling for parking purposes, e.g. for warning the driver that his vehicle has contacted or is about to contact an obstacle
    • B60Q9/007Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling for parking purposes, e.g. for warning the driver that his vehicle has contacted or is about to contact an obstacle providing information about the distance to an obstacle, e.g. varying sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】対象とする話者の音声を確実に収録し、音声認識を実行する。【解決手段】実施形態に係る音声認識装置は、取得部と、調整部と、認識部とを備える。取得部は、音声を集音して音声信号を取得する。調整部は、調整指示入力に従って閾値を入力音声信号の音量レベルより低い値に調整し登録する。認識部は、認識指示入力に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上の場合は、認識対象の話者の音声信号として認識処理を実行する。【選択図】図1

Description

本実施形態は、音声認識装置、音声認識方法及び音声認識プログラムに関する。
音声認識装置は、マイクロホンで対象とする話者の音声を収録して認識し、その認識結果をテキスト化(文字に)する機能を有している。しかし、環境によっては背景にある雑音と音声とを区別しにくい。特に、複数人の音声を録音する場合に、マイクロホンからの距離や向きによって音声を取得しくい状況が生じる。また、室内や会議等では一人の音声でも反響によって音声認識に適さない音が含まれる場合がある。しかし、確実に音声を取得するために、音量の小さい音声をとれば雑音との区別がより難しくなる。
特許第5538415号公報
以上のように、音声認識のための音量に対する閾値を環境に応じて適切に設定することが困難であった。
本実施形態はユーザとのインタラクティブな調整指示に基づいて、ユーザ所望の範囲での音声取得が可能になるような音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
実施形態に係る音声認識装置は、取得部と、調整部と、認識部とを備える。取得部は、音声を集音して音声信号を取得する。調整部は、調整指示入力に従って閾値を入力音声信号の音量レベルより低い値に調整し登録する。認識部は、認識指示入力に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上の場合は、認識対象の話者の音声信号として認識処理を実行する。
第1の実施形態に係る音声認識装置の構成を示すブロック図。 第1の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第2の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第2の実施形態に係る音声認識装置の具体例を示す概念図。 第3の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第4の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第4の実施形態に係る音声認識装置の表示例を示す概念図。 第5の実施形態に係る音声認識装置の処理の流れを示すフローチャート。 第5の実施形態に係る音声認識装置に併用して有用な残響除去機能を有する音響処理装置の構成を示すブロック図。 第1〜第5の実施形態に係る音声認識装置をコンピュータ装置によって実現する場合の構成を示すブロック図。
音声認識処理では、例えば、収録点からの距離に応じた閾値を設定する方法によって、閾値に満たない音量の音声信号はカットし、閾値以上となる音量の音声信号が入力された場合に、その音声を認識処理するようにすることができる。ただし、閾値の設定は、環境によってセンシティブなので、常に適正な値に設定されるとは限らない。そこで、ユーザとのインタラクティブな調整指示に基づいて、ユーザ所望の範囲での音声取得が可能になるような音声認識装置を提供する。
以下、本発明に係る実施形態について、図面を参照して説明する。
(第1の実施形態)
図1は、第1の実施形態に係る音声認識装置100の構成を示すブロック図である。この音声認識装置は、マイクロホン101によって集音される音声信号を変換器102でデジタル信号に変換した上で、信号処理器103に入力する。この信号処理器103は、指示入力装置104からの指示に従って、音声信号を諸条件に基づく閾値と比較し、閾値に満たない信号成分をカットした上で音声信号の音声認識を行い、テキストデータに変換して、表示装置105に表示させる。
上記構成による音声認識装置100において、図2を参照してその音声認識処理について説明する。
図2は、上記信号処理器103における音声認識処理の流れを示すフローチャートである。本実施形態に係る音声認識処理では、調整処理過程と認識処理過程とを備える。
調整処理過程では、指示入力装置104からの調整指示入力を待機し(ステップS11)、調整指示入力があった場合には調整区間を設定し(ステップS12)、その調整期間の音声信号を切り出して(ステップS13)、閾値を入力音声信号の音量レベルより低い値に調整し登録する(ステップS14)。認識処理過程では、指示入力装置104からの認識指示入力を待機し(ステップS15)、認識指示入力があった場合には登録された閾値を読み出し(ステップS16)、その閾値と入力音声信号とを比較して(ステップS17)、入力音声信号の音量レベルが閾値を上回るか否かを判断する(ステップS18)。ここで入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し(ステップS19)、ステップS18に戻って次の認識指示入力を待機する。入力音声信号の音量レベルが閾値を超えた場合は、認識対象の話者の音声信号として認識処理を実行し(ステップS20)、テキストデータに変換して(ステップS21)、表示装置105に表示させる(ステップS22)。
上記の音声認識処理によれば、調整指示入力によって設定される調整区間の入力音声信号について閾値を調整し登録するので、その閾値よりも音量が小さい雑音や対象者以外の会話の信号を排除し、閾値以上の音量で入力される認識対象の話者の音声信号を収録して音声認識を実行することが可能となる。
なお、上記実施形態では、閾値調整時に調整指示入力をトリガにして調整区間を設定するようにしたが、その入力操作時に「閾値を調整するので何かお話してください。」のガイダンスを流し、ガイダンス通知後に調整区間を設定して、その調整区間の入力音声信号について閾値を調整するようにしてもよい。また、調整指示入力に代わってトリガーワードを利用してもよい。すなわち、認識対象の話者が発声する予め設定されたトリガーワードを検知し、このトリガーワードまたはトリガーワードに続く音声信号について閾値を調整するようにしてもよい。例えば、トリガーワードとしてニックネーム(愛称)「AAA」を登録しておき、「AAA、テレビスイッチオン」の音声信号が入力された場合に、「AAA」に反応して調整処理を起動し、「テレビスイッチオン」の音声信号により閾値を調整する。
上述した実施形態における音量レベルとしては、入力音声信号の所定の時間区間毎のパワーを用いることができるが、他にも種々の指標を用いることができる。他えば、非音声区間において背景雑音のパワーを求めておいて、入力音声信号のパワーと背景雑音のパワーの比を音量レベルとして用いても良い。このようにすることで、マイクの感度やアンプのゲインが変更された場合でも閾値の再調整が不要という効果がある。またこのほかにも、入力音声の周期性を表す指標などの音声らしさを表す指標を組み合わせて用いるようにしてもよい。複数の指標を組み合わせたベクトルを用いる場合は、あらかじめ混合ガウス分布などで学習した音声のモデルとベクトルとを照合して得られる尤度を音量レベルとして用いるようにしてもよい。これにより、音量の大きな雑音が音声として切り出される誤りが減少する効果がある。
(第2の実施形態)
次に、第2の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図3は、本実施形態に係る音声認識処理の流れを示すフローチャート、図4は具体例である。なお、図3において、図2に示す第1の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、再調整処理過程を備える。すなわち、ステップS22において、テキストデータが表示装置105に表示された時、ユーザがその表示内容を見て、認識させたくない音声の認識結果があった場合、指示入力装置103を通じて再調整処理を指示する(ステップS23)。この再調整処理では、認識させたくない音声の認識結果を指定して削除する指示の入力を待機し(ステップS24)、その削除指示を受けると、その音声が検出されないレベルまで閾値を上げる(ステップS25)。これにより、音声認識処理において、認識対象の話者の音声信号だけが拾われ、音声認識処理に供されるようになる。
図4に具体例を示す。ここでは、図4(a)に示すように配置されている社員旅行の企画メンバーA,B,Cが、音声認識装置のマイクロホンMに向かって会議を行っているとき、近隣の非企画メンバーDの声を拾ってしまう場合を想定する。
会議の内容が図4(b)に示すように音声認識され、テキスト表示されたとする。このとき、近隣の非企画メンバーDの声もテキスト表示されている。この非企画メンバーDの音声認識は不要なので、再調整処理を指示し、非企画メンバーDのテキスト部分を指定して削除を指示する。これにより、非企画メンバーDの音声が検出されないレベルまで閾値が上がり、以後の会話にDの声は無視されるようになる。
(第3の実施形態)
次に、第3の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図5は、本実施形態に係る音声認識処理の流れを示すフローチャートである。なお、図5において、図2に示す第1の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、調整処理過程において、ステップS13の処理後、閾値を2つ(第1の閾値t1、第2の閾値t2、t1<t2)用意し登録する(ステップS26)。ここで、ステップS15で認識指示入力があった場合、第2の閾値t2を読み出し(ステップS27)、第2の閾値t2と入力音声信号とを比較し(ステップS28)、入力音声信号の音量レベルが第2の閾値t2より高い場合には、ステップS20の音声認識処理に移行する。
さらに、本実施形態では、ステップS29で入力音声信号の音量レベルが第2の閾値t2を超えない場合には、閾値再調整を行う。
具体的には、まず、第1の閾値t1を読み出し(ステップS30)、第1の閾値t1と入力音声信号とを比較し(ステップS31)、入力音声信号の音量レベルが第1の閾値t1を超えた場合には、音声認識処理を行う(ステップS33)。この音声認識処理が一回目か否かを判断し(ステップS34)、1回目の場合は音声再入力を指示し(ステップS35)、音声信号が再入力された場合(ステップS36)には、ステップS30に戻り、第1の閾値t1との比較を行う。ステップS34の音声認識処理が二回目で認識結果が一回目と同じ内容の場合には、「声が小さくて入らなかったのでもう一度言い直した」と判断して第2の閾値t2を下げて再登録し(ステップS37)、ステップS32の比較処理に移行する。ステップS32で音量レベルが第1の閾値t1を超えない場合には、ステップS19の入力音声信号破棄に移行し、一連の処理を終了する。
なお、ステップS37で第2の閾値t2が下げられた場合は、過去の認識結果の中から閾値以上になる結果を遡って出力するようにしてもよい。
(第4の実施形態)
次に、第4の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図6は、本実施形態に係る音声認識処理の流れを示すフローチャート、図7は表示例である。なお、図6において、図2に示す第1の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、閾値の調整・登録処理(ステップS14)において、入力音声信号の音量を計測し(ステップS141)、表示装置105に、図7に示すような音量レベルを示すレベルメータと閾値を表示し(ステップS142)、ユーザが指示入力装置104を通じて指定する値に閾値を調整する(ステップS143)。
このように、本実施形態によれば、音声特徴量のレベルメータと、閾値を表示して、ユーザが閾値を調整できるようになる。
(第5の実施形態)
次に、第5の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第1の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図8は、本実施形態に係る音声認識処理の流れを示すフローチャートである。なお、図8において、図2に示す第1の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、閾値の調整・登録処理(ステップS14)において、入力音声信号の特徴量を抽出し(ステップS144)、その特徴量からマイクロホン101と話者との距離を推定し(ステップS145)、所定距離範囲内の話者の音声信号を取り込む値に閾値を調整する(ステップS146)。これにより、(1)マイクロホン101から近い話者の声だけ認識することが可能となる。さらに、話者の声の大きさを推定して閾値を調整する(ステップS147)。これにより、(2)話者の声の大きさを推定して認識するかどうかを判断するため、近くの話者のひそひそ話しは認識しないようにすることができる。
ここで、上記音声信号の特徴量として、残響音を利用することができる。すなわち、直接音と残響音との比率が距離によって異なることに着目し、残響除去のための音響処理装置(収録した音声信号から跳ね返ってきた音声信号を差し引く)を併用して残響音の音量を計測することで距離を推定することが可能となる。
上記残響除去のための音響処理装置の具体的な構成を図9に示す。図9に示す音響処理装置200は、記憶部201と、推定部202と、除去部203とを備える。記憶部201は、第1処理区間に含まれる第1観測信号に対して残響の除去が完了した信号を表す参照信号を記憶する。推定部202は、遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第2観測信号と参照信号とを用いて残響除去フィルタのフィルタ係数を推定する。除去部203は、第2観測信号と、参照信号と、推定されたフィルタ係数を有する残響除去フィルタとを用いて、第2観測信号から残響が除去された信号を表す出力信号を求める。
上記構成による音響処理装置は、音源から離れたマイクロホンにより集音する状況に対して、その物理現象と合致したモデルに基づいて、フィルタ係数が不安定とならない手法により、残響除去フィルタを推定し、推定したフィルタを用いて残響除去処理を行う。これにより、残響除去処理の精度が向上し、音声認識のための特徴量として有効活用することができる。
以上説明したとおり、第1乃至第5の実施形態によれば、音声認識処理の精度を向上させることが可能となる。
次に、第1乃至第5の実施形態に係る音声認識装置のハードウェア構成について図8を用いて説明する。図10は、第1から第5の実施形態に係る音声認識装置のハードウェア構成例を示すブロック図である。
第1乃至第5の実施形態にかかる音声認識装置は、CPU(Central Processing Unit)301などの制御装置と、ROM(Read Only Memory)302やRAM(Random Access Memory)303などの記憶装置と、マイクロホン101、操作入力装置104、表示装置105が接続される入出力I/F304と、ネットワークに接続して通信を行う通信I/F305と、各部を接続するバス306を備えている。
第1乃至第5の実施形態に係る音声認識装置で実行されるプログラムは、ROM302等に予め組み込まれて提供される。
第1乃至第5の実施形態に係る音声認識装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1乃至第5の実施形態にかかる音声認識装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1乃至第5の実施形態にかかる音声認識装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1乃至第5の実施形態にかかる音声認識装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、CPU301がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
100…音声認識装置、101…マイクロホン、102…変換器、103…信号処理器、104…指示入力装置、105…表示装置、
200…音響処理装置、201…記憶部、202…推定部、203…除去部、
301…CPU、302…ROM、303…RAM、304…入出力I/F、305…通信I/F、306…バス。
実施形態に係る音声認識装置は、取得部と、閾値設定部と、認識部とを備える。取得部は、音声を集音して音声信号を取得する。閾値設定部は、前記音声信号に対する閾値を設定する。認識部は、認識指示入力に従って前記閾値と前記音声信号とを比較して、前記音声信号が閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上の場合は、認識対象の話者の音声信号として認識処理を実行する。前記閾値設定部は、さらに前記閾値を前記認識部の認識処理結果に基づいて再設定する。

Claims (11)

  1. 音声を集音して音声信号を取得する取得部と、
    調整指示入力に従って閾値を入力音声信号の音量レベルより低い値に調整し登録する調整部と、
    認識指示入力に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する認識部と
    を具備する音声認識装置。
  2. さらに、前記認識部の認識処理結果から不要と指定される箇所の音声信号を破棄するように前記閾値を再調整する再調整部を備える請求項1記載の音声認識装置。
  3. 前記調整部は、第1の閾値t1と第2の閾値t2(t1<t2)とを用意して登録し、
    前記認識部は、第2の閾値t2を読み出し、第2の閾値t2と入力音声信号とを比較し、入力音声信号の音量レベルが第2の閾値t2より高い場合には、音声認識処理に移行し、
    さらに、入力音声信号の音量レベルが第2の閾値t2を超えない場合には、前記第2の閾値t2の再調整を行う再調整部を備え、
    前記再調整部は、第1の閾値t1を読み出して入力音声信号とを比較し、入力音声信号の音量レベルが第1の閾値t1を超えた場合には音声認識処理を行い、音声信号の再入力を促し、再入力の音声信号を再度第1の閾値t1と比較し、再入力の音声信号の音量レベルが前記第1の閾値t1を超えた場合には音声認識処理を行い、二回目の音声認識結果が一回目の音声認識結果と同じの場合には、第2の閾値t2を下げて再登録し、入力音声信号、再入力音声信号の音量レベルが第1の閾値を超えない場合には、その音声信号を破棄する
    請求項1記載の音声認識装置。
  4. 前記調整部は、前記入力音声信号の音量を計測し、その音量レベルと閾値をユーザに提示して、ユーザが指定する値に閾値を調整する請求項1記載の音声認識装置。
  5. 前記調整部は、前記入力音声信号の特徴量を抽出し、その特徴量から前記取得部と話者との距離を推定し、所定距離範囲内の話者の音声信号を取り込む値に閾値を調整する請求項1記載の音声認識装置。
  6. 前記取得部と話者との距離は、直接音と残響音との比率に基づいて推定する請求項5記載の音声認識装置。
  7. 複数の音声を取得する取得部と、
    ユーザの指示する期間中に取得した前記音声のレベルに応じて、前記複数の音声のうち少なくとも一つを認識する認識部と
    を具備する音声認識装置。
  8. 複数の音声を取得する取得部と、
    ユーザの発声を促す内容を出力する出力部と、
    前記ユーザの発声の音声レベルに応じて、前記複数の音声のうち少なくとも一つを認識する認識部と
    を具備する音声認識装置。
  9. 前記音声の認識結果を提示する提示部を更に備え、
    前記認識結果からユーザが指示した箇所に相当する音声のレベルに基づき、前記認識の対象とする音声を設定する設定部と
    を有する請求項7または8記載の音声認識装置。
  10. 音声を集音して音声信号を取得し、
    調整指示に従って閾値を入力音声信号の音量レベルより低い値に調整して登録し、
    認識指示に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する音声認識方法。
  11. 音声認識処理をコンピュータに実行させるための音声認識プログラムであって、
    音声を集音して音声信号を取得する取得ステップと、
    調整指示入力に従って閾値を入力音声信号の音量レベルより低い値に調整し登録する調整ステップと、
    認識指示入力に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する認識ステップと
    を具備する音声認識プログラム。
JP2017054907A 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム Active JP6553111B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017054907A JP6553111B2 (ja) 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム
CN201710767713.4A CN108630202B (zh) 2017-03-21 2017-08-31 语音识别装置、语音识别方法以及记录介质
US15/705,134 US10579327B2 (en) 2017-03-21 2017-09-14 Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017054907A JP6553111B2 (ja) 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2018156044A true JP2018156044A (ja) 2018-10-04
JP6553111B2 JP6553111B2 (ja) 2019-07-31

Family

ID=63581073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017054907A Active JP6553111B2 (ja) 2017-03-21 2017-03-21 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (3)

Country Link
US (1) US10579327B2 (ja)
JP (1) JP6553111B2 (ja)
CN (1) CN108630202B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020141794A1 (ko) * 2019-01-03 2020-07-09 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP2020147214A (ja) * 2019-03-14 2020-09-17 本田技研工業株式会社 エージェント装置、システム、エージェント装置の制御方法、およびプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6642808B2 (ja) * 2017-03-29 2020-02-12 京セラドキュメントソリューションズ株式会社 音声入力システム、音声入力装置および音声入力プログラム
JP7173049B2 (ja) * 2018-01-10 2022-11-16 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020085953A (ja) * 2018-11-16 2020-06-04 トヨタ自動車株式会社 音声認識支援装置及び音声認識支援プログラム
WO2020111880A1 (en) 2018-11-30 2020-06-04 Samsung Electronics Co., Ltd. User authentication method and apparatus
JP7131362B2 (ja) * 2018-12-20 2022-09-06 トヨタ自動車株式会社 制御装置、音声対話装置及びプログラム
US11308949B2 (en) * 2019-03-12 2022-04-19 International Business Machines Corporation Voice assistant response system based on a tone, keyword, language or etiquette behavioral rule
CN110083645A (zh) 2019-05-06 2019-08-02 浙江核新同花顺网络信息股份有限公司 一种报告生成的系统和方法
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
KR20200141860A (ko) 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110265018B (zh) * 2019-07-01 2022-03-04 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム
TWI719791B (zh) * 2019-12-31 2021-02-21 緯創資通股份有限公司 觸控靈敏度的調整方法及使用此方法的行動裝置
CN111416909B (zh) * 2020-03-31 2022-07-08 惠州Tcl移动通信有限公司 音量自适应调节方法、系统、存储介质及移动终端
CN112463107A (zh) * 2020-11-25 2021-03-09 Oppo广东移动通信有限公司 音频播放参数确定方法、装置、电子设备和可读存储介质
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
JP2003295892A (ja) * 2002-04-01 2003-10-15 Nec Corp 通訳システム及びプログラム
JP3753384B2 (ja) * 1997-03-19 2006-03-08 株式会社日立製作所 映像中の有音区間の終始点の検出装置
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2009109536A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識システム及び音声認識装置
JP2010204266A (ja) * 2009-03-02 2010-09-16 Fujitsu Ltd 音響信号変換装置、方法、及びプログラム
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP2012230191A (ja) * 2011-04-25 2012-11-22 Denso Corp 音声入力装置
JP2016033530A (ja) * 2014-07-30 2016-03-10 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047322B (zh) * 2008-06-06 2013-02-06 株式会社雷特龙 语音识别装置、语音识别方法以及电子设备
KR101829865B1 (ko) 2008-11-10 2018-02-20 구글 엘엘씨 멀티센서 음성 검출
JP2011002534A (ja) * 2009-06-17 2011-01-06 Brother Industries Ltd 音声認識装置
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
TWI601032B (zh) * 2013-08-02 2017-10-01 晨星半導體股份有限公司 應用於聲控裝置的控制器與相關方法
WO2015030642A1 (en) * 2013-08-29 2015-03-05 Telefonaktiebolaget L M Ericsson (Publ) Volume reduction for an electronic device
EP2878515B1 (en) * 2013-11-29 2017-03-08 Harman Becker Automotive Systems GmbH Generating an audio signal with a configurable distance cue
CN105812517A (zh) * 2014-12-31 2016-07-27 陕西天涯信息技术有限公司 一种具有语音识别功能的受话装置
US10522140B2 (en) * 2015-02-23 2019-12-31 Sony Corporation Information processing system and information processing method

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3753384B2 (ja) * 1997-03-19 2006-03-08 株式会社日立製作所 映像中の有音区間の終始点の検出装置
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
JP2003295892A (ja) * 2002-04-01 2003-10-15 Nec Corp 通訳システム及びプログラム
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP2009109536A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識システム及び音声認識装置
JP2010204266A (ja) * 2009-03-02 2010-09-16 Fujitsu Ltd 音響信号変換装置、方法、及びプログラム
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP2012230191A (ja) * 2011-04-25 2012-11-22 Denso Corp 音声入力装置
JP2016033530A (ja) * 2014-07-30 2016-03-10 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020141794A1 (ko) * 2019-01-03 2020-07-09 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11972762B2 (en) 2019-01-03 2024-04-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
JP2020147214A (ja) * 2019-03-14 2020-09-17 本田技研工業株式会社 エージェント装置、システム、エージェント装置の制御方法、およびプログラム
JP7266432B2 (ja) 2019-03-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Also Published As

Publication number Publication date
JP6553111B2 (ja) 2019-07-31
CN108630202A (zh) 2018-10-09
CN108630202B (zh) 2021-12-03
US10579327B2 (en) 2020-03-03
US20180275951A1 (en) 2018-09-27

Similar Documents

Publication Publication Date Title
JP6553111B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4764995B2 (ja) 雑音を含む音響信号の高品質化
JP4745916B2 (ja) 雑音抑圧音声品質推定装置、方法およびプログラム
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
JPH09212196A (ja) 雑音抑圧装置
JP2013109346A (ja) 自動利得制御
KR101961998B1 (ko) 즉각적인 바람 잡음을 감소시키는 것
JP6849054B2 (ja) 会話装置、音声処理システム、音声処理方法、および音声処理プログラム
JP6374936B2 (ja) 音声認識方法、音声認識装置及びプログラム
JP2014126856A (ja) 雑音除去装置及びその制御方法
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
JP2009296298A (ja) 音声信号処理装置および方法
JP6565500B2 (ja) 発話状態判定装置、発話状態判定方法、及び判定プログラム
JP6276132B2 (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
JP2013205831A (ja) 音声品質客観評価装置及び方法
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
CN110661923A (zh) 一种在会议中记录发言信息的方法和装置
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP7347520B2 (ja) 音信号処理装置、音信号処理方法および音信号処理プログラム
JP4814861B2 (ja) 音量調整装置、方法及びプログラム
JP2005157086A (ja) 音声認識装置
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
CN112133320A (zh) 语音处理装置及语音处理方法
KR100565428B1 (ko) 인간 청각 모델을 이용한 부가잡음 제거장치
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190703

R151 Written notification of patent or utility model registration

Ref document number: 6553111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151