JP6716513B2 - 音声区間検出装置、その方法、及びプログラム - Google Patents

音声区間検出装置、その方法、及びプログラム Download PDF

Info

Publication number
JP6716513B2
JP6716513B2 JP2017163974A JP2017163974A JP6716513B2 JP 6716513 B2 JP6716513 B2 JP 6716513B2 JP 2017163974 A JP2017163974 A JP 2017163974A JP 2017163974 A JP2017163974 A JP 2017163974A JP 6716513 B2 JP6716513 B2 JP 6716513B2
Authority
JP
Japan
Prior art keywords
voice section
feature amount
voice
frame
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017163974A
Other languages
English (en)
Other versions
JP2019040148A (ja
Inventor
隆朗 福冨
隆朗 福冨
岡本 学
学 岡本
清彰 松井
清彰 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017163974A priority Critical patent/JP6716513B2/ja
Publication of JP2019040148A publication Critical patent/JP2019040148A/ja
Application granted granted Critical
Publication of JP6716513B2 publication Critical patent/JP6716513B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、音声信号と音声以外の信号である非音声信号とを含む観測信号から前記音声信号が存在する時間区間である音声区間を検出する音声区間検出技術に関する。
音声区間検出技術の従来技術として非特許文献1が知られている。
非特許文献1では、観測信号(以下「入力信号」ともいう)から音声区間(以下「発話区間」ともいう)のみを検出し、発話していない区間(「非音声区間」または「非発話区間」ともいう)を除外する。
例えば、発話区間検出技術は、音声認識の事前処理として、不要な信号(非音声)を除外する役割を持っており、認識精度の低下を防いでいる。
非特許文献1の発話区間検出技術は、事前に音声と非音声の音響的な特徴を学習データとして構築した統計的なモデルを用いて、音声区間と非音声区間を検出する。統計モデルに基づく発話区間検出技術では、入力信号の各フレームに対して音声尤度、非音声尤度を算出し、その尤度比などを閾値処理することで音声区間と判定している。
藤本 雅清、「音声区間検出の基礎と最近の研究動向」、 IEICE Technical Report.、 SP2010-23(2010-06)
しかしながら、従来技術では、音声区間であっても、発話内でのポーズなどの箇所では、音声尤度が低下し、正しく音声と判定されないことがある。また、従来技術では、背景雑音などの影響により、話していない区間でも音声区間として検出されてしまうことがある。
本発明は、従来技術と比べ、ポーズなどの箇所においても音声区間検出の精度が高く、背景雑音などの影響による音声区間または非音声区間の誤検出を低減できる音声区間検出装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、音声区間検出装置は、音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出部と、音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと始端特徴量とを用いて、始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定部と、観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出部と、音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと終端特徴量を用いて、終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定部と、音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、音声区間検出方法は、音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出ステップと、音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと始端特徴量とを用いて、始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定ステップと、観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出ステップと、音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと終端特徴量を用いて、終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定ステップと、音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定ステップとを含む。
本発明によれば、従来技術と比べ、ポーズなどの箇所においても音声区間検出の精度が高く、背景雑音などの影響による誤検出を低減できるという効果を奏する。
第一実施形態に係る音声区間検出装置の機能ブロック図。 第一実施形態に係る音声区間検出装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
本実施形態の音声区間検出装置100は、音声区間そのものを検出する(音声らしいところを検出する)のではなく、音声区間の始端と終端とをそれぞれに特化した統計モデルに基づき検出することで、始端らしい箇所から終端らしい箇所までを音声区間とする。
図1、図2を参照して、音声区間検出装置100が実行する音声区間検出方法について説明する。図1は第一実施形態に係る音声区間検出装置の機能ブロック図を、図2はその処理フローを示す。
音声区間検出装置100は、図1に示すように、始端特徴量算出部101、始端モデル学習部102、終端特徴量算出部103、終端モデル学習部104、始端判定部105、終端判定部106、および音声区間確定部107を含む。
音声区間検出装置100が図2に示す各ステップの処理を行うことにより実施形態の音声区間検出方法が実現される。なお、音声区間検出装置100が実行する部分を音声区間検出方法とも呼ぶ。
音声区間検出装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声区間検出装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声区間検出装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声区間検出装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声区間検出装置100が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
音声区間の始端と終端の判定に特化した統計モデル(始端モデル及び終端モデル)を学習するフェーズと、学習した始端モデル及び終端モデルを用いて音声区間を検出するフェーズとがあるため、まず学習するフェーズについて説明し、次に検出するフェーズについて説明する。
<学習時>
音声区間検出装置100は、学習用観測信号を入力とし、始端モデル及び終端モデルを学習し、それぞれ始端判定部105及び主端判定部106に設定する。
なお、学習用観測信号は、発話の開始時刻情報及び終了時刻情報が付与された音声データである。例えば、音声データには音声信号と音声以外の信号である非音声信号とが含まれる。
<始端特徴量算出部101>
始端特徴量算出部101は、学習用観測信号を入力とし、学習用観測信号を用いて特徴量をフレーム毎に算出し、音声信号の開始時刻情報とともに始端モデル学習部102に出力する。特徴量としては、音声区間の始端に表れやすい特徴を判別できるものを用いればよく、このような特徴量を以下「始端特徴量」ともいう。たとえば、短時間フレーム毎(たとえば20msec毎)の音声データのフィルタバンク出力値、ケプストラム、メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients : MFCC)等の様々な特徴量を用いることができる。また、発話開始時に特徴的な言語的な情報を活用し、始端検出精度を高めてもよい。例えば、単語N-gramや音素系列を始端特徴量として用いてもよい。単語N-gramや音素系列は、特に音声区間の始端に表れる特徴を判別しやすい特徴量である。
<始端モデル学習部102>
始端モデル学習部102は、フレーム毎の学習用観測信号の始端特徴量と、音声信号の開始時刻情報とを入力とし、始端フレーム(音声信号の開始時刻情報に対応するフレーム)を識別するモデル(始端モデル)を学習し、学習の結果得られる始端モデルを始端判定部105に出力する。始端モデルの学習には様々な公知の技術を利用できる。例えばDNN、CNN、RNNといった深層学習などを用いてモデル化すると良い。
<終端特徴量算出部103>
終端特徴量算出部103は、学習用観測信号を入力とし、学習用観測信号を用いて特徴量をフレーム毎に算出し、音声信号の終了時刻情報とともに終端モデル学習部102に出力する。特徴量としては、音声区間の終端に表れやすい特徴を判別できるものを用いればよく、このような特徴量を以下「終端特徴量」ともいう。たとえば、始端特徴量算出部101で算出した始端特徴量と同じ特徴量(フィルタバンク出力値、ケプストラム、 MFCC等)を用いてもよい。また、例えば、終端に特徴的なイントネーションの変化を終端特徴量として用いてもよい。公知の技術を用いて、たとえば基本周波数の時間変化量などをイントネーションの変化を表す終端特徴量として算出する。基本周波数の時間変化量は、特に音声区間の終端に表れやすい特徴を判別しやすい特徴量と言える。
<終端モデル学習部104>
終端モデル学習部104は、フレーム毎の学習用観測信号の終端特徴量と、音声信号の終了時刻情報とを入力とし、終端フレーム(音声信号の終了時刻情報に対応するフレーム)を識別するモデル(終端モデル)を学習し、学習の結果得られる終端モデルを終端判定部106に出力する。終端モデルの学習には様々な公知の技術を利用できる。例えばDNN、CNN、RNNといった深層学習などを用いてモデル化すると良い。なお、終端モデルの学習には、始端モデルの学習と同じ方法を用いてもよいし、異なる方法を用いてもよい。
なお、上述の学習処理は、音声区間検出処理に先立ち行っておく。
<検出時>
音声区間検出装置100は、音声区間の検出対象となる観測信号を入力とし、始端モデル及び終端モデルを用いて音声区間を検出し、検出結果(音声区間情報)を出力する。
<始端特徴量算出部101>
始端特徴量算出部101は、音声区間検出対象の観測信号を入力とし、観測信号を用いて学習時と同じ方法により始端特徴量をフレーム毎に算出し(S101)、始端判定部105に出力する。
<始端判定部105>
始端判定部105は、音声区間検出処理に先立ち、始端モデルを受け取る。
始端判定部105は、始端特徴量を入力とし、始端モデルを用いて、始端特徴量に対応するフレームが音声区間の始端か否かを判定する(S105)。なお、判定方法としては始端モデルに従って様々な方法を利用することができる。例えば、始端特徴量を始端モデルに与え各フレームに対して始端尤度、非始端尤度を算出し、その尤度比等を閾値処理することで始端フレームか否かを判定する。
始端と識別された際には、以降のフレームに対しては、始端特徴量算出部101の処理を行わず、終端特徴量算出部103の処理へ移行する。また、始端と識別されなかった際には、以降の処理(終端特徴量算出部103、終端判定部106、音声区間確定部107の処理)は行わず、再び次フレームの観測信号を対象に始端特徴量算出部101の処理を行う。
始端判定部105は、始端と識別されたフレームに関する情報(例えばフレーム番号)を音声区間確定部107に出力する。
<終端特徴量算出部103>
終端特徴量算出部103は、音声区間検出対象の観測信号を入力とし、観測信号を用いて学習時と同じ方法により終端特徴量をフレーム毎に算出し(S103)、終端判定部106に出力する。
<終端判定部106>
終端判定部106は、音声区間検出処理に先立ち、終端モデルを受け取る。
終端判定部106は、終端特徴量を入力とし、終端モデルを用いて、終端特徴量に対応するフレームが音声区間の終端か否かを判定する(S106)。なお、判定方法としては終端モデルに従って様々な方法を利用することができる。例えば、終端特徴量を終端モデルに与え各フレームに対して終端尤度、非終端尤度を算出し、その尤度比等を閾値処理することで終端フレームか否かを判定する。
終端と識別された際には、発話区間確定部107の処理へ移行する。また、終端と識別されなかった場合は、以降の処理(音声区間確定部107の処理)は行わず、再び次フレームの観測信号を対象にした終端特徴量算出部103の処理を行う。
終端判定部106は、終端と識別されたフレームに関する情報(例えばフレーム番号)を音声区間確定部107に出力する。
<音声区間確定部107>
音声区間確定部107は、始端及び終端と識別されたフレームに関する情報(例えば各フレーム番号)を受け取り、音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とし、検出結果(音声区間情報であり、音声区間を示す情報、例えば音声区間に対応するフレーム番号やフレーム番号に対応するフレーム時刻、フレームに対応し音声区間または非音声区間を示すビット列(例えば音声区間と判定されたフレームに対応するビットを1とし非音声区間と判定されたフレームに対応するビットを0とするビット列)など)を出力する。
<効果>
以上の構成により、ポーズなどの箇所においても音声区間検出の精度が高く、背景雑音などの影響による誤検出を低減できる。例えば、音声区間の始端と終端とをそれぞれのモデルに基づき推定するため、発話途中のポーズ等の箇所において非音声区間と判断する誤判断を低減することができる。また、発話区間そのものを検出する(音声らしいところを検出する)場合には、テレビの音声などの背景雑音を音背区間であるとして誤検出することがあるが、検出する箇所を音声区間の始端と終端に絞ることで検出の精度を上げ、誤検出を低減することができる。
<変形例>
本実施形態では、始端モデル、終端モデルの学習処理と、検出処理とを同じ音声区間検出装置内で行っているが、学習処理と検出処理とを異なる装置内で行ってもよい。例えば、モデル学習装置で学習した始端モデル、終端モデルを音声区間検出装置に出力し、音声区間検出装置では検出処理だけを行う。
本実施形態では、時系列の観測信号に対して音声区間を1つ検出するため、まず、始端特徴量算出部と始端判定部とにおける処理を繰り返し、始端を検出した後に、終端特徴量算出部と終端判定部とにおける処理を繰り返し、終端を検出した後に、音声区間検出装置の処理を終了している。ここで、終端と識別された際には、再度、始端特徴量算出部101、始端判定部105の処理(S101,S105)を行ってもよい。このような構成とすることで、あるフレームが音声区間の始端と判定されてからその音声区間の終端と判定されるフレームが現れるまで終端特徴量算出部103と終端判定部106とにおける処理(S103,S106)を繰り返し、それ以外のフレームに対しては始端特徴量算出部101と始端判定部105とにおける処理(S101,S105)を繰り返し、連続して音声区間を検出することができる。このような構成により、終端特徴量算出部と終端判定部とにおける処理と、始端特徴量算出部と始端判定部とにおける処理とを交互に行うことで、特徴量の算出処理や判定処理の処理量を減らすことができ、ポーズなどの箇所においても音声区間検出の精度が保つことができる。ただし、交互に行わず、全てのフレームについて、終端特徴量算出部と終端判定部と始端特徴量算出部と始端判定部とにおける処理を行う構成としてもよい。このような構成の場合、例えば、(i)始端を検出した後、かつ、終端を検出する前に、再度始端が検出される場合がある。このような場合には、後から検出された始端を誤りとしてもよいし、先に検出した始端と後から検出した始端との尤もらしさを比較し、より尤もらしい始端を音声区間の始端と判定してもよい。このとき、先に検出した始端が音声区間の始端と判定されやすくなるように補正してもよい。例えば、始端尤度と非始端尤度との尤度比が大きいほどより尤もらしい場合には、先に検出した始端に対応する尤度比に所定の値を加算する。また、(ii)始端を検出する前に、終端が検出される場合がある。このような場合には、検出された終端を誤りとしてもよいし、始端と判定されなかったフレームの中で最も始端として尤もらしいフレームを音声区間の始端と判定してもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出部と、
    音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと前記始端特徴量とを用いて、前記始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定部と、
    前記観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出部と、
    音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと前記終端特徴量を用いて、前記終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定部と、
    音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定部とを含む、
    音声区間検出装置。
  2. 請求項1の音声区間検出装置であって、
    あるフレームが音声区間の始端と判定されてからその音声区間の終端と判定されるフレームが現れるまで前記終端特徴量算出部と前記終端判定部とにおける処理を繰り返し、それ以外のフレームに対しては前記始端特徴量算出部と前記始端判定部とにおける処理を繰り返す、
    音声区間検出装置。
  3. 音声信号と音声以外の信号である非音声信号とを含む観測信号を用いて、音声区間の始端に表れやすい特徴を判別できる特徴量である始端特徴量をフレーム毎に算出する始端特徴量算出ステップと、
    音声区間の始端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された始端モデルと前記始端特徴量とを用いて、前記始端特徴量に対応するフレームが音声区間の始端か否かを判定する始端判定ステップと、
    前記観測信号を用いて、音声区間の終端に表れやすい特徴を判別できる特徴量である終端特徴量をフレーム毎に算出する終端特徴量算出ステップと、
    音声区間の終端に関する情報とその音声区間とを含む学習用観測信号を用いて学習された終端モデルと前記終端特徴量を用いて、前記終端特徴量に対応するフレームが音声区間の終端か否かを判定する終端判定ステップと、
    音声区間の始端と判定されたフレームから音声区間の終端と判定されたフレームまでを音声区間とする音声区間確定ステップとを含む、
    音声区間検出方法。
  4. 請求項3の音声区間検出方法であって、
    あるフレームが音声区間の始端と判定されてからその音声区間の終端と判定されるフレームが現れるまで前記終端特徴量算出ステップと前記終端判定ステップとを繰り返し、それ以外のフレームに対しては前記始端特徴量算出ステップと前記始端判定ステップとを繰り返す、
    音声区間検出方法。
  5. 請求項1または請求項2の音声区間検出装置としてコンピュータを機能させるためのプログラム。
JP2017163974A 2017-08-29 2017-08-29 音声区間検出装置、その方法、及びプログラム Active JP6716513B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017163974A JP6716513B2 (ja) 2017-08-29 2017-08-29 音声区間検出装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017163974A JP6716513B2 (ja) 2017-08-29 2017-08-29 音声区間検出装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019040148A JP2019040148A (ja) 2019-03-14
JP6716513B2 true JP6716513B2 (ja) 2020-07-01

Family

ID=65725727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017163974A Active JP6716513B2 (ja) 2017-08-29 2017-08-29 音声区間検出装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6716513B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766418B (zh) 2018-05-24 2020-01-14 百度在线网络技术(北京)有限公司 语音端点识别方法、装置及设备
US20220270637A1 (en) * 2019-07-24 2022-08-25 Nippon Telegraph And Telephone Corporation Utterance section detection device, utterance section detection method, and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0442299A (ja) * 1990-06-08 1992-02-12 Sharp Corp 音声区間検出装置
JPH04198997A (ja) * 1990-11-29 1992-07-20 Oki Electric Ind Co Ltd 音声認識方法
JP3721948B2 (ja) * 2000-05-30 2005-11-30 株式会社国際電気通信基礎技術研究所 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP4497911B2 (ja) * 2003-12-16 2010-07-07 キヤノン株式会社 信号検出装置および方法、ならびにプログラム

Also Published As

Publication number Publication date
JP2019040148A (ja) 2019-03-14

Similar Documents

Publication Publication Date Title
KR102654874B1 (ko) 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
CN106940998B (zh) 一种设定操作的执行方法及装置
US8930196B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
WO2017076222A1 (zh) 语音识别方法及装置
JP2019522810A (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
US20120130716A1 (en) Speech recognition method for robot
JP7218601B2 (ja) 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム
WO2018192186A1 (zh) 语音识别方法及装置
JPWO2010086925A1 (ja) 音声認識装置
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP2014206642A (ja) 音声認識装置および音声認識プログラム
CN112863496B (zh) 一种语音端点检测方法以及装置
CN112259084A (zh) 语音识别方法、装置和存储介质
KR20210068776A (ko) 음성 인식 오류 보정 장치 및 방법
TWI818427B (zh) 使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP6612277B2 (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP7028311B2 (ja) 学習用音声データ生成装置、その方法、およびプログラム
JP2011039434A (ja) 音声認識装置およびその特徴量正規化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200610

R150 Certificate of patent or registration of utility model

Ref document number: 6716513

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150