JP2022063080A - Computer and voice processing method - Google Patents
Computer and voice processing method Download PDFInfo
- Publication number
- JP2022063080A JP2022063080A JP2020171420A JP2020171420A JP2022063080A JP 2022063080 A JP2022063080 A JP 2022063080A JP 2020171420 A JP2020171420 A JP 2020171420A JP 2020171420 A JP2020171420 A JP 2020171420A JP 2022063080 A JP2022063080 A JP 2022063080A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- time
- voice
- feature amount
- target person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、入力された音及び画像を用いて、雑音の影響を抑えつつ、音に含まれる話者の音声を抽出する音声処理の技術に関する。 The present invention relates to a voice processing technique for extracting a speaker's voice included in a sound while suppressing the influence of noise by using the input sound and an image.
マイク等を用いて集音された音声データから文字起こしをする音声認識では、精度を高めるために、入力する音声から可能な限り雑音成分を取り除くことが望ましい。これに対して特許文献1に記載の技術が知られている。
In voice recognition in which transcription is performed from voice data collected using a microphone or the like, it is desirable to remove noise components from the input voice as much as possible in order to improve accuracy. On the other hand, the technique described in
特許文献1では、カメラを用いて取得した画像から話者の口の開閉状態を識別し、話者の開口時(口の開閉動作期間)の音声を話者の音声が含まれる信号音声として扱い、話者の閉口時の音声を雑音音声として扱う制御プログラムが記載している。画像を用いて話者の音声と雑音とを識別することによって、精度の高い音声認識を実現している。
In
しかし、話者の開口時の音声に話者以外の雑音が含まれている場合がある。この場合、話者の開口時の音から雑音が含まれていない話者の音声を抽出することが困難である。 However, the voice at the time of opening the speaker may contain noise other than the speaker. In this case, it is difficult to extract the speaker's voice without noise from the speaker's opening sound.
本発明は、上記の課題を解決するためになされたものであり、話者の口の開閉動作期間中の音から話者の音声を精度よく抽出する音声処理システムを提供するものである。 The present invention has been made to solve the above problems, and provides a voice processing system that accurately extracts a speaker's voice from the sound during the opening / closing operation period of the speaker's mouth.
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、集音装置によって集音された入力音からターゲット人物の音声を抽出する計算機であって、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを備え、前記集音装置及び前記ターゲット人物の画像を取得する撮像装置と、前記接続インタフェースを介して接続し、前記演算装置は、前記入力音及び前記画像を前記記憶装置に格納し、前記入力音を用いて、前記ターゲット人物の音声の特徴を示す話者特徴量を算出し、前記画像を用いて、前記ターゲット人物の顔を含む顔領域画像を抽出し、複数の前記顔領域画像を用いて、前記ターゲット人物が発話していたと推定される発話期間を特定し、前記話者特徴量及び前記発話期間を用いて、前記入力音から、前記発話期間における前記ターゲット人物の推定音声を抽出し、抽出された前記ターゲット人物の推定音声を前記記憶装置に格納する。 A typical example of the invention disclosed in the present application is as follows. That is, it is a computer that extracts the voice of the target person from the input sound collected by the sound collector, and includes a calculation device, a storage device connected to the calculation device, and a connection interface connected to the calculation device. , The sound collecting device and the image pickup device that acquires the image of the target person are connected via the connection interface, and the arithmetic device stores the input sound and the image in the storage device, and stores the input sound and the input sound. Using, the speaker characteristic amount indicating the voice characteristic of the target person is calculated, the face area image including the face of the target person is extracted using the image, and the plurality of face area images are used. The speech period estimated to have been spoken by the target person is specified, and the estimated voice of the target person in the speech period is extracted from the input sound by using the speaker feature amount and the speech period. The estimated voice of the target person is stored in the storage device.
本発明によれば、話者の口の開閉動作期間中の音から話者の音声を精度よく抽出できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to the present invention, the speaker's voice can be accurately extracted from the sound during the opening / closing operation period of the speaker's mouth. Issues, configurations and effects other than those mentioned above will be clarified by the description of the following examples.
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。 Hereinafter, examples of the present invention will be described with reference to the drawings. However, the present invention is not limited to the description of the examples shown below. It is easily understood by those skilled in the art that a specific configuration thereof can be changed without departing from the idea or purpose of the present invention.
以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。 In the configuration of the invention described below, the same or similar configurations or functions are designated by the same reference numerals, and duplicate description will be omitted.
本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。 The notations such as "first", "second", and "third" in the present specification and the like are attached to identify the components, and are not necessarily limited in number or order.
図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。 The position, size, shape, range, etc. of each configuration shown in the drawings and the like may not represent the actual position, size, shape, range, etc., in order to facilitate understanding of the invention. Therefore, the present invention is not limited to the position, size, shape, range, etc. disclosed in the drawings and the like.
図1は、実施例1の音声処理システム100の構成の一例を示す図である。
FIG. 1 is a diagram showing an example of the configuration of the
音声処理システム100は、サーバ101、撮像装置102、及び集音装置103から構成される。
The
サーバ101、撮像装置102、及び集音装置103は、直接又はネットワークを介して互いに接続される。ネットワークは、例えば、WAN(Wide Area Network)及びLAN(Local Area Network)等である。
The
なお、サーバ101が撮像装置102及び集音装置103を内蔵してもよい。なお、図1に示す音声処理システム100の構成は一例であってこれに限定されない。
The
音声処理システム100は、話者110が存在する空間から音及び画像を取得し、取得した音から話者110の音声を抽出する。当該空間には話者110の他に、話者110の音声とは異なる音(雑音)が発せられる雑音音源111が存在する。雑音音源111から発せられる音は、例えば、車のエンジン音、環境音、話者110と異なる人物の音声等である。
The
撮像装置102は、画像を取得する装置であり、例えば、カメラ及び深度計測器等である。実施例1の撮像装置102は話者110の口元領域を含む顔領域画像112を取得する。顔領域画像112は、例えば、RGB画像又は深度マップ等である。なお、音声処理システム100は、特性が異なる顔領域画像112を取得する複数の撮像装置102を有してもよい。
The
集音装置103は、設置された空間の音を集音する装置であり、例えば、モノラルマイク及びマイクアレイ等である。実施例1の集音装置103は、話者110及び雑音音源111から発せられる音(混合音)を集音する。
The
サーバ101は、顔領域画像112及び混合音を用いて、集音音声から話者110の音声のみを抽出する。本明細書では、混合音から話者110の音声を抽出する機能を音声強調機能と記載する。
The
サーバ101は、プロセッサ120、記憶装置121、及び接続インタフェース122を有する。各ハードウェア構成は内部バス123を介して互いに接続される。
The
プロセッサ120は、CPU(Central Processing Unit)及びGPU(Graphics Processing Unit)等の演算装置であり、記憶装置121に格納されるプログラムを実行する。プロセッサ120がプログラムにしたがって処理を実行することによって、音声強調機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ120が当該モジュールを実現するプログラムを実行していることを示す。
The
記憶装置121は、プロセッサ120が実行するプログラム及びプログラムが使用する情報を格納する。また、記憶装置121はプロセッサ120の作業領域としても用いられる。記憶装置121は、非一時的な記憶装置でもよいし、一時的な記憶装置でもよい。記憶装置121は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、及びフラッシュメモリ等である。
The
実施例1の記憶装置121は、推定部130及び学習部131を実現するプログラムを格納する。学習部131は、機械学習及び深層学習を利用して、推定部130に組み込まれる音声強調器202(図2を参照)を学習する。推定部130は音声強調機能を実現する機能部である。推定部130は、学習部131によって学習した音声強調器202を用いて入力された音から対象の人物(話者)の音声を抽出する。
The
接続インタフェース122は、撮像装置102及び集音装置103等の外部装置と接続するためのインタフェースである。接続インタフェース122は、例えば、ネットワークインタフェース及びIOインタフェースである。
The
図2A及び図2Bは、実施例1のサーバ101の機能構成の一例を示す図である。
2A and 2B are diagrams showing an example of the functional configuration of the
図2Aは、推定部130の機能構成の詳細を示す。推定部130は、連続画像データ211及び音データ212を入力として受け付け、話者110の推定音声のみを含む音データ213及び話者110の識別情報である推定話者ID214を出力する。ここで、連続画像データ211は、撮像装置102によって一定の間隔で取得された複数の顔領域画像112から構成される時系列データである。音データ212は集音装置103によって集音された音に関するデータである。
FIG. 2A shows the details of the functional configuration of the
連続画像データ211に含まれる顔領域画像112のサンプリングレートと、音データ212のサンプリングレートは異なっているが、時間的に同期しているものとする。
It is assumed that the sampling rate of the
なお、連続画像データ211及び音データ212は、別々のデータでなくてもよい。例えば、画像及び音を含む動画データでもよい。
The
推定部130は、画像前処理部200、音前処理部201、及び音声強調器202を含む。
The
画像前処理部200は、連続画像データ211に含まれる各顔領域画像112から話者110の口元領域又は顔領域を含む画像を抽出する。画像前処理部200は、抽出された画像の時系列データを音声強調器202に出力する。なお、画像前処理部200は、抽出された画像の画素値を正規化してもよい。
The
音前処理部201は、音データ212に対して短時間フーリエ変換等の演算処理を実行することによって、音声スペクトル及びメルケプストラム等の音特徴量を算出する。ここでは、サンプリングレート毎の音特徴量が算出される。音前処理部201は、各サンプリングレートの音特徴量を含む音特徴量データを音声強調器202に出力する。なお、音前処理部201は音特徴量を正規化してもよい。
The
音声強調器202は、画像前処理部200から出力された画像の時系列データ及び音前処理部201から出力された音特徴量データを用いて、音データ213及び推定話者ID214を出力する。なお、音声強調器202は、最終的な出力として音データ213のみを出力してもよい。音声強調器202は、学習可能な複数のパラメタから定義されるモデルであり、記憶装置121には当該パラメタを格納するモデル情報(図示省略)が保存される。
The
図2Bは、学習部131の機能構成の詳細を示す。学習部131は、学習データに含まれるサンプル220を入力として受け付け、音声強調器202を定義するパラメタの学習を行う。
FIG. 2B shows the details of the functional configuration of the
サンプル220は、連続画像データ221、音データ223、及び話者ID224を含む。
The
連続画像データ221は、一定の間隔の画像222から構成される時系列データである。画像222は、話者の顔領域又は口元領域を含む画像である。なお、画像222は、あらかじめ話者から取得した画像でもよいし、音声処理システム100の運用中に撮像装置102によって取得された画像でもよい。
The
音データ223は、話者の音声を含むデータである。音データ223は、話者の音声のみが含まれてもよいし、話者の音声及び他の音が含まれてもよい。なお、音データ223は、雑音が少ない環境で集音された話者の音声のデータでもよいし、モノラルマイクを用いて集音された単一チャネル音声のデータでもよい。
The
連続画像データ221に含まれる画像222のサンプリングレートと、音データ223のサンプリングレートは異なっているが、時間的に同期しているものとする。
It is assumed that the sampling rate of the
なお、連続画像データ221及び音データ223は、別々のデータでなくてもよい。例えば、画像及び音を含む動画データでもよい。
The
話者ID224は話者の識別情報である。実施例1では、話者ID224として数字が割り当てられるものとする。この場合、話者毎に異なる数字が割り当てられる。
The
学習データには、前述したようなデータ構造のサンプル220が複数含まれる。例えば、1000単位又は10000単位の数のサンプル220が学習データに含まれる。
The training data includes a plurality of
学習部131は、画像前処理部200、音前処理部201、音声強調器202、混合音声生成部203、音声誤差算出部204、音声誤差反映部205、話者誤差算出部206、及び話者誤差反映部207を含む。
The
画像前処理部200、音前処理部201、及び音声強調器202は、推定部130に含まれるモジュールと同一である。
The
混合音声生成部203は、話者の音声に関する音データ223及び干渉音声に関する音データ225を用いて、混合音声に関する音データ227を生成する。例えば、混合音声生成部203は、話者の音声及び干渉音声を加算又は重み付け加算することによって混合音声を生成する。
The mixed voice generation unit 203 generates sound data 227 related to the mixed voice by using the
混合音声生成部203は、入力するサンプル220の話者ID224と異なる話者ID224を含むサンプル220の中から一つのサンプル220をランダムに選択し、選択されたサンプル220に含まれる音データ223を干渉音声の音データ225として用いる。なお、選択するサンプル220の数は二つ以上でもよい。この場合、混合音声には、複数人の音声が含まれる。なお、学習データとは異なるデータとして、干渉音に関する音データを入力してもよい。例えば、環境音を含む音データ等が考えられる。
The mixed voice generation unit 203 randomly selects one
音声強調では、話者110の音声と、様々な雑音とが含まれる音が集音され、当該音から話者110の音声を抽出する必要がある。そこで、話者110の音声の抽出精度を向上させるために、混合音声を生成し、当該混合音声を用いて音声強調器202を学習する。なお、音声強調器202の学習時に混合音声を生成する手法は公知の手法である。
In speech enhancement, a sound including the voice of the
音声誤差算出部204は、音データ223及び音データ213の誤差を算出する。音データ213に音声波形が含まれる場合、音声誤差算出部204は、2乗誤差又はノルム誤差等、公知の誤差尺度に基づいて二つの音声波形の誤差を算出する。また、音データ213に音声スペクトルが含まれる場合、音声誤差算出部204は、音データ223に含まれる音声を音声スペクトルに変換し、2乗誤差等の公知の誤差尺度に基づいて二つの音声スペクトルの誤差を算出する。
The voice
音声誤差反映部205は、誤差逆伝播法等の公知の手法を用いて、音声誤差算出部204によって算出された誤差が小さくなるように音声強調器202のパラメタを更新する。
The voice
話者誤差算出部206は、交差エントロピー誤差等、公知の誤差尺度に基づいて、話者ID224及び推定話者ID214の間の誤差を算出する。
The speaker
話者誤差反映部207は、誤差逆伝播法等の公知の手法を用いて、話者誤差算出部206によって算出された誤差が小さくなるように音声強調器202のパラメタを更新する。
The speaker
図3は、実施例1の音声強調器202の詳細な構成の一例を示す図である。
FIG. 3 is a diagram showing an example of a detailed configuration of the
音声強調器202は、画像特徴抽出部300、音特徴抽出部301、特徴結合部302、同期推定部303、話者音声推定部304、音特徴変換部305、及び話者識別部306を含む。
The
画像特徴抽出部300は、画像前処理部200によって処理された画像の時系列データに含まれる各画像から画像特徴量(特徴量及び特徴表現等)を抽出する。画像特徴抽出部300は、時間的に連続する画像特徴量を特徴結合部302に出力する。画像特徴抽出部300は、例えば、CNN(Convolutional Neural Network)等を用いて構成される。画像特徴抽出部300を構成するCNNは学習対象のパラメタを含む。
The image
音特徴抽出部301は、音前処理部201によって処理された音特徴量データから音特徴量(特徴量及び特徴表現等)を抽出する。音特徴抽出部301は、時間的に連続する音特徴量を含むデータ(音特徴量の時系列データ)を特徴結合部302に出力する。音特徴抽出部301は、CNN又はRNN(Recurrent Neural Network)等を用いて構成される。音特徴抽出部301を構成するCNN又はRNNは学習対象のパラメタを含む。
The sound
特徴結合部302は、画像特徴量及び音特徴量を、時間的に同期した形式で結合することによって、複合特徴量を生成する。具体的には、特徴結合部302は、所定の時間間隔(タイムステップ)で画像特徴量及び音特徴量を結合することによって複合特徴量を生成する。特徴結合部302は、時間的に連続した複合特徴量を含む複合特徴量データを同期推定部303及び音特徴変換部305に出力する。
The
一般的に、画像のサンプリングレートは、音声のサンプリングレートより疎であるため、時間的に同期した形式で画像特徴量及び音特徴量を結合するためには工夫が必要である。本実施例では、音特徴抽出部301を構成するCNNの時間方向の畳み込み領域を広くすることによって、時間的な同期を実現している。
In general, the sampling rate of an image is sparser than the sampling rate of audio, so it is necessary to devise in order to combine the image feature amount and the sound feature amount in a time-synchronized format. In this embodiment, temporal synchronization is realized by widening the convolution area in the time direction of the CNN constituting the sound
音特徴変換部305は、音特徴抽出部301が抽出した音特徴量の時系列データに基づいて、音前処理部201に入力された音における話者の音声の含有度合いを示す指標を算出し、当該指標に基づいて発話状況を識別する。さらに、音特徴変換部305は、入力された音特徴量の時系列データを、発話状況を反映した音特徴量の時系列データに変換する。音特徴変換部305は、タイムステップ間類似度算出部310、発話状況識別部311、重み算出部312、及び重み反映部313を含む。
The sound
タイムステップ間類似度算出部310は、タイムステップ間の複合特徴量の類似度を算出する。タイムステップ間の複合特徴量の類似度が発話状況を識別するための指標として用いられる。タイムステップ間類似度算出部310は、例えば、線形層等を用いて構成される。タイムステップ間類似度算出部310を構成する線形層は学習対象のパラメタを含む。複合特徴量がベクトルである場合、タイムステップ間類似度算出部310はベクトルの内積を類似度として算出する。
The time-step
発話状況識別部311は、タイムステップ間類似度算出部310によって算出されたタイムステップ間の類似度に基づいて、各タイムステップの話者の発話状況を識別する。実施例1では、発話状況識別部311は、各タイムステップについて、話者の音声のみが含まれるケース(第1ケース)、話者の音声及び雑音が含まれるケース(第2ケース)、並びに、雑音のみが含まれるケース(第3ケース)のいずれのケースに該当するかを識別する。なお、第2ケースに該当する場合、発話状況識別部311は、話者の音声と雑音との混合比率を合わせて識別してもよい。発話状況識別部311は、例えば、線形層等を用いて構成される。発話状況識別部311を構成する線形層は学習対象のパラメタを含む。
The utterance
重み算出部312は、発話状況識別部311の識別結果に基づいて、各タイムステップの音特徴量の重みを算出する。重み算出部312は、例えば、線形層等を用いて構成される。重み算出部312を構成する線形層は学習対象のパラメタを含む。実施例1では、重み算出部312は、第1ケースに該当するタイムステップについては大きい重みを算出し、第2ケースに該当するタイムステップについては中程度の大きさの重みを算出し、第3ケースに該当するタイムステップについては小さい重みを算出する。
The
重み反映部313は、重み算出部312によって算出された重みと、音特徴抽出部301から出力された音特徴量の時系列データとを用いて、重み付き音特徴量の時系列データを生成する。例えば、重み反映部313は、音特徴量の時間方向に対して各タイムステップの重みを乗算することによって重み付き音特徴量の時系列データを算出する。重み反映部313は、重み付き音特徴量の時系列データを話者識別部306に出力する。なお、重み付けの対象は複合特徴量でもよい。
The
話者識別部306は、重み付き音特徴量の時系列データに基づいて話者を識別し、識別結果として推定話者ID214を出力する。話者識別部306は、話者特徴抽出部320及び話者推定部321を含む。
The
話者特徴抽出部320は、重み付き音特徴量の時系列データから話者特徴量330を抽出し、話者特徴量330を話者推定部321及び話者音声推定部304に出力する。話者特徴抽出部320は、例えば、CNN及びRNN等を用いて構成される。話者特徴抽出部320を構成するCNN及びRNNは学習対象のパラメタを含む。
The speaker
重み付き音特徴量の時系列データは、音に含まれる話者の音声の比率が高いタイムステップの音特徴量が強調された特徴量の時系列データである。したがって、重み付き音特徴量の時系列データを用いて抽出された話者特徴量330は、音特徴量の時系列データを用いて抽出された話者特徴量より、話者の音声成分をよく反映した特徴量であることが期待される。
The time-series data of the weighted sound feature amount is the time-series data of the feature amount in which the sound feature amount of the time step in which the ratio of the speaker's voice included in the sound is high is emphasized. Therefore, the
話者推定部321は、話者特徴量330を用いて話者を推定し、推定結果として推定話者ID214を出力する。話者推定部321は、例えば、線形層等から構成される。話者推定部321を構成する線形層は学習対象のパラメタを含む。
The
同期推定部303は、複合特徴量の時系列データに含まれる画像特徴量の時系列データに基づいて、話者の発話に伴う口の開閉動作が行われている期間(推定期間)を推定し、また、推定期間における口の開閉動作に関する特徴量を算出する。同期推定部303は、音特徴量の時系列データから、推定期間に一致又は同期する期間の音特徴量を抽出する。同期推定部303は、抽出された音特徴量を話者音声推定部304に出力する。同期推定部303は、例えば、RNN等を用いて構成される。同期推定部303を構成するRNNは学習対象のパラメタを含む。
The
話者音声推定部304は、同期推定部303から入力された推定期間の音特徴量及び話者識別部306から入力された話者特徴量330を用いて、話者の推定音声を抽出し、抽出結果として音データ213を出力する。話者音声推定部304は、例えば、RNN及び線形層等を用いて構成される。話者音声推定部304を構成するRNN及び線形層は学習対象のパラメタを含む。
The speaker
従来の音声強調器は、画像特徴抽出部、音特徴抽出部、特徴結合部、同期推定部、及び話者音声推定部のみを含み、口の開閉動作に同期する期間の音声を話者の推定音声として出力する。 A conventional speech enhancer includes only an image feature extraction unit, a sound feature extraction unit, a feature combination unit, a synchronization estimation unit, and a speaker voice estimation unit, and estimates the voice of a speaker during a period synchronized with the opening / closing operation of the mouth. Output as audio.
一方、本実施例の音声強調器202は、画像特徴抽出部300、音特徴抽出部301、特徴結合部302、同期推定部303、及び話者音声推定部304に加えて、音特徴変換部305及び話者識別部306を含む。音特徴変換部305は、話者の音声の純度が高い期間(タイムステップ)の音特徴量を強調するように重みを付与する。これは、音特徴量の抽出区間の選択手段として機能する。話者識別部306は、重み付き音特徴量の時系列データを用いることによって、精度の高い話者特徴量330を抽出することができる。話者音声推定部304は、話者特徴量330に基づいて話者の音声の音質(高さ、話す速度、及び音色等)も識別できるため、推定期間の音から干渉音を除いた話者の音声を抽出できる。このように、話者音声推定部304は、話者特徴量330をフィルタとして用いることによって、口の開閉動作に同期する期間の音から話者の音声をより正確に抽出することができる。
On the other hand, in the
したがって、実施例1の音声処理システム100の推定精度は、従来のシステムの推定精度より向上することが期待できる。
Therefore, the estimation accuracy of the
なお、音声強調器202が有する各モジュールについては、複数のモジュールを一つのモジュールにまとめてもよいし、一つのモジュールを機能毎に複数のモジュールに分けてもよい。
For each module included in the
次に、図4を用いて、音特徴変換部305の処理の詳細について説明する。図4は、実施例1の特徴結合部302によって出力された複合特徴量の時系列データのイメージを示す図である。
Next, the details of the processing of the sound
図4に示す複合特徴量の時系列データ400の一行目はタイムステップを表し、二行目はタイムステップの音特徴量を表し、三行目はタイムステップの画像特徴量を表す。
The first line of the time-
図4では、タイムステップは、複合特徴量の時系列データ400における順番を表す「1」から「8」までの数値として設定している。
In FIG. 4, the time step is set as a numerical value from “1” to “8” indicating the order of the complex feature amount in the
各タイムステップの音特徴量は、実際にはベクトル表現として与えられるが、説明のためにベクトル表現が表す、定性的な性質を示している。タイムステップ「1」から「3」の音特徴量は話者の音声のみが含まれる特徴量であることを示す。タイムステップ「4」から「6」の音特徴量は話者の音声及び干渉音が含まれる特徴量であることを示す。また、タイムステップ「7」、「8」の音特徴量は干渉音のみが含まれる特徴量であることを示す。なお、話者の音声及び干渉音の比率を表す特徴量であってもよい。 The sound features of each time step are actually given as a vector representation, but for the sake of explanation, they show the qualitative properties of the vector representation. The sound features of the time steps "1" to "3" indicate that the features include only the voice of the speaker. The sound features of the time steps "4" to "6" indicate that the features include the speaker's voice and the interference sound. Further, it is shown that the sound feature amounts of the time steps "7" and "8" are feature amounts including only the interference sound. It may be a feature amount representing the ratio of the speaker's voice and the interference sound.
各タイムステップの画像特徴量は、実際にはベクトル表現として与えられるが、説明の簡単のためにベクトル表現が表す、定性的な性質を示している。タイムステップ「1」から「6」の画像特徴量は、発話に伴って話者の口を開閉していることを表す特徴量であることを示す。タイムステップ「7」、「8」の画像特徴量は、発話していないため話者が閉口していることを表す特徴量であることを示す。 The image features of each time step are actually given as a vector representation, but for the sake of simplicity, they show the qualitative properties that the vector representation represents. The image feature amounts of the time steps "1" to "6" indicate that the feature amount indicates that the speaker's mouth is opened and closed with the utterance. The image feature quantities of the time steps "7" and "8" indicate that the speaker is closed because he / she is not speaking.
図4に示すような音特徴量及び画像特徴量を含む複合特徴量の時系列データ400について以下のようなケースに分けることができる。
The time-
タイムステップ「1」、「2」、「3」では、話者の音声のみが存在し、かつ、話者の口の開閉動作が行われている。したがって、タイムステップ「1」、「2」、「3」は、第1ケースに分類される。タイムステップ「4」、「5」、「6」では、話者の音声及び干渉音が存在し、かつ、話者の口の開閉動作が行われている。したがって、タイムステップ「4」、「5」、「6」は、第2ケースに分類される。タイムステップ「7」、「8」では、干渉音のみが存在し、かつ、話者の口は閉じられている。したがって、タイムステップ「7」、「8」は、第3ケースに分類される。 In the time steps "1", "2", and "3", only the voice of the speaker is present, and the speaker's mouth is opened and closed. Therefore, the time steps "1", "2", and "3" are classified into the first case. In the time steps "4", "5", and "6", the speaker's voice and the interference sound are present, and the speaker's mouth is opened and closed. Therefore, the time steps "4", "5", and "6" are classified into the second case. In the time steps "7" and "8", only the interference sound is present and the speaker's mouth is closed. Therefore, the time steps "7" and "8" are classified into the third case.
音特徴変換部305は、複合特徴量の時系列データを用いて、各タイムステップを第1ケース、第2ケース、及び第3ケースのいずれかに分類する。具体的には、音特徴変換部305は、タイムステップ間の複合特徴量(音特徴量及び画像特徴量)の類似度に基づいて、タイムステップ間におけるケースの遷移の分類を行う。
The sound
タイムステップ間類似度算出部310が算出するタイムステップ間の音特徴量及び画像特徴量の類似度は以下のようなものとする。
The similarity between the sound features and the image features calculated by the time step
第1ケース及び第3ケース間の遷移の場合、各タイムステップの音は異なるため、音特徴量の類似度は低い。第1ケース及び第2ケース間の遷移の場合、いずれのケースも話者の音声を含むが、第2ケースでは干渉音も含まれため、音特徴量の類似度は中程度となる。第2ケース及び第3ケースの遷移の場合、いずれのケースも干渉音を含むが、第2ケースでは話者の音声も含まれるため、音特徴量の類似度は中程度となる。同一のケースの遷移の場合、音特徴量の類似度は高いものとしている。 In the case of the transition between the first case and the third case, the sound of each time step is different, so that the similarity of the sound features is low. In the case of the transition between the first case and the second case, the voice of the speaker is included in both cases, but the interference sound is also included in the second case, so that the similarity of the sound features is medium. In the case of the transitions of the second case and the third case, the interference sound is included in both cases, but since the speaker's voice is also included in the second case, the similarity of the sound features is medium. In the case of transitions in the same case, the similarity of sound features is assumed to be high.
第1ケース及び第2ケースの遷移の場合、いずれも口の開閉動作が行われているため、画像特徴量の類似度は高い。第1ケース及び第3ケースの遷移、並びに、第2ケース及び第3ケースの遷移の場合、第1ケース及び第2ケースでは口の開閉動作が行われ、第3ケースでは口は閉じているため、画像特徴量の類似度は低い。同一のケースの遷移の場合、画像特徴量の類似度は高いものとしている。 In the case of the transition of the first case and the second case, since the mouth is opened and closed, the similarity of the image feature quantities is high. In the case of the transition of the first case and the third case, and the transition of the second case and the third case, the mouth is opened and closed in the first case and the second case, and the mouth is closed in the third case. , The similarity of image features is low. In the case of transitions in the same case, the similarity of image features is high.
以上をまとめると以下のような特性になる。第1ケース及び第3ケース間の遷移の場合、音特徴量の類似度及び画像特徴量の類似度はともに低い。第1ケース及び第2ケース間の遷移の場合、音特徴量の類似度は中程度であり、画像特徴量の類似度は高い。第2ケース及び第3ケース間の遷移の場合、音特徴量の類似度は中程度であり、画像特徴量の類似度は低い。 Summarizing the above, the characteristics are as follows. In the case of the transition between the first case and the third case, the similarity of the sound features and the similarity of the image features are both low. In the case of the transition between the first case and the second case, the similarity of the sound features is medium, and the similarity of the image features is high. In the case of the transition between the second case and the third case, the similarity of the sound features is medium, and the similarity of the image features is low.
発話状況識別部311は、前述のようなケース間の遷移における類似度の性質に基づいて、各タイムステップのケースの分類を行う。
The utterance
なお、以下のような分類方法を採用してもよい。発話状況識別部311は、画像特徴量に基づいて、口が閉じているタイムステップを特定し、当該タイムステップを第3ケースに分類する。次に、発話状況識別部311は、第3ケースに分類されたタイムステップの音特徴量を基準音特徴量に設定する。なお、第3ケースに分類されるタイムステップが複数存在する場合、各タイムステップの音特徴量の平均値等の統計値を基準音特徴量に設定することが考えられる。次に、発話状況識別部311は、未分類のタイムステップの音特徴量と、基準音特徴量との間の類似度を算出する。次に、発話状況識別部311は、類似度及び閾値の比較結果に基づいて、未分類のタイムステップを分類する。例えば、発話状況識別部311は、類似度が閾値より小さいタイムステップを第1ケースに分類し、類似度が閾値以上のタイムステップを第2ケースに分類する。
The following classification method may be adopted. The utterance
なお、発話状況識別部311は、学習可能な線形層を用いて構成してもよい。この場合、発話状況識別部311は、複合特徴量を、ケースの識別が容易な特徴量に変換し、当該特徴量に基づいて各タイムステップのケースの分類を行う。例えば、発話状況識別部311は、変換後の特徴量の特徴量空間における配置及びノルム距離を用いて、各タイムステップのケースの分類を行う。同一ケースのノルム距離は小さくなり、異なるケースのノルム距離は大きくなる。また、同一ケースの特徴量は、特徴量空間の特定の領域に密集する。
The utterance
重み算出部312は、第1ケースに分類されたタイムステップの音特徴量又は複合特徴量に対して大きい重みを算出し、第2ケースに分類されたタイムステップの音特徴量又は複合特徴量に対して中程度の重みを算出し、第3ケースに分類されたタイムステップの音特徴量又は複合特徴量に対して小さい重みを算出する。
The
なお、図4に示した発話状況のケースの分類は一例であってこれに限定されない。 The classification of the utterance situation cases shown in FIG. 4 is an example and is not limited to this.
音特徴変換部305は、話者の音声が含まれるタイムステップの特徴量が強調され、かつ、話者の音声が含まれないタイムステップの特徴量が抑制されるように音特徴量の時系列データを変換する。これによって、話者識別部306は、話者の音声をよく反映した話者特徴量330を抽出することができる。
The sound
次に、音声処理システム100が実行する学習処理及び推定処理について説明する。
Next, the learning process and the estimation process executed by the
図5は、実施例1の音声処理システム100が実行する学習処理の一例を説明するフローチャートである。
FIG. 5 is a flowchart illustrating an example of learning processing executed by the
学習部131は、実行指示を受信した場合、又は、学習データが入力された場合、以下で説明する学習処理を開始する。
When the
学習部131は、学習データの入力を受け付ける(ステップS501)。例えば、学習部131は、接続インタフェース122を介して接続されるユーザ端末から学習データの入力を受け付ける。学習部131は、受け付けた学習データを記憶装置121に保存する。
The
次に、学習部131は、学習データから一つのサンプル220を読み出す(ステップS502)。このとき、学習部131は、他のサンプル220に含まれる音データ223を干渉音声の音データ225として読み出す。なお、サンプル220はランダムに選択されてもよいし、あらかじめ設定されたポリシに基づいて選択されてもよい。
Next, the
次に、学習部131は、連続画像データ221及び音データ223に対して前処理を実行する(ステップS503)。
Next, the
具体的には、画像前処理部200が連続画像データ221に含まれる画像222に対して前処理を実行する。また、混合音声生成部203は、音データ223、225を用いて混合音声の音データ227を生成し、音前処理部201が音データ227に対して前処理を実行する。
Specifically, the
次に、学習部131は、前処理が実行された連続画像データ221及び音データ223を用いて、音データ213及び推定話者ID214を出力する(ステップS504)。具体的には、音声強調器202によって以下のような処理が実行される。
Next, the
特徴結合部302は、画像特徴抽出部300によって抽出された画像特徴量の時系列データと、音特徴抽出部301によって抽出された音特徴量の時系列データとを、時間的に同期した形式で結合することによって複合特徴量の時系列データを生成する。
The
音特徴変換部305は、複合特徴量の時系列データを用いて、重み付き音特徴量の時系列データを出力する。
The sound
話者識別部306は、重み付き音特徴量の時系列データから、中間出力として話者特徴量330を抽出する。また、話者識別部306は、話者特徴量330に基づいて、話者を推定し、推定結果として推定話者ID214を出力する。
The
同期推定部303は、口の開閉動作が行われている期間に対応するタイムステップの音特徴量を抽出する。話者音声推定部304は、話者特徴量330を用いて、同期推定部303によって抽出された、任意のタイムステップの音特徴量から音データ213を抽出し、出力する。
The
以上が、音声強調器202が実行する処理の説明である。
The above is a description of the process executed by the
次に、学習部131は、音データ213及び音データ223の誤差と、推定話者ID214及び話者ID224の誤差とを算出する(ステップS505)。
Next, the
具体的には、音声誤差算出部204が音データ213及び音データ223の誤差を算出し、話者誤差算出部206が推定話者ID214及び話者ID224の誤差を算出する。
Specifically, the voice
次に、学習部131は、音声強調器202に対して各誤差を反映する(ステップS506)。
Next, the
具体的には、音声誤差反映部205が、音データ213及び音データ223の誤差に基づいて、音声強調器202の各モジュールの学習対象のパラメタを更新し、話者誤差反映部207が、推定話者ID214及び話者ID224の誤差に基づいて、音声強調器202の各モジュールの学習対象のパラメタを更新する。
Specifically, the voice
実施例1では、画像特徴抽出部300、音特徴抽出部301、同期推定部303、話者音声推定部304、音特徴変換部305(タイムステップ間類似度算出部310、発話状況識別部311、及び重み算出部312)、及び話者識別部306(話者特徴抽出部320及び話者推定部321)のパラメタが更新される。
In the first embodiment, the image
次に、学習部131は、学習を終了するか否かを判定する(ステップS507)。
Next, the
例えば、誤差の減少幅が閾値より小さくなり、これ以上、誤差が小さくできない場合、学習部131は学習を終了する。なお、学習の終了判定は、ユーザが判断してもよい。
For example, when the reduction width of the error becomes smaller than the threshold value and the error cannot be reduced any more, the
学習を終了しないと判定された場合、学習部131は、ステップS502に戻り、同様の処理を実行する。
If it is determined that the learning is not completed, the
学習を終了すると判定された場合、学習部131は、学習結果を推定部130に出力し(ステップS508)、その後、学習処理を終了する。
When it is determined that the learning is finished, the
具体的には、学習部131は、音声強調器202の各モジュールのパラメタを推定部130に出力する。
Specifically, the
学習処理によって、音声強調器202が出力する音データ213及び音データ223の誤差と、推定話者ID214及び話者ID224の誤差とが小さくなる。このように、学習処理では、同期推定部303、話者音声推定部304、音特徴変換部305、及び話者識別部306のパラメタが一緒に更新される。
By the learning process, the error of the
図6は、実施例1の音声処理システム100が実行する推定処理の一例を説明するフローチャートである。
FIG. 6 is a flowchart illustrating an example of estimation processing executed by the
推定部130は、実行指示を受信した場合、又は、データが入力された場合、以下で説明する推定処理を開始する。なお、音声処理システム100は、図1に示すような環境において稼働しているものとする。
When the
推定部130は、撮像装置102から連続画像データ211を取得し、また、集音装置103から音データ212を取得する(ステップS601)。推定部130は、連続画像データ211及び音データ212を記憶装置121に保存する。
The
次に、推定部130は、連続画像データ211及び音データ212に対して前処理を実行する(ステップS602)。ステップS602の処理はステップS503の処理と同様の処理である。
Next, the
次に、推定部130は、前処理が実行された連続画像データ211及び音データ212を用いて、音データ213及び推定話者ID214を出力し(ステップS603)、その後、推定処理を終了する。
Next, the
具体的には、学習結果が反映された音声強調器202が音データ213及び推定話者ID214を出力する。ステップS603の処理はステップS504の処理と同様の処理である。
Specifically, the
音データ213に含まれる推定音声は、雑音音源111の音が抑制された、話者110の音声に非常に類似した音声となっている。なお、推定部130は、音データ213を、公知の音声認識器に入力することによって、文字起こしを行ってもよい。
The estimated voice included in the
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。 The present invention is not limited to the above-described embodiment, and includes various modifications. Further, for example, the above-described embodiment describes the configuration in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. Further, it is possible to add, delete, or replace a part of the configuration of each embodiment with other configurations.
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 Further, each of the above configurations, functions, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. The present invention can also be realized by a software program code that realizes the functions of the examples. In this case, a storage medium in which the program code is recorded is provided to the computer, and the processor included in the computer reads out the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the function of the above-described embodiment, and the program code itself and the storage medium storing it constitute the present invention. Examples of the storage medium for supplying such a program code include a flexible disk, a CD-ROM, a DVD-ROM, a hard disk, an SSD (Solid State Drive), an optical disk, a magneto-optical disk, a CD-R, and a magnetic tape. Non-volatile memory cards, ROMs, etc. are used.
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。 In addition, the program code that realizes the functions described in this embodiment can be implemented in a wide range of programs or script languages such as assembler, C / C ++, perl, Shell, PHP, Python, and Java (registered trademark).
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。 Further, by distributing the program code of the software that realizes the functions of the embodiment via the network, the program code is stored in a storage means such as a hard disk or a memory of a computer or a storage medium such as a CD-RW or a CD-R. The processor included in the computer may read and execute the program code stored in the storage means or the storage medium.
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。 In the above-described embodiment, the control lines and information lines show what is considered necessary for explanation, and do not necessarily indicate all the control lines and information lines in the product. All configurations may be interconnected.
100 音声処理システム
101 サーバ
102 撮像装置
103 集音装置
110 話者
111 雑音音源
112 顔領域画像
120 プロセッサ
121 記憶装置
122 接続インタフェース
123 内部バス
130 推定部
131 学習部
200 画像前処理部
201 音前処理部
202 音声強調器
203 混合音声生成部
204 音声誤差算出部
205 音声誤差反映部
206 話者誤差算出部
207 話者誤差反映部
211、221 連続画像データ
212、213、223、225、227 音データ
214 推定話者ID
220 サンプル
222 画像
224 話者ID
300 画像特徴抽出部
301 音特徴抽出部
302 特徴結合部
303 同期推定部
304 話者音声推定部
305 音特徴変換部
306 話者識別部
310 タイムステップ間類似度算出部
311 発話状況識別部
312 重み算出部
313 重み反映部
320 話者特徴抽出部
321 話者推定部
330 話者特徴量
100
220
300 Image
Claims (14)
演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを備え、
前記集音装置及び前記ターゲット人物の画像を取得する撮像装置と、前記接続インタフェースを介して接続し、
前記演算装置は、
前記集音装置から取得した入力音及び前記撮像装置から取得した入力画像を前記記憶装置に格納し、
前記入力音を用いて、前記ターゲット人物の音声の特徴を示す話者特徴量を算出し、
前記入力画像を用いて、前記ターゲット人物の顔を含む顔領域画像を抽出し、
複数の前記顔領域画像を用いて、前記ターゲット人物が発話していたと推定される発話期間を特定し、
前記話者特徴量及び前記発話期間を用いて、前記入力音から、前記発話期間における前記ターゲット人物の推定音声を抽出し、抽出された前記ターゲット人物の推定音声を前記記憶装置に格納することを特徴とする計算機。 It is a computer that extracts the voice of the target person included in the sound collected by the sound collector.
It includes an arithmetic unit, a storage device connected to the arithmetic unit, and a connection interface connected to the arithmetic unit.
The sound collector and the image pickup device that acquires an image of the target person are connected via the connection interface.
The arithmetic unit is
The input sound acquired from the sound collecting device and the input image acquired from the imaging device are stored in the storage device.
Using the input sound, a speaker feature amount indicating the characteristics of the voice of the target person is calculated.
Using the input image, a face area image including the face of the target person is extracted.
Using the plurality of facial area images, the utterance period estimated to have been spoken by the target person was specified, and the utterance period was specified.
Using the speaker feature amount and the utterance period, the estimated voice of the target person in the utterance period is extracted from the input sound, and the extracted estimated voice of the target person is stored in the storage device. Characterized computer.
前記演算装置は、
前記入力音及び前記複数の入力画像を用いて、前記入力音におけるタイムステップ毎の前記ターゲット人物の発話状況を識別し、
前記各タイムステップの前記ターゲット人物の発話状況に基づいて、前記ターゲット人物の音声が含まれるタイムステップを強調するように前記入力音を変換し、
前記変換された入力音を用いて前記話者特徴量を算出することを特徴とする計算機。 The computer according to claim 1.
The arithmetic unit is
Using the input sound and the plurality of input images, the utterance status of the target person at each time step in the input sound is identified.
Based on the utterance status of the target person in each time step, the input sound is converted so as to emphasize the time step including the voice of the target person.
A computer characterized in that the speaker feature amount is calculated using the converted input sound.
前記演算装置は、
前記入力音から、前記タイムステップ毎の音特徴量からなる第1時系列データを生成し、
前記複数の顔領域画像から、前記タイムステップ毎の画像特徴量からなる第2時系列データを生成し、
前記第1時系列データ及び前記第2時系列データを用いて、前記入力音における前記ターゲット人物の音声の含有度合いを示す指標を算出し、
前記指標に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別し、
前記各タイムステップの前記ターゲット人物の発話状況に応じた重みを算出し、
前記重みを用いて、前記第1時系列データを変換し、
前記変換された第1時系列データを用いて前記話者特徴量を算出することを特徴とする計算機。 The computer according to claim 2.
The arithmetic unit is
From the input sound, a first time-series data consisting of sound features for each time step is generated.
From the plurality of face area images, a second time-series data consisting of an image feature amount for each time step is generated.
Using the first time-series data and the second time-series data, an index indicating the content of the voice of the target person in the input sound is calculated.
Based on the index, the utterance status of the target person at each time step is identified.
The weight according to the utterance situation of the target person in each time step is calculated.
Using the weights, the first time series data is transformed.
A computer characterized in that the speaker feature amount is calculated using the converted first time-series data.
前記演算装置は、
前記タイムステップ間の前記音特徴量の類似度及び前記画像特徴量の類似度を、前記指標として算出し、
前記タイムステップ間の画像特徴量の類似度、及び前記タイムステップ間の前記音特徴量の類似度に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別することを特徴とする計算機。 The computer according to claim 3.
The arithmetic unit is
The similarity between the sound features and the image features between the time steps was calculated as the index.
A computer characterized by identifying the utterance status of the target person in each time step based on the similarity of the image features between the time steps and the similarity of the sound features between the time steps.
前記演算装置は、
前記画像特徴量に基づいて、前記ターゲット人物が閉口している基準タイムステップを特定し、
前記基準タイムステップに対応する前記音特徴量に基づいて、基準音特徴量を算出し、
前記基準音特徴量と前記各タイムステップの音特徴量との間の類似度を、前記指標として算出し、
前記基準音特徴量と前記各タイムステップの音特徴量との間の類似度に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別することを特徴とする計算機。 The computer according to claim 3.
The arithmetic unit is
Based on the image feature amount, the reference time step in which the target person is closed is specified.
Based on the sound feature amount corresponding to the reference time step, the reference sound feature amount is calculated.
The degree of similarity between the reference sound feature amount and the sound feature amount of each time step is calculated as the index.
A computer characterized by identifying the utterance status of the target person in each time step based on the degree of similarity between the reference sound feature amount and the sound feature amount in each time step.
前記記憶装置は、入力された音から発話している話者を識別する第1モデル、前記タイムステップ毎の発話状況を識別する第2モデル、前記発話期間を特定する第3モデル、及び前記ターゲット人物の音声を抽出する第4モデルを定義する情報を格納し、
前記演算装置は、
前記第2モデルに、前記第1時系列データ及び前記第2時系列データを入力することによって、前記変換された入力音を算出し、
前記変換された入力音を入力した前記第1モデルから、前記ターゲット人物の前記話者特徴量を抽出し、
前記第3モデルに、前記第1時系列データ及び前記第2時系列データを入力することによって、前記発話期間を算出し、
前記第4モデルに、前記話者特徴量及び前記発話期間を入力することによって、前記入力音から前記ターゲット人物の音声を抽出することを特徴とする計算機。 The computer according to claim 3.
The storage device includes a first model that identifies a speaker who is speaking from an input sound, a second model that identifies an utterance status for each time step, a third model that specifies the utterance period, and the target. Stores information that defines a fourth model that extracts the voice of a person,
The arithmetic unit is
By inputting the first time-series data and the second time-series data into the second model, the converted input sound is calculated.
From the first model in which the converted input sound is input, the speaker feature amount of the target person is extracted.
By inputting the first time-series data and the second time-series data into the third model, the utterance period is calculated.
A computer characterized in that the voice of the target person is extracted from the input sound by inputting the speaker feature amount and the utterance period into the fourth model.
前記演算装置は、
複数の学習用画像、学習用音声、及び話者の識別情報から構成されるサンプルを複数含む学習データを受け付け、前記記憶装置に格納し、
前記学習データを用いて、前記第1モデルから出力される話者の識別結果及び前記サンプルに含まれる前記話者の識別情報の誤差、並びに、前記第4モデルから出力される前記ターゲット人物の音声及び前記サンプルに含まれる前記学習用音声の誤差が小さくなるように、前記第1モデル、前記第2モデル、前記第3モデル、及び前記第4モデルを学習することを特徴とする計算機。 The computer according to claim 6.
The arithmetic unit is
Learning data including a plurality of samples composed of a plurality of learning images, learning voices, and speaker identification information is received and stored in the storage device.
Using the learning data, an error in the speaker identification result output from the first model and the speaker identification information included in the sample, and the voice of the target person output from the fourth model. A computer characterized by learning the first model, the second model, the third model, and the fourth model so that the error of the learning voice included in the sample is small.
前記計算機は、
演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを有し、
前記ターゲット人物が存在する空間の音を集音する集音装置及び前記ターゲット人物の画像を取得する撮像装置と、前記接続インタフェースを介して接続し、
前記音声処理方法は、
前記演算装置が、前記集音装置から取得した入力音及び前記撮像装置から取得した入力画像を前記記憶装置に格納する第1のステップと、
前記演算装置が、前記入力音を用いて、前記ターゲット人物の音声の特徴を示す話者特徴量を算出する第2のステップと、
前記演算装置が、前記入力画像を用いて、前記ターゲット人物の顔を含む顔領域画像を抽出する第3のステップと、
前記演算装置が、複数の前記顔領域画像を用いて、前記ターゲット人物が発話していたと推定される発話期間を特定する第4のステップと、
前記演算装置が、前記話者特徴量及び前記発話期間を用いて、前記入力音から、前記発話期間における前記ターゲット人物の推定音声を抽出し、抽出された前記ターゲット人物の推定音声を前記記憶装置に格納する第5のステップと、
を含むことを特徴とする音声処理方法。 It is a voice processing method executed by a computer to extract the voice of the target person included in the sound.
The calculator
It has an arithmetic unit, a storage device connected to the arithmetic unit, and a connection interface connected to the arithmetic unit.
A sound collecting device that collects sounds in the space where the target person exists and an imaging device that acquires an image of the target person are connected via the connection interface.
The voice processing method is
The first step in which the arithmetic unit stores the input sound acquired from the sound collecting device and the input image acquired from the image pickup device in the storage device.
A second step in which the arithmetic unit calculates a speaker feature amount indicating the characteristics of the voice of the target person using the input sound.
A third step in which the arithmetic unit uses the input image to extract a face region image including the face of the target person.
A fourth step in which the arithmetic unit uses a plurality of the face area images to identify an utterance period in which the target person is presumed to have spoken.
The arithmetic unit uses the speaker feature amount and the utterance period to extract the estimated voice of the target person in the utterance period from the input sound, and the extracted estimated voice of the target person is stored in the storage device. And the fifth step to store in
A voice processing method characterized by including.
前記第2のステップは、
前記演算装置が、前記入力音及び前記複数の入力画像を用いて、前記入力音におけるタイムステップ毎の前記ターゲット人物の発話状況を識別する第6のステップと、
前記演算装置が、前記各タイムステップの前記ターゲット人物の発話状況に基づいて、前記ターゲット人物の音声が含まれるタイムステップを強調するように前記入力音を変換する第7のステップと、
前記演算装置が、前記変換された入力音を用いて前記話者特徴量を算出する第8のステップと、を含むことを特徴とする音声処理方法。 The voice processing method according to claim 8.
The second step is
A sixth step in which the arithmetic unit identifies the utterance status of the target person for each time step in the input sound using the input sound and the plurality of input images.
A seventh step in which the arithmetic unit converts the input sound so as to emphasize the time step including the voice of the target person based on the utterance status of the target person in each time step.
A voice processing method comprising the eighth step of calculating the speaker feature amount using the converted input sound.
前記第1のステップは、
前記演算装置が、前記入力音から、前記タイムステップ毎の音特徴量からなる第1時系列データを生成するステップと、
前記演算装置が、前記複数の顔領域画像から、前記タイムステップ毎の画像特徴量からなる第2時系列データを生成するステップと、を含み、
前記第6のステップは、
前記演算装置が、前記第1時系列データ及び前記第2時系列データを用いて、前記入力音における前記ターゲット人物の音声の含有度合いを示す指標を算出する第9のステップと、
前記演算装置が、前記指標に基づいて前記各タイムステップの前記ターゲット人物の発話状況を識別する第10のステップと、を含み、
前記第7のステップは、
前記演算装置が、前記各タイムステップの前記ターゲット人物の発話状況に応じた重みを算出するステップと、
前記演算装置が、前記重みを用いて、前記第1時系列データを変換するステップと、を含み、
前記第8のステップは、前記演算装置が、前記変換された第1時系列データを用いて前記話者特徴量を算出するステップを含むことを特徴とする音声処理方法。 The voice processing method according to claim 9.
The first step is
A step in which the arithmetic unit generates first time-series data consisting of sound features for each time step from the input sound.
The arithmetic unit includes a step of generating a second time-series data including an image feature amount for each time step from the plurality of face area images.
The sixth step is
A ninth step in which the arithmetic unit uses the first time-series data and the second time-series data to calculate an index indicating the content of the voice of the target person in the input sound.
The arithmetic unit includes a tenth step of identifying the utterance status of the target person in each time step based on the index.
The seventh step is
A step in which the arithmetic unit calculates a weight according to the utterance status of the target person in each time step, and a step.
The arithmetic unit includes a step of converting the first time series data using the weights.
The eighth step is a voice processing method, wherein the arithmetic unit includes a step of calculating the speaker feature amount using the converted first time series data.
前記第9のステップは、前記演算装置が、前記タイムステップ間の前記音特徴量の類似度及び前記画像特徴量の類似度を、前記指標として算出するステップを含み、
前記第10のステップは、前記演算装置が、前記タイムステップ間の画像特徴量の類似度、及び前記タイムステップ間の前記音特徴量の類似度に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別するステップを含むことを特徴とする音声処理方法。 The voice processing method according to claim 10.
The ninth step includes a step in which the arithmetic unit calculates the similarity of the sound feature amount and the similarity of the image feature amount between the time steps as the index.
In the tenth step, the arithmetic unit of the target person in each time step is based on the similarity of the image feature amount between the time steps and the similarity of the sound feature amount between the time steps. A voice processing method comprising a step of identifying an utterance situation.
前記第9のステップは、
前記演算装置が、前記画像特徴量に基づいて、前記ターゲット人物が閉口している基準タイムステップを特定するステップと、
前記演算装置が、前記基準タイムステップに対応する前記音特徴量に基づいて、基準音特徴量を算出するステップと、
前記演算装置が、前記基準音特徴量と前記各タイムステップの音特徴量との間の類似度を、前記指標として算出するステップと、を含み、
前記第10のステップは、前記演算装置が、前記基準音特徴量と前記各タイムステップの音特徴量との間の類似度に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別するステップを含むことを特徴とする音声処理方法。 The voice processing method according to claim 10.
The ninth step is
A step in which the arithmetic unit identifies a reference time step in which the target person is closed based on the image feature amount, and a step.
A step in which the arithmetic unit calculates a reference sound feature amount based on the sound feature amount corresponding to the reference time step.
The arithmetic unit includes a step of calculating the similarity between the reference sound feature amount and the sound feature amount of each time step as the index.
In the tenth step, the arithmetic unit identifies the utterance status of the target person in each time step based on the degree of similarity between the reference sound feature amount and the sound feature amount in each time step. A voice processing method characterized by including steps.
前記記憶装置は、入力された音から発話している話者を識別する第1モデル、前記タイムステップ毎の発話状況を識別する第2モデル、前記発話期間を特定する第3モデル、及び前記ターゲット人物の音声を抽出する第4モデルを定義する情報を格納し、
前記第2のステップは、
前記演算装置が、前記第2モデルに、前記第1時系列データ及び前記第2時系列データを入力することによって、前記変換された入力音を算出するステップと、
前記演算装置が、前記変換された入力音を入力した前記第1モデルから、前記ターゲット人物の前記話者特徴量を抽出するステップと、を含み、
前記第4のステップは、前記演算装置が、前記第3モデルに、前記第1時系列データ及び前記第2時系列データを入力することによって、前記発話期間を算出するステップを含み、
前記第5のステップは、前記演算装置が、前記第4モデルに、前記話者特徴量及び前記発話期間を入力することによって、前記入力音から前記ターゲット人物の音声を抽出するステップと、を含むことを特徴とする音声処理方法。 The voice processing method according to claim 10.
The storage device includes a first model that identifies a speaker who is speaking from an input sound, a second model that identifies an utterance status for each time step, a third model that specifies the utterance period, and the target. Stores information that defines a fourth model that extracts the voice of a person,
The second step is
A step of calculating the converted input sound by the arithmetic unit inputting the first time series data and the second time series data into the second model.
The arithmetic unit includes a step of extracting the speaker feature amount of the target person from the first model in which the converted input sound is input.
The fourth step includes a step in which the arithmetic unit calculates the utterance period by inputting the first time series data and the second time series data into the third model.
The fifth step includes a step in which the arithmetic unit extracts the voice of the target person from the input sound by inputting the speaker feature amount and the utterance period into the fourth model. A voice processing method characterized by that.
前記演算装置が、前記接続インタフェースを介して、複数の学習用画像、学習用音声、及び話者の識別情報から構成されるサンプルを複数含む学習データを受け付け、前記記憶装置に格納するステップと、
前記演算装置が、前記学習データを用いて、前記第1モデルから出力される話者の識別結果及び前記サンプルに含まれる前記話者の識別情報の誤差、並びに、前記第4モデルから出力される前記ターゲット人物の音声及び前記サンプルに含まれる前記学習用音声の誤差が小さくなるように、前記第1モデル、前記第2モデル、前記第3モデル、及び前記第4モデルを学習するステップと、を含むことを特徴とする音声処理方法。 The voice processing method according to claim 13.
A step in which the arithmetic unit receives learning data including a plurality of samples composed of a plurality of learning images, learning voices, and speaker identification information via the connection interface and stores the learning data in the storage device.
Using the learning data, the arithmetic unit outputs the speaker identification result output from the first model, the error of the speaker identification information included in the sample, and the fourth model. A step of learning the first model, the second model, the third model, and the fourth model so that the error between the voice of the target person and the voice for learning included in the sample is small. A voice processing method characterized by including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020171420A JP2022063080A (en) | 2020-10-09 | 2020-10-09 | Computer and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020171420A JP2022063080A (en) | 2020-10-09 | 2020-10-09 | Computer and voice processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022063080A true JP2022063080A (en) | 2022-04-21 |
Family
ID=81212375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020171420A Pending JP2022063080A (en) | 2020-10-09 | 2020-10-09 | Computer and voice processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022063080A (en) |
-
2020
- 2020-10-09 JP JP2020171420A patent/JP2022063080A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN106486131B (en) | A kind of method and device of speech de-noising | |
Friedland et al. | The ICSI RT-09 speaker diarization system | |
CN112233698B (en) | Character emotion recognition method, device, terminal equipment and storage medium | |
US10390130B2 (en) | Sound processing apparatus and sound processing method | |
CN109147763B (en) | Audio and video keyword identification method and device based on neural network and inverse entropy weighting | |
CN107799126A (en) | Sound end detecting method and device based on Supervised machine learning | |
JP5634959B2 (en) | Noise / dereverberation apparatus, method and program thereof | |
CN111785288A (en) | Voice enhancement method, device, equipment and storage medium | |
CN111883135A (en) | Voice transcription method and device and electronic equipment | |
WO2023001128A1 (en) | Audio data processing method, apparatus and device | |
KR20210036692A (en) | Method and apparatus for robust speech enhancement training using adversarial training | |
KR20190032868A (en) | Method and apparatus for voice recognition | |
WO2024055752A9 (en) | Speech synthesis model training method, speech synthesis method, and related apparatuses | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
CN111554279A (en) | Multi-mode man-machine interaction system based on Kinect | |
Abdulatif et al. | Investigating cross-domain losses for speech enhancement | |
CN117789699B (en) | Speech recognition method, device, electronic equipment and computer readable storage medium | |
CN117935789A (en) | Speech recognition method, system, equipment and storage medium | |
WO2020195924A1 (en) | Signal processing device, method, and program | |
Prabhu et al. | EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data | |
Abel et al. | A data driven approach to audiovisual speech mapping | |
JP2022063080A (en) | Computer and voice processing method | |
Yanagisawa et al. | Noise robustness in HMM-TTS speaker adaptation | |
CN115240696A (en) | Speech recognition method and readable storage medium |