JP2022063080A - Computer and voice processing method - Google Patents

Computer and voice processing method Download PDF

Info

Publication number
JP2022063080A
JP2022063080A JP2020171420A JP2020171420A JP2022063080A JP 2022063080 A JP2022063080 A JP 2022063080A JP 2020171420 A JP2020171420 A JP 2020171420A JP 2020171420 A JP2020171420 A JP 2020171420A JP 2022063080 A JP2022063080 A JP 2022063080A
Authority
JP
Japan
Prior art keywords
sound
time
voice
feature amount
target person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020171420A
Other languages
Japanese (ja)
Inventor
光一郎 伊藤
Koichiro Ito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020171420A priority Critical patent/JP2022063080A/en
Publication of JP2022063080A publication Critical patent/JP2022063080A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To extract voice of a speaker included in sound while suppressing the influence of noise by using the sound and an image.SOLUTION: A computer stores input sound acquired from a sound collection device and an input image acquired from an imaging device in a storage device, calculates a speaker characteristic amount showing characteristics of voice of a target person by using the input sound, extracts face area images including the face of the target person by using the input image, specifies an utterance period estimated to be a period in which the target person utters by using a plurality of face area images, and extracts estimated voice of the target person in the utterance period from the input sound by using the speaker characteristic amount and the utterance period.SELECTED DRAWING: Figure 3

Description

本発明は、入力された音及び画像を用いて、雑音の影響を抑えつつ、音に含まれる話者の音声を抽出する音声処理の技術に関する。 The present invention relates to a voice processing technique for extracting a speaker's voice included in a sound while suppressing the influence of noise by using the input sound and an image.

マイク等を用いて集音された音声データから文字起こしをする音声認識では、精度を高めるために、入力する音声から可能な限り雑音成分を取り除くことが望ましい。これに対して特許文献1に記載の技術が知られている。 In voice recognition in which transcription is performed from voice data collected using a microphone or the like, it is desirable to remove noise components from the input voice as much as possible in order to improve accuracy. On the other hand, the technique described in Patent Document 1 is known.

特許文献1では、カメラを用いて取得した画像から話者の口の開閉状態を識別し、話者の開口時(口の開閉動作期間)の音声を話者の音声が含まれる信号音声として扱い、話者の閉口時の音声を雑音音声として扱う制御プログラムが記載している。画像を用いて話者の音声と雑音とを識別することによって、精度の高い音声認識を実現している。 In Patent Document 1, the open / closed state of the speaker's mouth is identified from the image acquired by using the camera, and the voice at the time of opening the speaker (mouth opening / closing operation period) is treated as a signal voice including the speaker's voice. , A control program that treats the voice of the speaker when the mouth is closed as noise voice is described. By distinguishing the speaker's voice and noise using images, highly accurate voice recognition is realized.

特開2019-8134号公報Japanese Unexamined Patent Publication No. 2019-8134

しかし、話者の開口時の音声に話者以外の雑音が含まれている場合がある。この場合、話者の開口時の音から雑音が含まれていない話者の音声を抽出することが困難である。 However, the voice at the time of opening the speaker may contain noise other than the speaker. In this case, it is difficult to extract the speaker's voice without noise from the speaker's opening sound.

本発明は、上記の課題を解決するためになされたものであり、話者の口の開閉動作期間中の音から話者の音声を精度よく抽出する音声処理システムを提供するものである。 The present invention has been made to solve the above problems, and provides a voice processing system that accurately extracts a speaker's voice from the sound during the opening / closing operation period of the speaker's mouth.

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、集音装置によって集音された入力音からターゲット人物の音声を抽出する計算機であって、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを備え、前記集音装置及び前記ターゲット人物の画像を取得する撮像装置と、前記接続インタフェースを介して接続し、前記演算装置は、前記入力音及び前記画像を前記記憶装置に格納し、前記入力音を用いて、前記ターゲット人物の音声の特徴を示す話者特徴量を算出し、前記画像を用いて、前記ターゲット人物の顔を含む顔領域画像を抽出し、複数の前記顔領域画像を用いて、前記ターゲット人物が発話していたと推定される発話期間を特定し、前記話者特徴量及び前記発話期間を用いて、前記入力音から、前記発話期間における前記ターゲット人物の推定音声を抽出し、抽出された前記ターゲット人物の推定音声を前記記憶装置に格納する。 A typical example of the invention disclosed in the present application is as follows. That is, it is a computer that extracts the voice of the target person from the input sound collected by the sound collector, and includes a calculation device, a storage device connected to the calculation device, and a connection interface connected to the calculation device. , The sound collecting device and the image pickup device that acquires the image of the target person are connected via the connection interface, and the arithmetic device stores the input sound and the image in the storage device, and stores the input sound and the input sound. Using, the speaker characteristic amount indicating the voice characteristic of the target person is calculated, the face area image including the face of the target person is extracted using the image, and the plurality of face area images are used. The speech period estimated to have been spoken by the target person is specified, and the estimated voice of the target person in the speech period is extracted from the input sound by using the speaker feature amount and the speech period. The estimated voice of the target person is stored in the storage device.

本発明によれば、話者の口の開閉動作期間中の音から話者の音声を精度よく抽出できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。 According to the present invention, the speaker's voice can be accurately extracted from the sound during the opening / closing operation period of the speaker's mouth. Issues, configurations and effects other than those mentioned above will be clarified by the description of the following examples.

実施例1の音声処理システムの構成の一例を示す図である。It is a figure which shows an example of the structure of the voice processing system of Example 1. FIG. 実施例1のサーバの機能構成の一例を示す図である。It is a figure which shows an example of the functional structure of the server of Example 1. FIG. 実施例1のサーバの機能構成の一例を示す図である。It is a figure which shows an example of the functional structure of the server of Example 1. FIG. 実施例1の音声強調器の詳細な構成の一例を示す図である。It is a figure which shows an example of the detailed structure of the speech enhancer of Example 1. FIG. 実施例1の特徴結合部によって出力された複合特徴量の時系列データのイメージを示す図である。It is a figure which shows the image of the time series data of the complex feature quantity output by the feature coupling part of Example 1. FIG. 実施例1の音声処理システムが実行する学習処理の一例を説明するフローチャートである。It is a flowchart explaining an example of the learning processing executed by the voice processing system of Example 1. FIG. 実施例1の音声処理システムが実行する推定処理の一例を説明するフローチャートである。It is a flowchart explaining an example of the estimation processing performed by the voice processing system of Example 1. FIG.

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。 Hereinafter, examples of the present invention will be described with reference to the drawings. However, the present invention is not limited to the description of the examples shown below. It is easily understood by those skilled in the art that a specific configuration thereof can be changed without departing from the idea or purpose of the present invention.

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。 In the configuration of the invention described below, the same or similar configurations or functions are designated by the same reference numerals, and duplicate description will be omitted.

本明細書等における「第1」、「第2」、「第3」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。 The notations such as "first", "second", and "third" in the present specification and the like are attached to identify the components, and are not necessarily limited in number or order.

図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。 The position, size, shape, range, etc. of each configuration shown in the drawings and the like may not represent the actual position, size, shape, range, etc., in order to facilitate understanding of the invention. Therefore, the present invention is not limited to the position, size, shape, range, etc. disclosed in the drawings and the like.

図1は、実施例1の音声処理システム100の構成の一例を示す図である。 FIG. 1 is a diagram showing an example of the configuration of the voice processing system 100 of the first embodiment.

音声処理システム100は、サーバ101、撮像装置102、及び集音装置103から構成される。 The voice processing system 100 includes a server 101, an image pickup device 102, and a sound collector 103.

サーバ101、撮像装置102、及び集音装置103は、直接又はネットワークを介して互いに接続される。ネットワークは、例えば、WAN(Wide Area Network)及びLAN(Local Area Network)等である。 The server 101, the image pickup device 102, and the sound collector 103 are connected to each other directly or via a network. The network is, for example, WAN (Wide Area Network) and LAN (Local Area Network).

なお、サーバ101が撮像装置102及び集音装置103を内蔵してもよい。なお、図1に示す音声処理システム100の構成は一例であってこれに限定されない。 The server 101 may include the image pickup device 102 and the sound collecting device 103. The configuration of the voice processing system 100 shown in FIG. 1 is an example and is not limited thereto.

音声処理システム100は、話者110が存在する空間から音及び画像を取得し、取得した音から話者110の音声を抽出する。当該空間には話者110の他に、話者110の音声とは異なる音(雑音)が発せられる雑音音源111が存在する。雑音音源111から発せられる音は、例えば、車のエンジン音、環境音、話者110と異なる人物の音声等である。 The voice processing system 100 acquires sounds and images from the space in which the speaker 110 exists, and extracts the voice of the speaker 110 from the acquired sounds. In addition to the speaker 110, there is a noise sound source 111 that emits a sound (noise) different from the voice of the speaker 110 in the space. The sound emitted from the noise sound source 111 is, for example, a car engine sound, an environmental sound, a voice of a person different from the speaker 110, or the like.

撮像装置102は、画像を取得する装置であり、例えば、カメラ及び深度計測器等である。実施例1の撮像装置102は話者110の口元領域を含む顔領域画像112を取得する。顔領域画像112は、例えば、RGB画像又は深度マップ等である。なお、音声処理システム100は、特性が異なる顔領域画像112を取得する複数の撮像装置102を有してもよい。 The image pickup device 102 is a device for acquiring an image, and is, for example, a camera, a depth measuring instrument, or the like. The image pickup apparatus 102 of the first embodiment acquires the face area image 112 including the mouth area of the speaker 110. The face area image 112 is, for example, an RGB image, a depth map, or the like. The voice processing system 100 may have a plurality of image pickup devices 102 that acquire face region images 112 having different characteristics.

集音装置103は、設置された空間の音を集音する装置であり、例えば、モノラルマイク及びマイクアレイ等である。実施例1の集音装置103は、話者110及び雑音音源111から発せられる音(混合音)を集音する。 The sound collecting device 103 is a device that collects sound in the installed space, and is, for example, a monaural microphone, a microphone array, or the like. The sound collecting device 103 of the first embodiment collects sounds (mixed sounds) emitted from the speaker 110 and the noise sound source 111.

サーバ101は、顔領域画像112及び混合音を用いて、集音音声から話者110の音声のみを抽出する。本明細書では、混合音から話者110の音声を抽出する機能を音声強調機能と記載する。 The server 101 uses the face area image 112 and the mixed sound to extract only the voice of the speaker 110 from the sound collection voice. In the present specification, the function of extracting the voice of the speaker 110 from the mixed sound is described as a speech enhancement function.

サーバ101は、プロセッサ120、記憶装置121、及び接続インタフェース122を有する。各ハードウェア構成は内部バス123を介して互いに接続される。 The server 101 has a processor 120, a storage device 121, and a connection interface 122. The hardware configurations are connected to each other via the internal bus 123.

プロセッサ120は、CPU(Central Processing Unit)及びGPU(Graphics Processing Unit)等の演算装置であり、記憶装置121に格納されるプログラムを実行する。プロセッサ120がプログラムにしたがって処理を実行することによって、音声強調機能を実現するモジュールとして動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ120が当該モジュールを実現するプログラムを実行していることを示す。 The processor 120 is an arithmetic unit such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit), and executes a program stored in the storage device 121. The processor 120 operates as a module that realizes a speech enhancement function by executing processing according to a program. In the following description, when the process is described with the module as the subject, it is shown that the processor 120 is executing the program that realizes the module.

記憶装置121は、プロセッサ120が実行するプログラム及びプログラムが使用する情報を格納する。また、記憶装置121はプロセッサ120の作業領域としても用いられる。記憶装置121は、非一時的な記憶装置でもよいし、一時的な記憶装置でもよい。記憶装置121は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、及びフラッシュメモリ等である。 The storage device 121 stores a program executed by the processor 120 and information used by the program. The storage device 121 is also used as a working area for the processor 120. The storage device 121 may be a non-temporary storage device or a temporary storage device. The storage device 121 is, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), an HDD (Hard Disk Drive), a flash memory, or the like.

実施例1の記憶装置121は、推定部130及び学習部131を実現するプログラムを格納する。学習部131は、機械学習及び深層学習を利用して、推定部130に組み込まれる音声強調器202(図2を参照)を学習する。推定部130は音声強調機能を実現する機能部である。推定部130は、学習部131によって学習した音声強調器202を用いて入力された音から対象の人物(話者)の音声を抽出する。 The storage device 121 of the first embodiment stores a program that realizes the estimation unit 130 and the learning unit 131. The learning unit 131 learns the speech enhancer 202 (see FIG. 2) incorporated in the estimation unit 130 by using machine learning and deep learning. The estimation unit 130 is a functional unit that realizes a speech enhancement function. The estimation unit 130 extracts the voice of the target person (speaker) from the sound input by using the speech enhancer 202 learned by the learning unit 131.

接続インタフェース122は、撮像装置102及び集音装置103等の外部装置と接続するためのインタフェースである。接続インタフェース122は、例えば、ネットワークインタフェース及びIOインタフェースである。 The connection interface 122 is an interface for connecting to an external device such as an image pickup device 102 and a sound collecting device 103. The connection interface 122 is, for example, a network interface and an IO interface.

図2A及び図2Bは、実施例1のサーバ101の機能構成の一例を示す図である。 2A and 2B are diagrams showing an example of the functional configuration of the server 101 of the first embodiment.

図2Aは、推定部130の機能構成の詳細を示す。推定部130は、連続画像データ211及び音データ212を入力として受け付け、話者110の推定音声のみを含む音データ213及び話者110の識別情報である推定話者ID214を出力する。ここで、連続画像データ211は、撮像装置102によって一定の間隔で取得された複数の顔領域画像112から構成される時系列データである。音データ212は集音装置103によって集音された音に関するデータである。 FIG. 2A shows the details of the functional configuration of the estimation unit 130. The estimation unit 130 accepts the continuous image data 211 and the sound data 212 as inputs, and outputs the sound data 213 including only the estimated voice of the speaker 110 and the estimated speaker ID 214 which is the identification information of the speaker 110. Here, the continuous image data 211 is time-series data composed of a plurality of face region images 112 acquired by the image pickup apparatus 102 at regular intervals. The sound data 212 is data related to the sound collected by the sound collecting device 103.

連続画像データ211に含まれる顔領域画像112のサンプリングレートと、音データ212のサンプリングレートは異なっているが、時間的に同期しているものとする。 It is assumed that the sampling rate of the face area image 112 included in the continuous image data 211 and the sampling rate of the sound data 212 are different, but are synchronized in time.

なお、連続画像データ211及び音データ212は、別々のデータでなくてもよい。例えば、画像及び音を含む動画データでもよい。 The continuous image data 211 and the sound data 212 do not have to be separate data. For example, moving image data including images and sounds may be used.

推定部130は、画像前処理部200、音前処理部201、及び音声強調器202を含む。 The estimation unit 130 includes an image preprocessing unit 200, a sound preprocessing unit 201, and a speech enhancer 202.

画像前処理部200は、連続画像データ211に含まれる各顔領域画像112から話者110の口元領域又は顔領域を含む画像を抽出する。画像前処理部200は、抽出された画像の時系列データを音声強調器202に出力する。なお、画像前処理部200は、抽出された画像の画素値を正規化してもよい。 The image preprocessing unit 200 extracts an image including the mouth region or the face region of the speaker 110 from each face region image 112 included in the continuous image data 211. The image preprocessing unit 200 outputs the time series data of the extracted image to the speech enhancer 202. The image preprocessing unit 200 may normalize the pixel value of the extracted image.

音前処理部201は、音データ212に対して短時間フーリエ変換等の演算処理を実行することによって、音声スペクトル及びメルケプストラム等の音特徴量を算出する。ここでは、サンプリングレート毎の音特徴量が算出される。音前処理部201は、各サンプリングレートの音特徴量を含む音特徴量データを音声強調器202に出力する。なお、音前処理部201は音特徴量を正規化してもよい。 The sound preprocessing unit 201 calculates sound features such as a voice spectrum and a merkepstrum by executing arithmetic processing such as a short-time Fourier transform on the sound data 212. Here, the sound feature amount for each sampling rate is calculated. The sound preprocessing unit 201 outputs sound feature amount data including the sound feature amount of each sampling rate to the speech enhancer 202. The sound preprocessing unit 201 may normalize the sound feature amount.

音声強調器202は、画像前処理部200から出力された画像の時系列データ及び音前処理部201から出力された音特徴量データを用いて、音データ213及び推定話者ID214を出力する。なお、音声強調器202は、最終的な出力として音データ213のみを出力してもよい。音声強調器202は、学習可能な複数のパラメタから定義されるモデルであり、記憶装置121には当該パラメタを格納するモデル情報(図示省略)が保存される。 The speech enhancer 202 outputs the sound data 213 and the estimated speaker ID 214 by using the time series data of the image output from the image preprocessing unit 200 and the sound feature amount data output from the sound preprocessing unit 201. The speech enhancer 202 may output only the sound data 213 as the final output. The speech enhancer 202 is a model defined from a plurality of learnable parameters, and model information (not shown) for storing the parameters is stored in the storage device 121.

図2Bは、学習部131の機能構成の詳細を示す。学習部131は、学習データに含まれるサンプル220を入力として受け付け、音声強調器202を定義するパラメタの学習を行う。 FIG. 2B shows the details of the functional configuration of the learning unit 131. The learning unit 131 receives the sample 220 included in the learning data as an input, and learns the parameters that define the speech enhancer 202.

サンプル220は、連続画像データ221、音データ223、及び話者ID224を含む。 The sample 220 includes continuous image data 221, sound data 223, and speaker ID 224.

連続画像データ221は、一定の間隔の画像222から構成される時系列データである。画像222は、話者の顔領域又は口元領域を含む画像である。なお、画像222は、あらかじめ話者から取得した画像でもよいし、音声処理システム100の運用中に撮像装置102によって取得された画像でもよい。 The continuous image data 221 is time-series data composed of images 222 at regular intervals. Image 222 is an image including a speaker's face area or mouth area. The image 222 may be an image acquired from the speaker in advance, or may be an image acquired by the image pickup apparatus 102 during the operation of the voice processing system 100.

音データ223は、話者の音声を含むデータである。音データ223は、話者の音声のみが含まれてもよいし、話者の音声及び他の音が含まれてもよい。なお、音データ223は、雑音が少ない環境で集音された話者の音声のデータでもよいし、モノラルマイクを用いて集音された単一チャネル音声のデータでもよい。 The sound data 223 is data including the voice of the speaker. The sound data 223 may include only the voice of the speaker, or may include the voice of the speaker and other sounds. The sound data 223 may be speaker voice data collected in an environment with little noise, or single channel voice data collected using a monaural microphone.

連続画像データ221に含まれる画像222のサンプリングレートと、音データ223のサンプリングレートは異なっているが、時間的に同期しているものとする。 It is assumed that the sampling rate of the image 222 included in the continuous image data 221 and the sampling rate of the sound data 223 are different, but are synchronized in time.

なお、連続画像データ221及び音データ223は、別々のデータでなくてもよい。例えば、画像及び音を含む動画データでもよい。 The continuous image data 221 and the sound data 223 do not have to be separate data. For example, moving image data including images and sounds may be used.

話者ID224は話者の識別情報である。実施例1では、話者ID224として数字が割り当てられるものとする。この場合、話者毎に異なる数字が割り当てられる。 The speaker ID 224 is speaker identification information. In the first embodiment, it is assumed that a number is assigned as the speaker ID 224. In this case, different numbers are assigned to each speaker.

学習データには、前述したようなデータ構造のサンプル220が複数含まれる。例えば、1000単位又は10000単位の数のサンプル220が学習データに含まれる。 The training data includes a plurality of samples 220 of the data structure as described above. For example, a sample 220 having a number of 1000 units or 10000 units is included in the training data.

学習部131は、画像前処理部200、音前処理部201、音声強調器202、混合音声生成部203、音声誤差算出部204、音声誤差反映部205、話者誤差算出部206、及び話者誤差反映部207を含む。 The learning unit 131 includes an image preprocessing unit 200, a sound preprocessing unit 201, a speech enhancer 202, a mixed speech generation unit 203, a voice error calculation unit 204, a voice error reflection unit 205, a speaker error calculation unit 206, and a speaker. The error reflection unit 207 is included.

画像前処理部200、音前処理部201、及び音声強調器202は、推定部130に含まれるモジュールと同一である。 The image preprocessing unit 200, the sound preprocessing unit 201, and the speech enhancement unit 202 are the same as the modules included in the estimation unit 130.

混合音声生成部203は、話者の音声に関する音データ223及び干渉音声に関する音データ225を用いて、混合音声に関する音データ227を生成する。例えば、混合音声生成部203は、話者の音声及び干渉音声を加算又は重み付け加算することによって混合音声を生成する。 The mixed voice generation unit 203 generates sound data 227 related to the mixed voice by using the sound data 223 related to the speaker's voice and the sound data 225 related to the interfering voice. For example, the mixed voice generation unit 203 generates mixed voice by adding or weighting the speaker's voice and the interfering voice.

混合音声生成部203は、入力するサンプル220の話者ID224と異なる話者ID224を含むサンプル220の中から一つのサンプル220をランダムに選択し、選択されたサンプル220に含まれる音データ223を干渉音声の音データ225として用いる。なお、選択するサンプル220の数は二つ以上でもよい。この場合、混合音声には、複数人の音声が含まれる。なお、学習データとは異なるデータとして、干渉音に関する音データを入力してもよい。例えば、環境音を含む音データ等が考えられる。 The mixed voice generation unit 203 randomly selects one sample 220 from the samples 220 including the speaker ID 224 different from the speaker ID 224 of the input sample 220, and interferes with the sound data 223 included in the selected sample 220. It is used as voice sound data 225. The number of samples 220 to be selected may be two or more. In this case, the mixed voice includes the voices of a plurality of people. Note that sound data related to the interference sound may be input as data different from the learning data. For example, sound data including environmental sounds can be considered.

音声強調では、話者110の音声と、様々な雑音とが含まれる音が集音され、当該音から話者110の音声を抽出する必要がある。そこで、話者110の音声の抽出精度を向上させるために、混合音声を生成し、当該混合音声を用いて音声強調器202を学習する。なお、音声強調器202の学習時に混合音声を生成する手法は公知の手法である。 In speech enhancement, a sound including the voice of the speaker 110 and various noises is collected, and it is necessary to extract the voice of the speaker 110 from the sound. Therefore, in order to improve the voice extraction accuracy of the speaker 110, a mixed voice is generated, and the speech enhancer 202 is learned using the mixed voice. A method for generating mixed speech during learning of the speech enhancer 202 is a known method.

音声誤差算出部204は、音データ223及び音データ213の誤差を算出する。音データ213に音声波形が含まれる場合、音声誤差算出部204は、2乗誤差又はノルム誤差等、公知の誤差尺度に基づいて二つの音声波形の誤差を算出する。また、音データ213に音声スペクトルが含まれる場合、音声誤差算出部204は、音データ223に含まれる音声を音声スペクトルに変換し、2乗誤差等の公知の誤差尺度に基づいて二つの音声スペクトルの誤差を算出する。 The voice error calculation unit 204 calculates the error of the sound data 223 and the sound data 213. When the sound data 213 includes a voice waveform, the voice error calculation unit 204 calculates an error between the two voice waveforms based on a known error scale such as a square error or a norm error. When the sound data 213 includes a voice spectrum, the voice error calculation unit 204 converts the voice included in the sound data 223 into a voice spectrum and two voice spectra based on a known error scale such as a square error. Calculate the error of.

音声誤差反映部205は、誤差逆伝播法等の公知の手法を用いて、音声誤差算出部204によって算出された誤差が小さくなるように音声強調器202のパラメタを更新する。 The voice error reflection unit 205 updates the parameters of the speech enhancer 202 so that the error calculated by the voice error calculation unit 204 becomes smaller by using a known method such as an error back propagation method.

話者誤差算出部206は、交差エントロピー誤差等、公知の誤差尺度に基づいて、話者ID224及び推定話者ID214の間の誤差を算出する。 The speaker error calculation unit 206 calculates an error between the speaker ID 224 and the estimated speaker ID 214 based on a known error scale such as a cross entropy error.

話者誤差反映部207は、誤差逆伝播法等の公知の手法を用いて、話者誤差算出部206によって算出された誤差が小さくなるように音声強調器202のパラメタを更新する。 The speaker error reflection unit 207 updates the parameters of the speech enhancer 202 so that the error calculated by the speaker error calculation unit 206 becomes small by using a known method such as an error back propagation method.

図3は、実施例1の音声強調器202の詳細な構成の一例を示す図である。 FIG. 3 is a diagram showing an example of a detailed configuration of the speech enhancer 202 of the first embodiment.

音声強調器202は、画像特徴抽出部300、音特徴抽出部301、特徴結合部302、同期推定部303、話者音声推定部304、音特徴変換部305、及び話者識別部306を含む。 The speech enhancer 202 includes an image feature extraction unit 300, a sound feature extraction unit 301, a feature coupling unit 302, a synchronization estimation unit 303, a speaker voice estimation unit 304, a sound feature conversion unit 305, and a speaker identification unit 306.

画像特徴抽出部300は、画像前処理部200によって処理された画像の時系列データに含まれる各画像から画像特徴量(特徴量及び特徴表現等)を抽出する。画像特徴抽出部300は、時間的に連続する画像特徴量を特徴結合部302に出力する。画像特徴抽出部300は、例えば、CNN(Convolutional Neural Network)等を用いて構成される。画像特徴抽出部300を構成するCNNは学習対象のパラメタを含む。 The image feature extraction unit 300 extracts an image feature amount (feature amount, feature expression, etc.) from each image included in the time-series data of the image processed by the image preprocessing unit 200. The image feature extraction unit 300 outputs a temporally continuous image feature amount to the feature coupling unit 302. The image feature extraction unit 300 is configured by using, for example, a CNN (Convolutional Neural Network) or the like. The CNN constituting the image feature extraction unit 300 includes parameters to be learned.

音特徴抽出部301は、音前処理部201によって処理された音特徴量データから音特徴量(特徴量及び特徴表現等)を抽出する。音特徴抽出部301は、時間的に連続する音特徴量を含むデータ(音特徴量の時系列データ)を特徴結合部302に出力する。音特徴抽出部301は、CNN又はRNN(Recurrent Neural Network)等を用いて構成される。音特徴抽出部301を構成するCNN又はRNNは学習対象のパラメタを含む。 The sound feature extraction unit 301 extracts a sound feature amount (feature amount, feature expression, etc.) from the sound feature amount data processed by the sound preprocessing unit 201. The sound feature extraction unit 301 outputs data including temporally continuous sound feature amounts (time-series data of sound feature amounts) to the feature coupling unit 302. The sound feature extraction unit 301 is configured by using CNN, RNN (Recurrent Neural Network) or the like. The CNN or RNN constituting the sound feature extraction unit 301 includes parameters to be learned.

特徴結合部302は、画像特徴量及び音特徴量を、時間的に同期した形式で結合することによって、複合特徴量を生成する。具体的には、特徴結合部302は、所定の時間間隔(タイムステップ)で画像特徴量及び音特徴量を結合することによって複合特徴量を生成する。特徴結合部302は、時間的に連続した複合特徴量を含む複合特徴量データを同期推定部303及び音特徴変換部305に出力する。 The feature combination unit 302 generates a composite feature amount by combining the image feature amount and the sound feature amount in a time-synchronized format. Specifically, the feature combining unit 302 generates a composite feature amount by combining an image feature amount and a sound feature amount at predetermined time intervals (time steps). The feature coupling unit 302 outputs the composite feature data including the temporally continuous composite feature data to the synchronization estimation unit 303 and the sound feature conversion unit 305.

一般的に、画像のサンプリングレートは、音声のサンプリングレートより疎であるため、時間的に同期した形式で画像特徴量及び音特徴量を結合するためには工夫が必要である。本実施例では、音特徴抽出部301を構成するCNNの時間方向の畳み込み領域を広くすることによって、時間的な同期を実現している。 In general, the sampling rate of an image is sparser than the sampling rate of audio, so it is necessary to devise in order to combine the image feature amount and the sound feature amount in a time-synchronized format. In this embodiment, temporal synchronization is realized by widening the convolution area in the time direction of the CNN constituting the sound feature extraction unit 301.

音特徴変換部305は、音特徴抽出部301が抽出した音特徴量の時系列データに基づいて、音前処理部201に入力された音における話者の音声の含有度合いを示す指標を算出し、当該指標に基づいて発話状況を識別する。さらに、音特徴変換部305は、入力された音特徴量の時系列データを、発話状況を反映した音特徴量の時系列データに変換する。音特徴変換部305は、タイムステップ間類似度算出部310、発話状況識別部311、重み算出部312、及び重み反映部313を含む。 The sound feature conversion unit 305 calculates an index indicating the content of the speaker's voice in the sound input to the sound preprocessing unit 201 based on the time-series data of the sound feature amount extracted by the sound feature extraction unit 301. , Identify the speech status based on the index. Further, the sound feature conversion unit 305 converts the input time-series data of the sound feature amount into the time-series data of the sound feature amount reflecting the utterance situation. The sound feature conversion unit 305 includes a time step similarity calculation unit 310, an utterance status identification unit 311, a weight calculation unit 312, and a weight reflection unit 313.

タイムステップ間類似度算出部310は、タイムステップ間の複合特徴量の類似度を算出する。タイムステップ間の複合特徴量の類似度が発話状況を識別するための指標として用いられる。タイムステップ間類似度算出部310は、例えば、線形層等を用いて構成される。タイムステップ間類似度算出部310を構成する線形層は学習対象のパラメタを含む。複合特徴量がベクトルである場合、タイムステップ間類似度算出部310はベクトルの内積を類似度として算出する。 The time-step similarity calculation unit 310 calculates the similarity of the complex features between the time steps. The similarity of the complex features between the time steps is used as an index for identifying the utterance situation. The time step similarity calculation unit 310 is configured by using, for example, a linear layer or the like. The linear layer constituting the time-step similarity calculation unit 310 includes parameters to be learned. When the composite feature quantity is a vector, the time step similarity calculation unit 310 calculates the inner product of the vectors as the similarity.

発話状況識別部311は、タイムステップ間類似度算出部310によって算出されたタイムステップ間の類似度に基づいて、各タイムステップの話者の発話状況を識別する。実施例1では、発話状況識別部311は、各タイムステップについて、話者の音声のみが含まれるケース(第1ケース)、話者の音声及び雑音が含まれるケース(第2ケース)、並びに、雑音のみが含まれるケース(第3ケース)のいずれのケースに該当するかを識別する。なお、第2ケースに該当する場合、発話状況識別部311は、話者の音声と雑音との混合比率を合わせて識別してもよい。発話状況識別部311は、例えば、線形層等を用いて構成される。発話状況識別部311を構成する線形層は学習対象のパラメタを含む。 The utterance status identification unit 311 identifies the utterance status of the speaker at each time step based on the similarity between the time steps calculated by the time step similarity calculation unit 310. In the first embodiment, the utterance status identification unit 311 includes a case where only the speaker's voice is included (first case), a case where the speaker's voice and noise are included (second case), and a case where each time step includes the speaker's voice and noise. Identify which case corresponds to the case containing only noise (third case). When the second case is applicable, the utterance status identification unit 311 may identify the mixture ratio of the speaker's voice and noise together. The utterance situation identification unit 311 is configured by using, for example, a linear layer or the like. The linear layer constituting the utterance status identification unit 311 includes parameters to be learned.

重み算出部312は、発話状況識別部311の識別結果に基づいて、各タイムステップの音特徴量の重みを算出する。重み算出部312は、例えば、線形層等を用いて構成される。重み算出部312を構成する線形層は学習対象のパラメタを含む。実施例1では、重み算出部312は、第1ケースに該当するタイムステップについては大きい重みを算出し、第2ケースに該当するタイムステップについては中程度の大きさの重みを算出し、第3ケースに該当するタイムステップについては小さい重みを算出する。 The weight calculation unit 312 calculates the weight of the sound feature amount of each time step based on the identification result of the utterance status identification unit 311. The weight calculation unit 312 is configured by using, for example, a linear layer or the like. The linear layer constituting the weight calculation unit 312 includes parameters to be learned. In the first embodiment, the weight calculation unit 312 calculates a large weight for the time step corresponding to the first case, calculates a medium-sized weight for the time step corresponding to the second case, and obtains a third weight. Calculate a small weight for the time step that corresponds to the case.

重み反映部313は、重み算出部312によって算出された重みと、音特徴抽出部301から出力された音特徴量の時系列データとを用いて、重み付き音特徴量の時系列データを生成する。例えば、重み反映部313は、音特徴量の時間方向に対して各タイムステップの重みを乗算することによって重み付き音特徴量の時系列データを算出する。重み反映部313は、重み付き音特徴量の時系列データを話者識別部306に出力する。なお、重み付けの対象は複合特徴量でもよい。 The weight reflection unit 313 generates time-series data of the weighted sound feature amount by using the weight calculated by the weight calculation unit 312 and the time-series data of the sound feature amount output from the sound feature extraction unit 301. .. For example, the weight reflection unit 313 calculates the time-series data of the weighted sound feature amount by multiplying the time direction of the sound feature amount by the weight of each time step. The weight reflection unit 313 outputs the time-series data of the weighted sound feature amount to the speaker identification unit 306. The weighting target may be a composite feature amount.

話者識別部306は、重み付き音特徴量の時系列データに基づいて話者を識別し、識別結果として推定話者ID214を出力する。話者識別部306は、話者特徴抽出部320及び話者推定部321を含む。 The speaker identification unit 306 identifies the speaker based on the time-series data of the weighted sound feature amount, and outputs the estimated speaker ID 214 as the identification result. The speaker identification unit 306 includes a speaker feature extraction unit 320 and a speaker estimation unit 321.

話者特徴抽出部320は、重み付き音特徴量の時系列データから話者特徴量330を抽出し、話者特徴量330を話者推定部321及び話者音声推定部304に出力する。話者特徴抽出部320は、例えば、CNN及びRNN等を用いて構成される。話者特徴抽出部320を構成するCNN及びRNNは学習対象のパラメタを含む。 The speaker feature extraction unit 320 extracts the speaker feature amount 330 from the time-series data of the weighted sound feature amount, and outputs the speaker feature amount 330 to the speaker estimation unit 321 and the speaker voice estimation unit 304. The speaker feature extraction unit 320 is configured by using, for example, CNN, RNN, or the like. The CNN and RNN constituting the speaker feature extraction unit 320 include parameters to be learned.

重み付き音特徴量の時系列データは、音に含まれる話者の音声の比率が高いタイムステップの音特徴量が強調された特徴量の時系列データである。したがって、重み付き音特徴量の時系列データを用いて抽出された話者特徴量330は、音特徴量の時系列データを用いて抽出された話者特徴量より、話者の音声成分をよく反映した特徴量であることが期待される。 The time-series data of the weighted sound feature amount is the time-series data of the feature amount in which the sound feature amount of the time step in which the ratio of the speaker's voice included in the sound is high is emphasized. Therefore, the speaker feature amount 330 extracted using the time-series data of the weighted sound feature amount has a better voice component of the speaker than the speaker feature amount extracted using the time-series data of the sound feature amount. It is expected that the features will be reflected.

話者推定部321は、話者特徴量330を用いて話者を推定し、推定結果として推定話者ID214を出力する。話者推定部321は、例えば、線形層等から構成される。話者推定部321を構成する線形層は学習対象のパラメタを含む。 The speaker estimation unit 321 estimates the speaker using the speaker feature amount 330, and outputs the estimated speaker ID 214 as the estimation result. The speaker estimation unit 321 is composed of, for example, a linear layer or the like. The linear layer constituting the speaker estimation unit 321 includes parameters to be learned.

同期推定部303は、複合特徴量の時系列データに含まれる画像特徴量の時系列データに基づいて、話者の発話に伴う口の開閉動作が行われている期間(推定期間)を推定し、また、推定期間における口の開閉動作に関する特徴量を算出する。同期推定部303は、音特徴量の時系列データから、推定期間に一致又は同期する期間の音特徴量を抽出する。同期推定部303は、抽出された音特徴量を話者音声推定部304に出力する。同期推定部303は、例えば、RNN等を用いて構成される。同期推定部303を構成するRNNは学習対象のパラメタを含む。 The synchronous estimation unit 303 estimates the period (estimated period) in which the mouth opening / closing operation accompanying the speaker's speech is performed based on the time-series data of the image feature amount included in the time-series data of the composite feature amount. In addition, the feature amount related to the opening / closing operation of the mouth during the estimated period is calculated. The synchronization estimation unit 303 extracts the sound feature amount of the period that matches or synchronizes with the estimation period from the time series data of the sound feature amount. The synchronous estimation unit 303 outputs the extracted sound feature amount to the speaker voice estimation unit 304. The synchronization estimation unit 303 is configured by using, for example, an RNN or the like. The RNN constituting the synchronization estimation unit 303 includes parameters to be learned.

話者音声推定部304は、同期推定部303から入力された推定期間の音特徴量及び話者識別部306から入力された話者特徴量330を用いて、話者の推定音声を抽出し、抽出結果として音データ213を出力する。話者音声推定部304は、例えば、RNN及び線形層等を用いて構成される。話者音声推定部304を構成するRNN及び線形層は学習対象のパラメタを含む。 The speaker voice estimation unit 304 extracts the estimated voice of the speaker by using the sound feature amount of the estimation period input from the synchronous estimation unit 303 and the speaker feature amount 330 input from the speaker identification unit 306. Sound data 213 is output as the extraction result. The speaker voice estimation unit 304 is configured by using, for example, an RNN and a linear layer. The RNN and the linear layer constituting the speaker voice estimation unit 304 include parameters to be learned.

従来の音声強調器は、画像特徴抽出部、音特徴抽出部、特徴結合部、同期推定部、及び話者音声推定部のみを含み、口の開閉動作に同期する期間の音声を話者の推定音声として出力する。 A conventional speech enhancer includes only an image feature extraction unit, a sound feature extraction unit, a feature combination unit, a synchronization estimation unit, and a speaker voice estimation unit, and estimates the voice of a speaker during a period synchronized with the opening / closing operation of the mouth. Output as audio.

一方、本実施例の音声強調器202は、画像特徴抽出部300、音特徴抽出部301、特徴結合部302、同期推定部303、及び話者音声推定部304に加えて、音特徴変換部305及び話者識別部306を含む。音特徴変換部305は、話者の音声の純度が高い期間(タイムステップ)の音特徴量を強調するように重みを付与する。これは、音特徴量の抽出区間の選択手段として機能する。話者識別部306は、重み付き音特徴量の時系列データを用いることによって、精度の高い話者特徴量330を抽出することができる。話者音声推定部304は、話者特徴量330に基づいて話者の音声の音質(高さ、話す速度、及び音色等)も識別できるため、推定期間の音から干渉音を除いた話者の音声を抽出できる。このように、話者音声推定部304は、話者特徴量330をフィルタとして用いることによって、口の開閉動作に同期する期間の音から話者の音声をより正確に抽出することができる。 On the other hand, in the speech enhancer 202 of this embodiment, in addition to the image feature extraction unit 300, the sound feature extraction unit 301, the feature coupling unit 302, the synchronization estimation unit 303, and the speaker voice estimation unit 304, the sound feature conversion unit 305 And the speaker identification unit 306. The sound feature conversion unit 305 gives weights so as to emphasize the amount of sound features during the period (time step) in which the speaker's voice is highly pure. This functions as a means for selecting the extraction section of the sound feature amount. The speaker identification unit 306 can extract the speaker feature amount 330 with high accuracy by using the time-series data of the weighted sound feature amount. Since the speaker voice estimation unit 304 can also identify the sound quality (height, speaking speed, tone color, etc.) of the speaker's voice based on the speaker feature amount 330, the speaker excluding the interference sound from the sound during the estimation period. Sound can be extracted. As described above, the speaker voice estimation unit 304 can more accurately extract the speaker voice from the sound during the period synchronized with the opening / closing operation of the mouth by using the speaker feature amount 330 as a filter.

したがって、実施例1の音声処理システム100の推定精度は、従来のシステムの推定精度より向上することが期待できる。 Therefore, the estimation accuracy of the voice processing system 100 of the first embodiment can be expected to be higher than the estimation accuracy of the conventional system.

なお、音声強調器202が有する各モジュールについては、複数のモジュールを一つのモジュールにまとめてもよいし、一つのモジュールを機能毎に複数のモジュールに分けてもよい。 For each module included in the speech enhancer 202, a plurality of modules may be combined into one module, or one module may be divided into a plurality of modules for each function.

次に、図4を用いて、音特徴変換部305の処理の詳細について説明する。図4は、実施例1の特徴結合部302によって出力された複合特徴量の時系列データのイメージを示す図である。 Next, the details of the processing of the sound feature conversion unit 305 will be described with reference to FIG. FIG. 4 is a diagram showing an image of time-series data of the complex feature amount output by the feature coupling portion 302 of the first embodiment.

図4に示す複合特徴量の時系列データ400の一行目はタイムステップを表し、二行目はタイムステップの音特徴量を表し、三行目はタイムステップの画像特徴量を表す。 The first line of the time-series data 400 of the composite feature amount shown in FIG. 4 represents the time step, the second line represents the sound feature amount of the time step, and the third line represents the image feature amount of the time step.

図4では、タイムステップは、複合特徴量の時系列データ400における順番を表す「1」から「8」までの数値として設定している。 In FIG. 4, the time step is set as a numerical value from “1” to “8” indicating the order of the complex feature amount in the time series data 400.

各タイムステップの音特徴量は、実際にはベクトル表現として与えられるが、説明のためにベクトル表現が表す、定性的な性質を示している。タイムステップ「1」から「3」の音特徴量は話者の音声のみが含まれる特徴量であることを示す。タイムステップ「4」から「6」の音特徴量は話者の音声及び干渉音が含まれる特徴量であることを示す。また、タイムステップ「7」、「8」の音特徴量は干渉音のみが含まれる特徴量であることを示す。なお、話者の音声及び干渉音の比率を表す特徴量であってもよい。 The sound features of each time step are actually given as a vector representation, but for the sake of explanation, they show the qualitative properties of the vector representation. The sound features of the time steps "1" to "3" indicate that the features include only the voice of the speaker. The sound features of the time steps "4" to "6" indicate that the features include the speaker's voice and the interference sound. Further, it is shown that the sound feature amounts of the time steps "7" and "8" are feature amounts including only the interference sound. It may be a feature amount representing the ratio of the speaker's voice and the interference sound.

各タイムステップの画像特徴量は、実際にはベクトル表現として与えられるが、説明の簡単のためにベクトル表現が表す、定性的な性質を示している。タイムステップ「1」から「6」の画像特徴量は、発話に伴って話者の口を開閉していることを表す特徴量であることを示す。タイムステップ「7」、「8」の画像特徴量は、発話していないため話者が閉口していることを表す特徴量であることを示す。 The image features of each time step are actually given as a vector representation, but for the sake of simplicity, they show the qualitative properties that the vector representation represents. The image feature amounts of the time steps "1" to "6" indicate that the feature amount indicates that the speaker's mouth is opened and closed with the utterance. The image feature quantities of the time steps "7" and "8" indicate that the speaker is closed because he / she is not speaking.

図4に示すような音特徴量及び画像特徴量を含む複合特徴量の時系列データ400について以下のようなケースに分けることができる。 The time-series data 400 of the composite feature amount including the sound feature amount and the image feature amount as shown in FIG. 4 can be divided into the following cases.

タイムステップ「1」、「2」、「3」では、話者の音声のみが存在し、かつ、話者の口の開閉動作が行われている。したがって、タイムステップ「1」、「2」、「3」は、第1ケースに分類される。タイムステップ「4」、「5」、「6」では、話者の音声及び干渉音が存在し、かつ、話者の口の開閉動作が行われている。したがって、タイムステップ「4」、「5」、「6」は、第2ケースに分類される。タイムステップ「7」、「8」では、干渉音のみが存在し、かつ、話者の口は閉じられている。したがって、タイムステップ「7」、「8」は、第3ケースに分類される。 In the time steps "1", "2", and "3", only the voice of the speaker is present, and the speaker's mouth is opened and closed. Therefore, the time steps "1", "2", and "3" are classified into the first case. In the time steps "4", "5", and "6", the speaker's voice and the interference sound are present, and the speaker's mouth is opened and closed. Therefore, the time steps "4", "5", and "6" are classified into the second case. In the time steps "7" and "8", only the interference sound is present and the speaker's mouth is closed. Therefore, the time steps "7" and "8" are classified into the third case.

音特徴変換部305は、複合特徴量の時系列データを用いて、各タイムステップを第1ケース、第2ケース、及び第3ケースのいずれかに分類する。具体的には、音特徴変換部305は、タイムステップ間の複合特徴量(音特徴量及び画像特徴量)の類似度に基づいて、タイムステップ間におけるケースの遷移の分類を行う。 The sound feature conversion unit 305 classifies each time step into one of the first case, the second case, and the third case by using the time series data of the complex feature amount. Specifically, the sound feature conversion unit 305 classifies case transitions between time steps based on the degree of similarity of complex features (sound features and image features) between time steps.

タイムステップ間類似度算出部310が算出するタイムステップ間の音特徴量及び画像特徴量の類似度は以下のようなものとする。 The similarity between the sound features and the image features calculated by the time step similarity calculation unit 310 is as follows.

第1ケース及び第3ケース間の遷移の場合、各タイムステップの音は異なるため、音特徴量の類似度は低い。第1ケース及び第2ケース間の遷移の場合、いずれのケースも話者の音声を含むが、第2ケースでは干渉音も含まれため、音特徴量の類似度は中程度となる。第2ケース及び第3ケースの遷移の場合、いずれのケースも干渉音を含むが、第2ケースでは話者の音声も含まれるため、音特徴量の類似度は中程度となる。同一のケースの遷移の場合、音特徴量の類似度は高いものとしている。 In the case of the transition between the first case and the third case, the sound of each time step is different, so that the similarity of the sound features is low. In the case of the transition between the first case and the second case, the voice of the speaker is included in both cases, but the interference sound is also included in the second case, so that the similarity of the sound features is medium. In the case of the transitions of the second case and the third case, the interference sound is included in both cases, but since the speaker's voice is also included in the second case, the similarity of the sound features is medium. In the case of transitions in the same case, the similarity of sound features is assumed to be high.

第1ケース及び第2ケースの遷移の場合、いずれも口の開閉動作が行われているため、画像特徴量の類似度は高い。第1ケース及び第3ケースの遷移、並びに、第2ケース及び第3ケースの遷移の場合、第1ケース及び第2ケースでは口の開閉動作が行われ、第3ケースでは口は閉じているため、画像特徴量の類似度は低い。同一のケースの遷移の場合、画像特徴量の類似度は高いものとしている。 In the case of the transition of the first case and the second case, since the mouth is opened and closed, the similarity of the image feature quantities is high. In the case of the transition of the first case and the third case, and the transition of the second case and the third case, the mouth is opened and closed in the first case and the second case, and the mouth is closed in the third case. , The similarity of image features is low. In the case of transitions in the same case, the similarity of image features is high.

以上をまとめると以下のような特性になる。第1ケース及び第3ケース間の遷移の場合、音特徴量の類似度及び画像特徴量の類似度はともに低い。第1ケース及び第2ケース間の遷移の場合、音特徴量の類似度は中程度であり、画像特徴量の類似度は高い。第2ケース及び第3ケース間の遷移の場合、音特徴量の類似度は中程度であり、画像特徴量の類似度は低い。 Summarizing the above, the characteristics are as follows. In the case of the transition between the first case and the third case, the similarity of the sound features and the similarity of the image features are both low. In the case of the transition between the first case and the second case, the similarity of the sound features is medium, and the similarity of the image features is high. In the case of the transition between the second case and the third case, the similarity of the sound features is medium, and the similarity of the image features is low.

発話状況識別部311は、前述のようなケース間の遷移における類似度の性質に基づいて、各タイムステップのケースの分類を行う。 The utterance status identification unit 311 classifies the cases of each time step based on the nature of the similarity in the transition between the cases as described above.

なお、以下のような分類方法を採用してもよい。発話状況識別部311は、画像特徴量に基づいて、口が閉じているタイムステップを特定し、当該タイムステップを第3ケースに分類する。次に、発話状況識別部311は、第3ケースに分類されたタイムステップの音特徴量を基準音特徴量に設定する。なお、第3ケースに分類されるタイムステップが複数存在する場合、各タイムステップの音特徴量の平均値等の統計値を基準音特徴量に設定することが考えられる。次に、発話状況識別部311は、未分類のタイムステップの音特徴量と、基準音特徴量との間の類似度を算出する。次に、発話状況識別部311は、類似度及び閾値の比較結果に基づいて、未分類のタイムステップを分類する。例えば、発話状況識別部311は、類似度が閾値より小さいタイムステップを第1ケースに分類し、類似度が閾値以上のタイムステップを第2ケースに分類する。 The following classification method may be adopted. The utterance status identification unit 311 identifies a time step in which the mouth is closed based on the image feature amount, and classifies the time step into the third case. Next, the utterance status identification unit 311 sets the sound feature amount of the time step classified in the third case as the reference sound feature amount. When there are a plurality of time steps classified into the third case, it is conceivable to set a statistical value such as an average value of the sound features of each time step as the reference sound feature. Next, the utterance status identification unit 311 calculates the degree of similarity between the sound feature amount of the unclassified time step and the reference sound feature amount. Next, the utterance status identification unit 311 classifies the unclassified time step based on the comparison result of the similarity and the threshold value. For example, the utterance status identification unit 311 classifies a time step having a similarity smaller than the threshold value into the first case, and a time step having a similarity equal to or higher than the threshold value into the second case.

なお、発話状況識別部311は、学習可能な線形層を用いて構成してもよい。この場合、発話状況識別部311は、複合特徴量を、ケースの識別が容易な特徴量に変換し、当該特徴量に基づいて各タイムステップのケースの分類を行う。例えば、発話状況識別部311は、変換後の特徴量の特徴量空間における配置及びノルム距離を用いて、各タイムステップのケースの分類を行う。同一ケースのノルム距離は小さくなり、異なるケースのノルム距離は大きくなる。また、同一ケースの特徴量は、特徴量空間の特定の領域に密集する。 The utterance status identification unit 311 may be configured by using a learnable linear layer. In this case, the utterance status identification unit 311 converts the composite feature amount into a feature amount for which the case can be easily identified, and classifies the cases of each time step based on the feature amount. For example, the utterance status identification unit 311 classifies the cases of each time step by using the arrangement of the converted features in the feature space and the norm distance. The norm distance of the same case is small, and the norm distance of different cases is large. In addition, the features of the same case are concentrated in a specific area of the feature space.

重み算出部312は、第1ケースに分類されたタイムステップの音特徴量又は複合特徴量に対して大きい重みを算出し、第2ケースに分類されたタイムステップの音特徴量又は複合特徴量に対して中程度の重みを算出し、第3ケースに分類されたタイムステップの音特徴量又は複合特徴量に対して小さい重みを算出する。 The weight calculation unit 312 calculates a large weight for the sound feature amount or the composite feature amount of the time step classified in the first case, and calculates the sound feature amount or the composite feature amount of the time step classified in the second case. On the other hand, a medium weight is calculated, and a small weight is calculated for the sound feature amount or the compound feature amount of the time step classified in the third case.

なお、図4に示した発話状況のケースの分類は一例であってこれに限定されない。 The classification of the utterance situation cases shown in FIG. 4 is an example and is not limited to this.

音特徴変換部305は、話者の音声が含まれるタイムステップの特徴量が強調され、かつ、話者の音声が含まれないタイムステップの特徴量が抑制されるように音特徴量の時系列データを変換する。これによって、話者識別部306は、話者の音声をよく反映した話者特徴量330を抽出することができる。 The sound feature conversion unit 305 emphasizes the feature amount of the time step including the speaker's voice, and suppresses the feature amount of the time step not including the speaker's voice in a time series of the sound feature amount. Convert the data. As a result, the speaker identification unit 306 can extract the speaker feature amount 330 that well reflects the voice of the speaker.

次に、音声処理システム100が実行する学習処理及び推定処理について説明する。 Next, the learning process and the estimation process executed by the speech processing system 100 will be described.

図5は、実施例1の音声処理システム100が実行する学習処理の一例を説明するフローチャートである。 FIG. 5 is a flowchart illustrating an example of learning processing executed by the voice processing system 100 of the first embodiment.

学習部131は、実行指示を受信した場合、又は、学習データが入力された場合、以下で説明する学習処理を開始する。 When the learning unit 131 receives the execution instruction or the learning data is input, the learning unit 131 starts the learning process described below.

学習部131は、学習データの入力を受け付ける(ステップS501)。例えば、学習部131は、接続インタフェース122を介して接続されるユーザ端末から学習データの入力を受け付ける。学習部131は、受け付けた学習データを記憶装置121に保存する。 The learning unit 131 accepts the input of learning data (step S501). For example, the learning unit 131 accepts input of learning data from a user terminal connected via the connection interface 122. The learning unit 131 stores the received learning data in the storage device 121.

次に、学習部131は、学習データから一つのサンプル220を読み出す(ステップS502)。このとき、学習部131は、他のサンプル220に含まれる音データ223を干渉音声の音データ225として読み出す。なお、サンプル220はランダムに選択されてもよいし、あらかじめ設定されたポリシに基づいて選択されてもよい。 Next, the learning unit 131 reads one sample 220 from the learning data (step S502). At this time, the learning unit 131 reads out the sound data 223 included in the other sample 220 as the sound data 225 of the interference voice. The sample 220 may be randomly selected or may be selected based on a preset policy.

次に、学習部131は、連続画像データ221及び音データ223に対して前処理を実行する(ステップS503)。 Next, the learning unit 131 executes preprocessing on the continuous image data 221 and the sound data 223 (step S503).

具体的には、画像前処理部200が連続画像データ221に含まれる画像222に対して前処理を実行する。また、混合音声生成部203は、音データ223、225を用いて混合音声の音データ227を生成し、音前処理部201が音データ227に対して前処理を実行する。 Specifically, the image preprocessing unit 200 executes preprocessing on the image 222 included in the continuous image data 221. Further, the mixed voice generation unit 203 generates the sound data 227 of the mixed voice using the sound data 223 and 225, and the sound preprocessing unit 201 executes preprocessing on the sound data 227.

次に、学習部131は、前処理が実行された連続画像データ221及び音データ223を用いて、音データ213及び推定話者ID214を出力する(ステップS504)。具体的には、音声強調器202によって以下のような処理が実行される。 Next, the learning unit 131 outputs the sound data 213 and the estimated speaker ID 214 using the continuous image data 221 and the sound data 223 on which the preprocessing has been executed (step S504). Specifically, the speech enhancer 202 executes the following processing.

特徴結合部302は、画像特徴抽出部300によって抽出された画像特徴量の時系列データと、音特徴抽出部301によって抽出された音特徴量の時系列データとを、時間的に同期した形式で結合することによって複合特徴量の時系列データを生成する。 The feature combining unit 302 has a time-series synchronized format of the time-series data of the image feature amount extracted by the image feature extraction unit 300 and the time-series data of the sound feature amount extracted by the sound feature extraction unit 301. By combining, time-series data of complex features are generated.

音特徴変換部305は、複合特徴量の時系列データを用いて、重み付き音特徴量の時系列データを出力する。 The sound feature conversion unit 305 outputs the time-series data of the weighted sound features using the time-series data of the composite features.

話者識別部306は、重み付き音特徴量の時系列データから、中間出力として話者特徴量330を抽出する。また、話者識別部306は、話者特徴量330に基づいて、話者を推定し、推定結果として推定話者ID214を出力する。 The speaker identification unit 306 extracts the speaker feature amount 330 as an intermediate output from the time-series data of the weighted sound feature amount. Further, the speaker identification unit 306 estimates the speaker based on the speaker feature amount 330, and outputs the estimated speaker ID 214 as the estimation result.

同期推定部303は、口の開閉動作が行われている期間に対応するタイムステップの音特徴量を抽出する。話者音声推定部304は、話者特徴量330を用いて、同期推定部303によって抽出された、任意のタイムステップの音特徴量から音データ213を抽出し、出力する。 The synchronization estimation unit 303 extracts the sound feature amount of the time step corresponding to the period during which the mouth opening / closing operation is performed. The speaker voice estimation unit 304 uses the speaker feature amount 330 to extract and output sound data 213 from the sound feature amount of an arbitrary time step extracted by the synchronous estimation unit 303.

以上が、音声強調器202が実行する処理の説明である。 The above is a description of the process executed by the speech enhancer 202.

次に、学習部131は、音データ213及び音データ223の誤差と、推定話者ID214及び話者ID224の誤差とを算出する(ステップS505)。 Next, the learning unit 131 calculates the error of the sound data 213 and the sound data 223 and the error of the estimated speaker ID 214 and the speaker ID 224 (step S505).

具体的には、音声誤差算出部204が音データ213及び音データ223の誤差を算出し、話者誤差算出部206が推定話者ID214及び話者ID224の誤差を算出する。 Specifically, the voice error calculation unit 204 calculates the error of the sound data 213 and the sound data 223, and the speaker error calculation unit 206 calculates the error of the estimated speaker ID 214 and the speaker ID 224.

次に、学習部131は、音声強調器202に対して各誤差を反映する(ステップS506)。 Next, the learning unit 131 reflects each error on the speech enhancer 202 (step S506).

具体的には、音声誤差反映部205が、音データ213及び音データ223の誤差に基づいて、音声強調器202の各モジュールの学習対象のパラメタを更新し、話者誤差反映部207が、推定話者ID214及び話者ID224の誤差に基づいて、音声強調器202の各モジュールの学習対象のパラメタを更新する。 Specifically, the voice error reflecting unit 205 updates the learning target parameters of each module of the voice enhancer 202 based on the errors of the sound data 213 and the sound data 223, and the speaker error reflecting unit 207 estimates. Based on the error of the speaker ID 214 and the speaker ID 224, the parameters to be learned of each module of the voice enhancer 202 are updated.

実施例1では、画像特徴抽出部300、音特徴抽出部301、同期推定部303、話者音声推定部304、音特徴変換部305(タイムステップ間類似度算出部310、発話状況識別部311、及び重み算出部312)、及び話者識別部306(話者特徴抽出部320及び話者推定部321)のパラメタが更新される。 In the first embodiment, the image feature extraction unit 300, the sound feature extraction unit 301, the synchronous estimation unit 303, the speaker voice estimation unit 304, and the sound feature conversion unit 305 (time step similarity calculation unit 310, utterance status identification unit 311, And the parameters of the weight calculation unit 312) and the speaker identification unit 306 (speaker feature extraction unit 320 and speaker estimation unit 321) are updated.

次に、学習部131は、学習を終了するか否かを判定する(ステップS507)。 Next, the learning unit 131 determines whether or not to end the learning (step S507).

例えば、誤差の減少幅が閾値より小さくなり、これ以上、誤差が小さくできない場合、学習部131は学習を終了する。なお、学習の終了判定は、ユーザが判断してもよい。 For example, when the reduction width of the error becomes smaller than the threshold value and the error cannot be reduced any more, the learning unit 131 ends the learning. The user may determine the end of learning.

学習を終了しないと判定された場合、学習部131は、ステップS502に戻り、同様の処理を実行する。 If it is determined that the learning is not completed, the learning unit 131 returns to step S502 and executes the same process.

学習を終了すると判定された場合、学習部131は、学習結果を推定部130に出力し(ステップS508)、その後、学習処理を終了する。 When it is determined that the learning is finished, the learning unit 131 outputs the learning result to the estimation unit 130 (step S508), and then ends the learning process.

具体的には、学習部131は、音声強調器202の各モジュールのパラメタを推定部130に出力する。 Specifically, the learning unit 131 outputs the parameters of each module of the speech enhancer 202 to the estimation unit 130.

学習処理によって、音声強調器202が出力する音データ213及び音データ223の誤差と、推定話者ID214及び話者ID224の誤差とが小さくなる。このように、学習処理では、同期推定部303、話者音声推定部304、音特徴変換部305、及び話者識別部306のパラメタが一緒に更新される。 By the learning process, the error of the sound data 213 and the sound data 223 output by the speech enhancer 202 and the error of the estimated speaker ID 214 and the speaker ID 224 are reduced. As described above, in the learning process, the parameters of the synchronous estimation unit 303, the speaker voice estimation unit 304, the sound feature conversion unit 305, and the speaker identification unit 306 are updated together.

図6は、実施例1の音声処理システム100が実行する推定処理の一例を説明するフローチャートである。 FIG. 6 is a flowchart illustrating an example of estimation processing executed by the voice processing system 100 of the first embodiment.

推定部130は、実行指示を受信した場合、又は、データが入力された場合、以下で説明する推定処理を開始する。なお、音声処理システム100は、図1に示すような環境において稼働しているものとする。 When the estimation unit 130 receives the execution instruction or the data is input, the estimation unit 130 starts the estimation process described below. It is assumed that the voice processing system 100 is operating in the environment as shown in FIG.

推定部130は、撮像装置102から連続画像データ211を取得し、また、集音装置103から音データ212を取得する(ステップS601)。推定部130は、連続画像データ211及び音データ212を記憶装置121に保存する。 The estimation unit 130 acquires continuous image data 211 from the image pickup device 102, and also acquires sound data 212 from the sound collector 103 (step S601). The estimation unit 130 stores the continuous image data 211 and the sound data 212 in the storage device 121.

次に、推定部130は、連続画像データ211及び音データ212に対して前処理を実行する(ステップS602)。ステップS602の処理はステップS503の処理と同様の処理である。 Next, the estimation unit 130 executes preprocessing on the continuous image data 211 and the sound data 212 (step S602). The process of step S602 is the same as the process of step S503.

次に、推定部130は、前処理が実行された連続画像データ211及び音データ212を用いて、音データ213及び推定話者ID214を出力し(ステップS603)、その後、推定処理を終了する。 Next, the estimation unit 130 outputs the sound data 213 and the estimated speaker ID 214 using the continuous image data 211 and the sound data 212 for which the preprocessing has been executed (step S603), and then ends the estimation process.

具体的には、学習結果が反映された音声強調器202が音データ213及び推定話者ID214を出力する。ステップS603の処理はステップS504の処理と同様の処理である。 Specifically, the speech enhancer 202 reflecting the learning result outputs the sound data 213 and the estimated speaker ID 214. The process of step S603 is the same process as the process of step S504.

音データ213に含まれる推定音声は、雑音音源111の音が抑制された、話者110の音声に非常に類似した音声となっている。なお、推定部130は、音データ213を、公知の音声認識器に入力することによって、文字起こしを行ってもよい。 The estimated voice included in the sound data 213 is a voice very similar to the voice of the speaker 110 in which the sound of the noise sound source 111 is suppressed. The estimation unit 130 may perform transcription by inputting the sound data 213 into a known voice recognizer.

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。 The present invention is not limited to the above-described embodiment, and includes various modifications. Further, for example, the above-described embodiment describes the configuration in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. Further, it is possible to add, delete, or replace a part of the configuration of each embodiment with other configurations.

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 Further, each of the above configurations, functions, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. The present invention can also be realized by a software program code that realizes the functions of the examples. In this case, a storage medium in which the program code is recorded is provided to the computer, and the processor included in the computer reads out the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the function of the above-described embodiment, and the program code itself and the storage medium storing it constitute the present invention. Examples of the storage medium for supplying such a program code include a flexible disk, a CD-ROM, a DVD-ROM, a hard disk, an SSD (Solid State Drive), an optical disk, a magneto-optical disk, a CD-R, and a magnetic tape. Non-volatile memory cards, ROMs, etc. are used.

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。 In addition, the program code that realizes the functions described in this embodiment can be implemented in a wide range of programs or script languages such as assembler, C / C ++, perl, Shell, PHP, Python, and Java (registered trademark).

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。 Further, by distributing the program code of the software that realizes the functions of the embodiment via the network, the program code is stored in a storage means such as a hard disk or a memory of a computer or a storage medium such as a CD-RW or a CD-R. The processor included in the computer may read and execute the program code stored in the storage means or the storage medium.

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。 In the above-described embodiment, the control lines and information lines show what is considered necessary for explanation, and do not necessarily indicate all the control lines and information lines in the product. All configurations may be interconnected.

100 音声処理システム
101 サーバ
102 撮像装置
103 集音装置
110 話者
111 雑音音源
112 顔領域画像
120 プロセッサ
121 記憶装置
122 接続インタフェース
123 内部バス
130 推定部
131 学習部
200 画像前処理部
201 音前処理部
202 音声強調器
203 混合音声生成部
204 音声誤差算出部
205 音声誤差反映部
206 話者誤差算出部
207 話者誤差反映部
211、221 連続画像データ
212、213、223、225、227 音データ
214 推定話者ID
220 サンプル
222 画像
224 話者ID
300 画像特徴抽出部
301 音特徴抽出部
302 特徴結合部
303 同期推定部
304 話者音声推定部
305 音特徴変換部
306 話者識別部
310 タイムステップ間類似度算出部
311 発話状況識別部
312 重み算出部
313 重み反映部
320 話者特徴抽出部
321 話者推定部
330 話者特徴量
100 Voice processing system 101 Server 102 Image pickup device 103 Sound collector 110 Speaker 111 Noise sound source 112 Face area image 120 Processor 121 Storage device 122 Connection interface 123 Internal bus 130 Estimator unit 131 Learning unit 200 Image preprocessing unit 201 Sound preprocessing unit 202 Voice enhancer 203 Mixed voice generation unit 204 Voice error calculation unit 205 Voice error reflection unit 206 Speaker error calculation unit 207 Speaker error reflection unit 211, 221 Continuous image data 212, 213, 223, 225, 227 Sound data 214 Estimate Speaker ID
220 Sample 222 Image 224 Speaker ID
300 Image feature extraction unit 301 Sound feature extraction unit 302 Feature coupling unit 303 Synchronous estimation unit 304 Speaker voice estimation unit 305 Sound feature conversion unit 306 Speaker identification unit 310 Time step similarity calculation unit 311 Speech status identification unit 312 Weight calculation Part 313 Weight reflection part 320 Speaker feature extraction part 321 Speaker estimation part 330 Speaker feature amount

Claims (14)

集音装置によって集音された音に含まれるターゲット人物の音声を抽出する計算機であって、
演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを備え、
前記集音装置及び前記ターゲット人物の画像を取得する撮像装置と、前記接続インタフェースを介して接続し、
前記演算装置は、
前記集音装置から取得した入力音及び前記撮像装置から取得した入力画像を前記記憶装置に格納し、
前記入力音を用いて、前記ターゲット人物の音声の特徴を示す話者特徴量を算出し、
前記入力画像を用いて、前記ターゲット人物の顔を含む顔領域画像を抽出し、
複数の前記顔領域画像を用いて、前記ターゲット人物が発話していたと推定される発話期間を特定し、
前記話者特徴量及び前記発話期間を用いて、前記入力音から、前記発話期間における前記ターゲット人物の推定音声を抽出し、抽出された前記ターゲット人物の推定音声を前記記憶装置に格納することを特徴とする計算機。
It is a computer that extracts the voice of the target person included in the sound collected by the sound collector.
It includes an arithmetic unit, a storage device connected to the arithmetic unit, and a connection interface connected to the arithmetic unit.
The sound collector and the image pickup device that acquires an image of the target person are connected via the connection interface.
The arithmetic unit is
The input sound acquired from the sound collecting device and the input image acquired from the imaging device are stored in the storage device.
Using the input sound, a speaker feature amount indicating the characteristics of the voice of the target person is calculated.
Using the input image, a face area image including the face of the target person is extracted.
Using the plurality of facial area images, the utterance period estimated to have been spoken by the target person was specified, and the utterance period was specified.
Using the speaker feature amount and the utterance period, the estimated voice of the target person in the utterance period is extracted from the input sound, and the extracted estimated voice of the target person is stored in the storage device. Characterized computer.
請求項1に記載の計算機であって、
前記演算装置は、
前記入力音及び前記複数の入力画像を用いて、前記入力音におけるタイムステップ毎の前記ターゲット人物の発話状況を識別し、
前記各タイムステップの前記ターゲット人物の発話状況に基づいて、前記ターゲット人物の音声が含まれるタイムステップを強調するように前記入力音を変換し、
前記変換された入力音を用いて前記話者特徴量を算出することを特徴とする計算機。
The computer according to claim 1.
The arithmetic unit is
Using the input sound and the plurality of input images, the utterance status of the target person at each time step in the input sound is identified.
Based on the utterance status of the target person in each time step, the input sound is converted so as to emphasize the time step including the voice of the target person.
A computer characterized in that the speaker feature amount is calculated using the converted input sound.
請求項2に記載の計算機であって、
前記演算装置は、
前記入力音から、前記タイムステップ毎の音特徴量からなる第1時系列データを生成し、
前記複数の顔領域画像から、前記タイムステップ毎の画像特徴量からなる第2時系列データを生成し、
前記第1時系列データ及び前記第2時系列データを用いて、前記入力音における前記ターゲット人物の音声の含有度合いを示す指標を算出し、
前記指標に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別し、
前記各タイムステップの前記ターゲット人物の発話状況に応じた重みを算出し、
前記重みを用いて、前記第1時系列データを変換し、
前記変換された第1時系列データを用いて前記話者特徴量を算出することを特徴とする計算機。
The computer according to claim 2.
The arithmetic unit is
From the input sound, a first time-series data consisting of sound features for each time step is generated.
From the plurality of face area images, a second time-series data consisting of an image feature amount for each time step is generated.
Using the first time-series data and the second time-series data, an index indicating the content of the voice of the target person in the input sound is calculated.
Based on the index, the utterance status of the target person at each time step is identified.
The weight according to the utterance situation of the target person in each time step is calculated.
Using the weights, the first time series data is transformed.
A computer characterized in that the speaker feature amount is calculated using the converted first time-series data.
請求項3に記載の計算機であって、
前記演算装置は、
前記タイムステップ間の前記音特徴量の類似度及び前記画像特徴量の類似度を、前記指標として算出し、
前記タイムステップ間の画像特徴量の類似度、及び前記タイムステップ間の前記音特徴量の類似度に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別することを特徴とする計算機。
The computer according to claim 3.
The arithmetic unit is
The similarity between the sound features and the image features between the time steps was calculated as the index.
A computer characterized by identifying the utterance status of the target person in each time step based on the similarity of the image features between the time steps and the similarity of the sound features between the time steps.
請求項3に記載の計算機であって、
前記演算装置は、
前記画像特徴量に基づいて、前記ターゲット人物が閉口している基準タイムステップを特定し、
前記基準タイムステップに対応する前記音特徴量に基づいて、基準音特徴量を算出し、
前記基準音特徴量と前記各タイムステップの音特徴量との間の類似度を、前記指標として算出し、
前記基準音特徴量と前記各タイムステップの音特徴量との間の類似度に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別することを特徴とする計算機。
The computer according to claim 3.
The arithmetic unit is
Based on the image feature amount, the reference time step in which the target person is closed is specified.
Based on the sound feature amount corresponding to the reference time step, the reference sound feature amount is calculated.
The degree of similarity between the reference sound feature amount and the sound feature amount of each time step is calculated as the index.
A computer characterized by identifying the utterance status of the target person in each time step based on the degree of similarity between the reference sound feature amount and the sound feature amount in each time step.
請求項3に記載の計算機であって、
前記記憶装置は、入力された音から発話している話者を識別する第1モデル、前記タイムステップ毎の発話状況を識別する第2モデル、前記発話期間を特定する第3モデル、及び前記ターゲット人物の音声を抽出する第4モデルを定義する情報を格納し、
前記演算装置は、
前記第2モデルに、前記第1時系列データ及び前記第2時系列データを入力することによって、前記変換された入力音を算出し、
前記変換された入力音を入力した前記第1モデルから、前記ターゲット人物の前記話者特徴量を抽出し、
前記第3モデルに、前記第1時系列データ及び前記第2時系列データを入力することによって、前記発話期間を算出し、
前記第4モデルに、前記話者特徴量及び前記発話期間を入力することによって、前記入力音から前記ターゲット人物の音声を抽出することを特徴とする計算機。
The computer according to claim 3.
The storage device includes a first model that identifies a speaker who is speaking from an input sound, a second model that identifies an utterance status for each time step, a third model that specifies the utterance period, and the target. Stores information that defines a fourth model that extracts the voice of a person,
The arithmetic unit is
By inputting the first time-series data and the second time-series data into the second model, the converted input sound is calculated.
From the first model in which the converted input sound is input, the speaker feature amount of the target person is extracted.
By inputting the first time-series data and the second time-series data into the third model, the utterance period is calculated.
A computer characterized in that the voice of the target person is extracted from the input sound by inputting the speaker feature amount and the utterance period into the fourth model.
請求項6に記載の計算機であって、
前記演算装置は、
複数の学習用画像、学習用音声、及び話者の識別情報から構成されるサンプルを複数含む学習データを受け付け、前記記憶装置に格納し、
前記学習データを用いて、前記第1モデルから出力される話者の識別結果及び前記サンプルに含まれる前記話者の識別情報の誤差、並びに、前記第4モデルから出力される前記ターゲット人物の音声及び前記サンプルに含まれる前記学習用音声の誤差が小さくなるように、前記第1モデル、前記第2モデル、前記第3モデル、及び前記第4モデルを学習することを特徴とする計算機。
The computer according to claim 6.
The arithmetic unit is
Learning data including a plurality of samples composed of a plurality of learning images, learning voices, and speaker identification information is received and stored in the storage device.
Using the learning data, an error in the speaker identification result output from the first model and the speaker identification information included in the sample, and the voice of the target person output from the fourth model. A computer characterized by learning the first model, the second model, the third model, and the fourth model so that the error of the learning voice included in the sample is small.
計算機が実行する、音に含まれるターゲット人物の音声を抽出する音声処理方法であって、
前記計算機は、
演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを有し、
前記ターゲット人物が存在する空間の音を集音する集音装置及び前記ターゲット人物の画像を取得する撮像装置と、前記接続インタフェースを介して接続し、
前記音声処理方法は、
前記演算装置が、前記集音装置から取得した入力音及び前記撮像装置から取得した入力画像を前記記憶装置に格納する第1のステップと、
前記演算装置が、前記入力音を用いて、前記ターゲット人物の音声の特徴を示す話者特徴量を算出する第2のステップと、
前記演算装置が、前記入力画像を用いて、前記ターゲット人物の顔を含む顔領域画像を抽出する第3のステップと、
前記演算装置が、複数の前記顔領域画像を用いて、前記ターゲット人物が発話していたと推定される発話期間を特定する第4のステップと、
前記演算装置が、前記話者特徴量及び前記発話期間を用いて、前記入力音から、前記発話期間における前記ターゲット人物の推定音声を抽出し、抽出された前記ターゲット人物の推定音声を前記記憶装置に格納する第5のステップと、
を含むことを特徴とする音声処理方法。
It is a voice processing method executed by a computer to extract the voice of the target person included in the sound.
The calculator
It has an arithmetic unit, a storage device connected to the arithmetic unit, and a connection interface connected to the arithmetic unit.
A sound collecting device that collects sounds in the space where the target person exists and an imaging device that acquires an image of the target person are connected via the connection interface.
The voice processing method is
The first step in which the arithmetic unit stores the input sound acquired from the sound collecting device and the input image acquired from the image pickup device in the storage device.
A second step in which the arithmetic unit calculates a speaker feature amount indicating the characteristics of the voice of the target person using the input sound.
A third step in which the arithmetic unit uses the input image to extract a face region image including the face of the target person.
A fourth step in which the arithmetic unit uses a plurality of the face area images to identify an utterance period in which the target person is presumed to have spoken.
The arithmetic unit uses the speaker feature amount and the utterance period to extract the estimated voice of the target person in the utterance period from the input sound, and the extracted estimated voice of the target person is stored in the storage device. And the fifth step to store in
A voice processing method characterized by including.
請求項8に記載の音声処理方法であって、
前記第2のステップは、
前記演算装置が、前記入力音及び前記複数の入力画像を用いて、前記入力音におけるタイムステップ毎の前記ターゲット人物の発話状況を識別する第6のステップと、
前記演算装置が、前記各タイムステップの前記ターゲット人物の発話状況に基づいて、前記ターゲット人物の音声が含まれるタイムステップを強調するように前記入力音を変換する第7のステップと、
前記演算装置が、前記変換された入力音を用いて前記話者特徴量を算出する第8のステップと、を含むことを特徴とする音声処理方法。
The voice processing method according to claim 8.
The second step is
A sixth step in which the arithmetic unit identifies the utterance status of the target person for each time step in the input sound using the input sound and the plurality of input images.
A seventh step in which the arithmetic unit converts the input sound so as to emphasize the time step including the voice of the target person based on the utterance status of the target person in each time step.
A voice processing method comprising the eighth step of calculating the speaker feature amount using the converted input sound.
請求項9に記載の音声処理方法であって、
前記第1のステップは、
前記演算装置が、前記入力音から、前記タイムステップ毎の音特徴量からなる第1時系列データを生成するステップと、
前記演算装置が、前記複数の顔領域画像から、前記タイムステップ毎の画像特徴量からなる第2時系列データを生成するステップと、を含み、
前記第6のステップは、
前記演算装置が、前記第1時系列データ及び前記第2時系列データを用いて、前記入力音における前記ターゲット人物の音声の含有度合いを示す指標を算出する第9のステップと、
前記演算装置が、前記指標に基づいて前記各タイムステップの前記ターゲット人物の発話状況を識別する第10のステップと、を含み、
前記第7のステップは、
前記演算装置が、前記各タイムステップの前記ターゲット人物の発話状況に応じた重みを算出するステップと、
前記演算装置が、前記重みを用いて、前記第1時系列データを変換するステップと、を含み、
前記第8のステップは、前記演算装置が、前記変換された第1時系列データを用いて前記話者特徴量を算出するステップを含むことを特徴とする音声処理方法。
The voice processing method according to claim 9.
The first step is
A step in which the arithmetic unit generates first time-series data consisting of sound features for each time step from the input sound.
The arithmetic unit includes a step of generating a second time-series data including an image feature amount for each time step from the plurality of face area images.
The sixth step is
A ninth step in which the arithmetic unit uses the first time-series data and the second time-series data to calculate an index indicating the content of the voice of the target person in the input sound.
The arithmetic unit includes a tenth step of identifying the utterance status of the target person in each time step based on the index.
The seventh step is
A step in which the arithmetic unit calculates a weight according to the utterance status of the target person in each time step, and a step.
The arithmetic unit includes a step of converting the first time series data using the weights.
The eighth step is a voice processing method, wherein the arithmetic unit includes a step of calculating the speaker feature amount using the converted first time series data.
請求項10に記載の音声処理方法であって、
前記第9のステップは、前記演算装置が、前記タイムステップ間の前記音特徴量の類似度及び前記画像特徴量の類似度を、前記指標として算出するステップを含み、
前記第10のステップは、前記演算装置が、前記タイムステップ間の画像特徴量の類似度、及び前記タイムステップ間の前記音特徴量の類似度に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別するステップを含むことを特徴とする音声処理方法。
The voice processing method according to claim 10.
The ninth step includes a step in which the arithmetic unit calculates the similarity of the sound feature amount and the similarity of the image feature amount between the time steps as the index.
In the tenth step, the arithmetic unit of the target person in each time step is based on the similarity of the image feature amount between the time steps and the similarity of the sound feature amount between the time steps. A voice processing method comprising a step of identifying an utterance situation.
請求項10に記載の音声処理方法であって、
前記第9のステップは、
前記演算装置が、前記画像特徴量に基づいて、前記ターゲット人物が閉口している基準タイムステップを特定するステップと、
前記演算装置が、前記基準タイムステップに対応する前記音特徴量に基づいて、基準音特徴量を算出するステップと、
前記演算装置が、前記基準音特徴量と前記各タイムステップの音特徴量との間の類似度を、前記指標として算出するステップと、を含み、
前記第10のステップは、前記演算装置が、前記基準音特徴量と前記各タイムステップの音特徴量との間の類似度に基づいて、前記各タイムステップの前記ターゲット人物の発話状況を識別するステップを含むことを特徴とする音声処理方法。
The voice processing method according to claim 10.
The ninth step is
A step in which the arithmetic unit identifies a reference time step in which the target person is closed based on the image feature amount, and a step.
A step in which the arithmetic unit calculates a reference sound feature amount based on the sound feature amount corresponding to the reference time step.
The arithmetic unit includes a step of calculating the similarity between the reference sound feature amount and the sound feature amount of each time step as the index.
In the tenth step, the arithmetic unit identifies the utterance status of the target person in each time step based on the degree of similarity between the reference sound feature amount and the sound feature amount in each time step. A voice processing method characterized by including steps.
請求項10に記載の音声処理方法であって、
前記記憶装置は、入力された音から発話している話者を識別する第1モデル、前記タイムステップ毎の発話状況を識別する第2モデル、前記発話期間を特定する第3モデル、及び前記ターゲット人物の音声を抽出する第4モデルを定義する情報を格納し、
前記第2のステップは、
前記演算装置が、前記第2モデルに、前記第1時系列データ及び前記第2時系列データを入力することによって、前記変換された入力音を算出するステップと、
前記演算装置が、前記変換された入力音を入力した前記第1モデルから、前記ターゲット人物の前記話者特徴量を抽出するステップと、を含み、
前記第4のステップは、前記演算装置が、前記第3モデルに、前記第1時系列データ及び前記第2時系列データを入力することによって、前記発話期間を算出するステップを含み、
前記第5のステップは、前記演算装置が、前記第4モデルに、前記話者特徴量及び前記発話期間を入力することによって、前記入力音から前記ターゲット人物の音声を抽出するステップと、を含むことを特徴とする音声処理方法。
The voice processing method according to claim 10.
The storage device includes a first model that identifies a speaker who is speaking from an input sound, a second model that identifies an utterance status for each time step, a third model that specifies the utterance period, and the target. Stores information that defines a fourth model that extracts the voice of a person,
The second step is
A step of calculating the converted input sound by the arithmetic unit inputting the first time series data and the second time series data into the second model.
The arithmetic unit includes a step of extracting the speaker feature amount of the target person from the first model in which the converted input sound is input.
The fourth step includes a step in which the arithmetic unit calculates the utterance period by inputting the first time series data and the second time series data into the third model.
The fifth step includes a step in which the arithmetic unit extracts the voice of the target person from the input sound by inputting the speaker feature amount and the utterance period into the fourth model. A voice processing method characterized by that.
請求項13に記載の音声処理方法であって、
前記演算装置が、前記接続インタフェースを介して、複数の学習用画像、学習用音声、及び話者の識別情報から構成されるサンプルを複数含む学習データを受け付け、前記記憶装置に格納するステップと、
前記演算装置が、前記学習データを用いて、前記第1モデルから出力される話者の識別結果及び前記サンプルに含まれる前記話者の識別情報の誤差、並びに、前記第4モデルから出力される前記ターゲット人物の音声及び前記サンプルに含まれる前記学習用音声の誤差が小さくなるように、前記第1モデル、前記第2モデル、前記第3モデル、及び前記第4モデルを学習するステップと、を含むことを特徴とする音声処理方法。
The voice processing method according to claim 13.
A step in which the arithmetic unit receives learning data including a plurality of samples composed of a plurality of learning images, learning voices, and speaker identification information via the connection interface and stores the learning data in the storage device.
Using the learning data, the arithmetic unit outputs the speaker identification result output from the first model, the error of the speaker identification information included in the sample, and the fourth model. A step of learning the first model, the second model, the third model, and the fourth model so that the error between the voice of the target person and the voice for learning included in the sample is small. A voice processing method characterized by including.
JP2020171420A 2020-10-09 2020-10-09 Computer and voice processing method Pending JP2022063080A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020171420A JP2022063080A (en) 2020-10-09 2020-10-09 Computer and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020171420A JP2022063080A (en) 2020-10-09 2020-10-09 Computer and voice processing method

Publications (1)

Publication Number Publication Date
JP2022063080A true JP2022063080A (en) 2022-04-21

Family

ID=81212375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020171420A Pending JP2022063080A (en) 2020-10-09 2020-10-09 Computer and voice processing method

Country Status (1)

Country Link
JP (1) JP2022063080A (en)

Similar Documents

Publication Publication Date Title
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN106486131B (en) A kind of method and device of speech de-noising
Friedland et al. The ICSI RT-09 speaker diarization system
CN112233698B (en) Character emotion recognition method, device, terminal equipment and storage medium
US10390130B2 (en) Sound processing apparatus and sound processing method
CN109147763B (en) Audio and video keyword identification method and device based on neural network and inverse entropy weighting
CN107799126A (en) Sound end detecting method and device based on Supervised machine learning
JP5634959B2 (en) Noise / dereverberation apparatus, method and program thereof
CN111785288A (en) Voice enhancement method, device, equipment and storage medium
CN111883135A (en) Voice transcription method and device and electronic equipment
WO2023001128A1 (en) Audio data processing method, apparatus and device
KR20210036692A (en) Method and apparatus for robust speech enhancement training using adversarial training
KR20190032868A (en) Method and apparatus for voice recognition
WO2024055752A9 (en) Speech synthesis model training method, speech synthesis method, and related apparatuses
JP4705414B2 (en) Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium
CN111554279A (en) Multi-mode man-machine interaction system based on Kinect
Abdulatif et al. Investigating cross-domain losses for speech enhancement
CN117789699B (en) Speech recognition method, device, electronic equipment and computer readable storage medium
CN117935789A (en) Speech recognition method, system, equipment and storage medium
WO2020195924A1 (en) Signal processing device, method, and program
Prabhu et al. EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data
Abel et al. A data driven approach to audiovisual speech mapping
JP2022063080A (en) Computer and voice processing method
Yanagisawa et al. Noise robustness in HMM-TTS speaker adaptation
CN115240696A (en) Speech recognition method and readable storage medium