JP7178331B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7178331B2
JP7178331B2 JP2019123828A JP2019123828A JP7178331B2 JP 7178331 B2 JP7178331 B2 JP 7178331B2 JP 2019123828 A JP2019123828 A JP 2019123828A JP 2019123828 A JP2019123828 A JP 2019123828A JP 7178331 B2 JP7178331 B2 JP 7178331B2
Authority
JP
Japan
Prior art keywords
data
determination
time
model
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019123828A
Other languages
English (en)
Other versions
JP2020071866A (ja
Inventor
アリ ジェヴァヒル
スタンリー コック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Publication of JP2020071866A publication Critical patent/JP2020071866A/ja
Application granted granted Critical
Publication of JP7178331B2 publication Critical patent/JP7178331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来より、機械学習の技術を用いて、音声内において人の声(目標対象)の存在の有無を判定する技術として、音声アクティビティ検出(Voice Activity Detecton(以下、「VAD」と略記する))の技術が研究されている(例えば非特許文献1参照)。この非特許文献1に記載の技術は、例えば、隠れマルコフモデル(以下、「HMM」と略記する)という1つのモデルに基づいて、VADを実行している。
従来より、HMM以外にも目標対象の存在有無を検出するための様々な機械学習モデルが提案されている。ボリュームや波長などのパラメータのバランスによって好適な機械学習モデルもあれば、不適な機械学習モデルも存在する。しかし、どのようなパラメータのバランスに対してどの機械学習モデルを採用すべきか、事前に判断する手法が存在しなかった。
本願発明はこのような状況に鑑みてなされたものであり、事前にどの機械学習モデルを採用すべきかを判断しなくとも、目標対象の存在有無を従来よりも精度良く検出可能とすることを目的とする。
上記目的を達成するため、本発明の一態様の情報処理装置は、
処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置において、
相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを前記第2時系列データとして生成する、
第1判定手段と、
前記第1判定手段により生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第2判定結果として生成する第2判定手段と、
を備え、
前記第2判定手段は、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する。
本発明の一態様の上記情報処理装置に対応する情報処理方法及びプログラムも、本発明の一態様の情報処理方法及びプログラムとして提供される。
本発明によれば、目標対象の存在有無の検出の精度をより向上せることができる。
本発明の一実施形態に係る情報処理装置により実行される情報処理の流れの例を示す図である。 本発明の一実施形態に係る情報処理装置により実行される情報処理の流れの例であって、図1とは異なる例を示す図である。 本発明の一実施形態にかかる情報処理システムの構成の例を示す図である。 図3の情報処理システムのうち、本発明の情報処理装置の一実施形態に係る音声判定装置のハードウェア構成の一例を示すブロック図である。 図4の音声判定装置の機能的構成の一例を示す機能ブロック図である。 図4の機能的構成を有する音声判定装置により実行される判定処理の流れの一例を説明するフローチャートである。 図3の音声学習装置の機能的構成の一例を示す機能ブロック図である。 図7の機能的構成を有する音声学習装置により実行される学習処理の流れの一例を説明するフローチャートである。
以下、本発明の実施形態について、図面を用いて説明する。
図1は、本発明の一実施形態に係る情報処理装置により実行される情報処理の流れの例を示す図である。
例えば、本発明の情報処理装置の一実施形態にかかる音声判定装置(例えば、図3の音声判定装置1)は、図1に示すように、存在有無の目標対象として、人の声を採用している。音声判定装置は、音声データD1に対して次に述べるような各種処理を施すことで、所定の時間帯t2における人の声の存在確率として、合成確率D4を出力する。
まず、音声判定装置は、人の声が少なくとも一部の時間帯において含まれ得る音声データD1(音声波形D1)を、時間帯t1乃至t3の夫々の区間(以下、「フレーム」と呼ぶ)に区分する。次に、音声判定装置は、時間帯t1乃至t3の夫々のフレームについての時分割データD2-1乃至D2-3の夫々を生成する。
次に、音声判定装置は、次に述べるような第1判定処理を実行する。
即ち、第1判定処理においては、音声判定装置は、時間帯t1の時分割データD2-1を、第1モデルM1を用いて判定し、その判定結果として、第1モデルM1と時間帯t1に依存する確率D3-11を出力する。
同様に、音声判定装置は、時間帯t2の時分割データD2-2と、時間帯t3の時分割データD2-3の夫々を、第1モデルM1を用いて判定し、夫々の判定結果として、第1モデルM1と夫々の時間に依存する確率D3-12及びD3-13の夫々を出力する。
同様に、第1判定処理において、音声判定装置は、時間帯t1乃至t3の夫々についての時分割データD2-1乃至D2-3の夫々を、第2モデルM2を用いて判定し、夫々の判定結果として、第2モデルと時間の夫々に依存する確率D3-21乃至D3-23の夫々を出力する。
ここで、第1モデルM1と第2モデルM2として、相互に特徴が異なるVAD判定器が夫々採用されている。具体的には例えば、第1モデルM1はHMMで構成され、第2モデルM2はSVM(Support Vector Machine)で構成されている。
なお、詳細については図2等を用いて後述するが、第1判定で用いるモデルの個数及び種類は、特に図1に限定されず、任意でよい。
次に、音声判定装置は、次に述べるような第2判定処理を実行する。
即ち、第2判定処理においては、音声判定装置は、モデルと時間の夫々に依存する確率D3-11乃至D3-13(第1モデルM1の夫々の判定結果を示す時系列のデータ)と、モデルと時間の夫々に依存する確率D3-21乃至D3-23(第2モデルM2の夫々の判定結果を示す時系列のデータ)との集合体を、合成モデルCMを用いて合成して判定し、その判定結果として、時間帯t2における合成確率D42を出力する。
この時間帯t2における合成確率D42に基づいて、当該時間帯t2に人の声が存在するか否かが判定される。
例えば、時間帯t3に人の声が存在するか否かの判定が必要な場合、図示はしないが、更に時間帯t4が定義される。そして、音声判定装置は、時間帯t2乃至t4の夫々について、上述の一連の情報処理を実行することにより、時間帯t3について合成確率を得て出力する。
なお以下、図1に示すように、音声データD1のうち1以上のフレーム(図1の例では、時間帯t1乃至t3の3つのフレーム)が処理対象とされ、処理対象の各フレームの夫々の時分割データから構成される時系列データを、「時系列データD2」と呼ぶ。
当該時系列データD2に対する第1判定処理の結果である、時間の夫々とモデルの夫々に依存する確率の各フレームの集合体を、「モデルと時間に依存する確率の時系列データD3」と呼ぶ。
ここで、モデルと時間に依存する確率の時系列データD3のうち、第1モデルに依るものを、「モデルと時間に依存する確率の時系列データD3-1」と呼ぶ。同様に、モデルと時間に依存する確率の時系列データD3のうち、第2モデルに依るものを、「モデルと時間に依存する確率の時系列データD3-2」と呼ぶ。
即ち、音声データD1が時間帯t1乃至t3に区分された場合、時系列データD2は、時間帯t1乃至t3の夫々の時分割データD2-1乃至D2-3から構成される。
また、モデルと時間に依存する確率の時系列データD3は、時間と第1モデルに依存する確率の時系列データD3-1と、時間と第2モデルに依存する確率の時系列データD3-2から構成される。
ここで、時間と第1モデルに依存する確率の時系列データD3-1は、時間の夫々と第1モデルに依存する確率D3-11乃至D3-13から構成される。同様に、時間と第2モデルに依存する確率の時系列データD3-2は、時間の夫々と第2モデルに依存する確率D3-21乃至D3-23から構成される。
図2は、本発明の一実施形態に係る情報処理装置により実行される情報処理の流れの例であって、図1とは異なる例を示す図である。
即ち、図2の例とは、図1の情報処理の例に対して、更に多数の時系列データと、更に多数のモデルを用いた場合の情報処理の詳細の流れの例である。
図1の例と図2の例との差異点は、次のとおりである。
即ち、図1の例では、音声判定装置は、人の声が少なくとも一部の時間帯において含まれ得る音声データD1を、時間帯t1乃至t3に区分して、3つの時分割データD2-1乃至D2-3を生成していた。これに対して、図2の例では、音声判定装置は、音声データD1を、時間帯t-4乃至t4に区分して、9つの時分割データD2(t-4)乃至D2(t4)を生成している。
また、図1の例では、音声判定装置は、第1判定処理において、第1モデルと第2モデルの2つのモデルを用いていた。これに対して、図2の例では、音声判定装置は、モデルMa乃至Mfの6つのモデルを用いている。
このような差異点に伴い、図2の例は、図1の例と異なり、次のような処理が実行される。
即ち図2の例では、音声判定装置は、音声データD1から、時間帯t-4乃至t4の夫々について9つの時分割データD2(t-4)乃至D2(t4)を区分し、これらの集合体である時系列データD2を生成する。
なお、時間帯t-4乃至t4の夫々の時間長さ(フレーム長)は、図2の例では0.1秒とされている。
次に、音声判定装置は、第1判定処理を実行する。
即ち、音声判定装置は、時系列データD2の夫々をモデルMa乃至Mfの夫々に入力させる。
その結果、モデルMaと時間の夫々に依存する確率D3a(t-4)乃至D3a(t4)の集合体として、モデルMaと時間の夫々に依存する確率の時系列データD3-aが生成される。
モデルMaと時間の夫々に依存する確率の時系列データD3-aは、音声データD1と同様に時間帯t-4乃至t4の夫々に区分されたグラフとして表現することができる。例えば、図2に「モデルMa確率」として示すように、横軸に「時間」、縦軸に「予測された確率」をとる平面に描画されるグラフとして、モデルMaと時間の夫々に依存する確率の時系列データD3-aは表現することができる。
この図2に示すグラフの例によれば、モデルMaでの判定結果は、音声データD1に対して、時間帯t-4乃至t-2の間において人の声が含まれていた可能性が高く、時間帯t-1乃至t3において音声データD1に人の声が含まれていない可能性が高く、かつ時間帯t4において人の声が含まれている可能性が高い、という結果であることを示している。
このように、音声判定装置は、時間帯t-4乃至t4の夫々について時分割データD2(t-4)乃至D2(t4)の夫々を、モデルMaを用いて判定し、夫々の判定結果として、モデルの夫々と時間の夫々に依存する確率の時系列データD3-aを出力する。
同様に、音声判定装置は、時間帯t-4乃至t4の夫々について時分割データD2(t-4)乃至D2(t4)の夫々を、モデルMb乃至Mfの夫々を用いて別々に判定し、夫々の判定結果として、モデルの夫々と時間の夫々に依存する確率の時系列データD3-b乃至D3―fの夫々を出力する。
なお、図示はしないが、上述のモデルMaの場合と同様に、モデルMb乃至Mfの夫々と時間の夫々に依存する確率の時系列データD3-b乃至D3-fの夫々は、モデルMb乃至Mfの夫々の確率の時間構造を示すグラフとして表現することができる。
ここで、図1と同様に、モデルMa乃至Mfとは、相互に特徴が異なるVAD判定器が夫々採用されている。
モデルMa乃至Mfの夫々は、例えば、機械学習で用いられるモデルである、HMM、SVM、Gradient Boosting、CNN(Convolutional Neural Network)、CNN-biRNN(0.32sec window)、CNN-biRNN(0.96sec window)、の夫々で構成されている。
ここで、CNN-biRNNは、CNNに対し、RNN(Recurrent Neural Networks)において未来の情報を用いて精度を向上するモデルであるbiRNN(Bidirectional RNN)を適用したものである。CNN-biRNNは、0.32sec windowと0.96sec windowの2つのパラメータをとっている。
即ち、相互に特徴が異なるVAD判定器とは、夫々のモデルを構成する機械学習のモデルが違うことに限らず、windowの違い等、パラメータが違うことに依るものも含む広義な概念である。また、言うまでもないが、上述の機械学習のモデルは一例に過ぎない。即ち、上述のもの以外の機械学習のモデルを採用してもよいし、更に言えば、機械学習のモデルに限らず、所定のアルゴリズムにより判定を行う判定器を採用してもよい。
上述の第1判定処理により、音声判定装置は、6個のモデルMa乃至Mfの夫々の判定結果として9個の確率の時系列データを夫々得るので、これらをまとめた54個(=6×9個)の確率の集合体を、モデルと時間に依存する確率の時系列データD3として出力する。
次に、音声判定装置は、第2判定処理を実行する。
即ち、音声判定装置は、モデルと時間に依存する確率の時系列データD3を合成モデルCMを用いて判定し、その判定結果として、時間帯t0についての合成確率D4(Combined Probability (t0) D4)を出力する。
合成モデルCMに対しては、例えば、アンサンブル学習型ニューラルネットワーク(Ensemble neural network/Multi-modal ensemble model)やGradient Boostingを適用することができる。
なお、アンサンブル学習型ニューラルネットワークやGradient Boostingは一例に過ぎず、これら以外の機械学習の手法を適用してもよい。更に言えば、合成モデルCMは、機械学習のモデルに限らず、所定のアルゴリズムにより判定を行う判定器を採用してもよい。
以下、図面を用いて図1及び図2の情報処理を行うための情報処理システム、即ち本発明の一実施形態にかかる情報処理システムについて説明する。
図3は、本発明の一実施形態にかかる情報処理システムの構成の例を示す図である。
図3に示す情報処理システムは、音声判定装置1と、モデルDB2と、音声学習装置3とを含むように構成される。
音声判定装置1は、音声学習装置3により学習された結果得られる(又は更新される)モデルをモデルDB2から取得して、所定区間(フレーム)毎に人の声の存在有無を判定する。音声判定装置1の機能的構成や処理の詳細については、図5等を参照して後述する。
音声学習装置3は、所定区間(フレーム)毎に人の声の存在確率を判定することについて機械学習を行うことで、モデル(特に上述の図1や図2の合成モデルCM)を生成又は更新して、モデルDB2に格納する。音声学習装置3の機能的構成や処理の詳細については、図7等を参照して後述する。
図4は、図3の情報処理システムのうち、本発明の情報処理装置の一実施形態に係る音声判定装置のハードウェア構成の一例を示すブロック図である。
音声判定装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、出力部16と、入力部17と、記憶部18と、通信部19と、ドライブ20とを備えている。
CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、出力部16、入力部17、記憶部18、通信部19、及びドライブ20が接続されている。
出力部16は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
入力部17は、キーボードやマウス等で構成され、ユーザの指示操作に応じて各種情報を入力する。
記憶部18は、ハードディスク等で構成され、各種情報のデータを記憶する。
通信部19は、ネットワークを介して他の端末(例えば図1のモデルDB2)との間で行う通信を制御する。
ドライブ20には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ20によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。また、リムーバブルメディア31は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
なお、図示はしないが、図3の情報処理システムの音声学習装置3は図4に示すハードウェア構成と基本的に同様の構成を有している。
また、説明の便宜上、音声学習装置3は、音声判定装置1とは別途設けるものとしたが、特にこれに限定されず、音声学習装置3と、音声判定装置1との各機能を1台の情報処理装置に集約してもよい。
図5は、図4の音声判定装置の機能的構成の一例を示す機能ブロック図である。
まず、音声判定装置1の機能的構成について説明する。
音声判定装置1のCPU11においては、解析データ取得部101と、時系列分割部102と、第1判定部103-1乃至103-mと、第2判定部104とが機能する。ここで、mは、第1判定処理に用いるモデルの個数、即ち「相互に特徴が異なるVAD判定器(モデル)」の個数であり、図1の例では2であり、図2の例では6である。
モデルDB2の一領域には、第1判定モデルDB301と、第2判定モデルDB302が設けられる。
第1判定モデルDB301には、第1判定部103-1乃至103-mの夫々で用いられるm個の「相互に特徴が異なるVAD判定器(モデル)」が格納されている。
また、第2判定モデルDB302には、第2判定部104で用いられる合成モデルCMが格納されている。
解析データ取得部101は、人の声を含み得る音声波形についての音声データ(例えば図1や図2の音声データD1)を、解析データとして通信部19(図4)等を介して取得する。
時系列分割部102は、解析データ取得部101から提供される解析データ(音声データD1)を、n個の各時間帯(フレーム)の夫々におけるn個の時分割データに区分し、これらをまとめた時系列データD2を生成する。
ここで、nは、時系列データD2に含める時分割データの個数、即ち時間帯(フレーム)の個数であり、図1の例では3個であり、図2の例では9個である。
第1判定部103-K(Kは、1乃至mのうちの任意の整数値)は、m個のモデルのうちk番目のモデルを第1判定モデルDB301から取得する。第1判定部103-Kは、時系列分割部102から提供される時系列データD2を構成するn個の時分割データ(フレームのデータ)の夫々に対して、k番目のモデルを用いて、第1判定処理を実行する。
第2判定部104は、m個の第1判定部103-1乃至103-mの夫々において第1判定処理が実行された結果得られるm個の「確率の時系列データD3」を取得する。
即ち、1個の「確率の時系列データD3」は、n個の時間帯(フレーム)についての各確率の集合体のため、総計n×m個の確率の集合体が第2判定部104に供給される。
そこで、第2判定部104は、これら総計n×m個の確率の集合体に対し、第2判定処理を実行する。
即ち、第2判定部104は、機械学習により得られた(又は更新された)合成モデルCMを第2判定モデルDB302から取得する。第2判定部104は、合成モデルCMのモデルを用いる判定の処理を実行し、その判定結果として、n個の各時間帯のうち所定の(代表する)時間帯(例えば上述の図1の例では時間帯t2であり、図2の例では時間帯t0である)について合成確率D4を出力する。
音声判定装置1は、このようにして得られた合成確率D4を、出力部16(ディスプレイ等)に出力したり記憶部18に記憶させることができる。
第2判定部104は、確率の時系列データD3を取得し、合成確率D4を出力している。これにより、当該第2判定部104を有する音声判定装置1は、次のような効果を奏する。
例えば、第2判定部104で取得されるデータは、時系列データである。これにより、第1判定処理において、ある時間帯t0に音声が含まれるかを判定するモデル(例えばモデルMa)が、前後の時間(例えばt1)の時分割データD2(t1)に基づかない場合、つまり、ある時間帯t0のみに基づいて判定する場合であっても、第2判定処理においては、前後の時間に対して判定した結果である、モデルと時間に依存する確率D3a(t1)に基づいて、判定を行うことができる。
また例えば、第2判定部104が取得するデータが特性の異なるモデルの夫々の判定結果であるため、第1判定処理に用いるモデルの1つ(例えばモデルMb)がノイズの多い場合に判定の精度が高いモデルであって、他の第1判定処理に用いるモデルの1つ(例えばモデルMc)がノイズの少ない場合に判定の精度が高いモデルであったとすれば、第2判定部104はノイズの多寡に依らない合成確率D4を出力することが可能となる。
換言すると、ある1つのモデルしか用いない場合、当該モデルの特性を直接的に最終的な確率に反映してしまうというデメリットが生じる。このようなデメリットを解消すべく、第2判定部104を採用している。
更に例えば、第1判定処理に用いるモデルの1つ(例えばdモデルMd)が会話の開始の検出の精度が高いモデルであって、他の第1判定処理に用いるモデルの1つ(例えばeモデルMe)が会話の継続時の検出の精度が高いモデルであったとすれば、第2判定部はdモデルMdの結果に基づき会話の開始の検出の精度が高く、eモデルMeの結果に基づき会話の継続の検出の精度が高い合成確率D4を出力することが可能となる。
即ち、第2判定部104は、m個のモデルの夫々の判定結果(夫々、n個の時間帯(フレーム)の時系列データの判定結果となっている)の集合体である確率の時系列データD3を取得し、これらを合成して判定している。これにより、音声判定装置1は、目標対象(人の声)の存在有無の検出の精度をより向上高めるという効果を奏することができる。
ところで、音声判定装置1は、n個の各時間帯(フレーム)をずらしながら、上述の一連の処理を実行することで、複数個の合成確率D4を出力することができる。即ち、音声判定装置1は、合成確率D4の時系列データを出力することができる。
判定結果である合成確率D4は、所謂VAD判定の結果として利用できる。即ち、合成確率D4は、会話(2人以上の「人の声」のやり取り)の適切な検出に利用することができる。
具体的な利用方法の一例は、以下の通りである。
例えば、映画等の字幕作成をする場合において、字幕を作成する作業を行う作業者は、音声データD1をそのまま利用するのではなく、VAD判定による会話の開始点や終了点を効率的に抽出すべく、合成確率D4の時系列データを利用することができる。これにより、作業者は、人の声等の抽出作業の負担を減らすことができ、例えば、短時間で作業を完了することができる。
換言すれば、通常であれば作業者は、単に音声(上述の具体例にあわせて音声データD1に対応する音声とする)を含む映像を視聴して字幕作成を行っていた。そこで、作業者は、合成確率D4の時系列データを適切に利用することで、会話の開始点や終了点を効率的に抽出することができるようになり、その結果として、負担を減らすことができる。
他方、音声データD1から会話らしさを判定する場合であれば、例えば、従来においては、音声データD1に対応する音声波形の振幅が閾値を超えたか否かを判定基準として採用していた。即ち、従来においては、作業者(その操作を受ける情報処理装置)は、一定の閾値よりも振幅が大きい場合に会話らしいと判定していた。ただし、この判定基準は、静かな会議室で発言した場合等には有効であるが、BGMやノイズ等、会話以外の音源がある場合には、それほど有効ではない場合もある。
そこで、合成確率D4を会話らしさの観点として利用することが有用となる。具体的には例えば、作業者(その操作を受ける情報処理装置)は、音声データD1の波形に対して合成確率D4の重みづけをした音声の波形を重ね合わせて(或いは並べて)、それらの波形を比較しながら作業を行うことができる。具体的には例えば、作業者は、合成確率D4の確率が低い時間帯(即ち、会話の確率が低いと判定された時間帯)の音のレベルを下げたり、或いは合成確率D4の確率が高い時間帯(即ち、会話の確率が高いと判定された時間帯)の音のレベルを上げるように、適切な重み付けの処理をすることもできる。
これにより、時間帯の夫々において会話がなされているか否かがより精度よく作業者に伝われることになるため、作業者は従来より効率的かつ低負担で作業を行うことができるようになる。
つまり、合成確率D4を用いることで、判定対象の時間帯に人の声が含まれているかについて、より適切に予測できるようになる。
なお、会話が切れているのか、それとも、話者が会話中に一呼吸入れているのかについての判定の精度は充分ではない可能性もあり得る。そこで、このような場合には、合成確率D4は、例えば以下のように利用することもできる。
具体的に例えば、作業者は、音声データD1の波形に対して合成確率D4の重みづけをした波形を用いることもできる。これにより、作業者は、夫々の時間帯に人の声が含まれているかの情報(合成確率D4)を活用しつつ、人の声が含まれていないと判定された場合には、その時間の音声を聞いて確認することもできる。そして、作業者は、人の声が含まれていないのは、会話が終了したのか、それとも、話し手が会話中に一呼吸入れているのか等の判断をすることができる。
このように合成確率D4様々な方法で利用することで、例えば、作業者は、字幕の作成をより効率的に行うことができる。
次に、図6を参照して、図4の音声判定装置1により実行される判定処理について説明する。
判定処理とは、音声が複数のフレームに区分された場合において、人の声の存在確率をフレーム毎に求めることで、人の声の存在有無を判定する処理である。
図6は、図4の機能的構成を有する音声判定装置により実行される判定処理の流れの一例を説明するフローチャートである。
ステップS1において、解析データ取得部101は、人の声が含まれ得る音声データD1を、解析データとして取得する。
ステップS2において、時系列分割部102は、解析データ(音声データD1)から、n個の時間帯(フレーム)の各時分割データの集合体、即ち、時系列データD2を生成する。
ステップS3において、第1判定部103は、時系列データD2に対して第1判定処理を行う。
即ち、第1判定部103-1乃至103-mの夫々は、m個のモデルのうちの自身が用いる1個を第1判定モデルDB301から取得して、取得したモデルを用いる第1判定処理を時系列データD2に対して夫々施すことで、モデルと時間に依存する確率の時系列データD3-1乃至D3-mの夫々を生成する。
これにより、総計n×m個の確率の集合体としての、モデルと時間に依存する確率の時系列データD3が生成される。
ステップS4において、第2判定部104は、モデルと時間に依存する確率の時系列データD3に対して第2判定処理を行う。即ち、第2判定部104は、モデルと時間に依存する確率D3(第1判定処理の結果)に対して、合成モデルCMを用いる第2判定処理を施すことで、合成確率D4を生成する。
以上、対象の音声の夫々の時間に人の声が含まれているかを判定する、音声アクティビティ検出をするための判定処理の一連の流れについて説明した。
次に、音声判定装置1で用いられるモデルを生成又は更新するための学習を行う音声学習装置3について、その処理に関する説明を行う。
図7は、図3の音声学習装置の機能的構成の一例を示す機能ブロック図である。
音声学習装置3のCPU11においては、学習データ取得部111と、時系列分割部112と、第1学習部113と、第2学習部114とが機能する。
学習データ取得部111は、人の声を含む音声波形についての音声データを、学習用音声データとして通信部19(図4)等を介して取得する。
なお、学習データ取得部111は、学習の支援として、学習用音声データを構成する夫々の時間帯(フレーム)毎に、実際に音声が含まれているか否かの情報を取得し、当該情報を時系列分割部112に提供してもよい。
時系列分割部112は、学習データ取得部111から提供される学習用音声データを、n個の各時間帯(フレーム)の夫々におけるn個の時分割データに区分し、これらをまとめた時系列データ(音声判定装置1で生成される時系列データD2と同様のデータ)を生成して、第1学習部113及び第2学習部114に提供する。ここで、nは、図5の音声判定装置1とあわせたものであり、時系列データに含める時分割データの個数、即ち時間帯(フレーム)の個数であり、図1の例では3個であり、図2の例では9個である。
ここで、時系列分割部112は、学習用音声データの夫々の時間帯に実際に音声が含まれているか否かの情報を提供された場合、時系列データを構成する各時分割データ毎に、音声が含まれているか否かの情報を付与して、第1学習部113及び第2学習部114に提供してよい。
第1学習部113においては、第1判定モデル学習部121-1乃至121-mが機能する。ここで、mは、図5の音声判定装置1とあわせたものであり、第1判定処理に用いるモデルの個数、即ち「相互に特徴が異なるVAD判定器(モデル)」の個数であり、図1の例では2であり、図2の例では6である。
第1判定モデル学習部121-K(Kは、1乃至mの内の任意の整数値)は、時系列分割部102から提供される時系列データを構成するn個の時分割データ(フレームのデータ)の夫々を用いて、m個のモデルのうちk番目のものを用いる第1判定モデルについての学習処理を実行する。
この学習処理の結果として、音声判定装置1において第1判定処理に用いられるモデルのうち、k番目のモデルが生成又は更新される。生成又は更新されたk番目のモデルは、第1判定モデルDB301に格納される。
第2学習部114においては、第1判定部131-1乃至131-mと、第2判定モデル学習部132が機能する。ここで、mは、第1学習部113及び図5の音声判定装置1とあわせたものであり、第1判定処理に用いるモデルの個数、即ち「相互に特徴が異なるVAD判定器(モデル)」の個数であり、図1の例では2であり、図2の例では6である。
第1判定部131-K(Kは、1乃至mのうちの任意の整数値)は、m個のモデルのうちk番目のモデルを第1判定モデルDB301から取得する。第1判定部131-Kは、時系列分割部112から提供される時系列データを構成するn個の時分割データ(フレームのデータ)の夫々に対して、k番目のモデルを用いて、第1判定処理を実行する。
第2判定モデル学習部132は、m個の第1判定部131-1乃至131-mの夫々において第1判定処理が実行された結果得られるm個の「確率の時系列データ(音声判定装置1で得られる確率の時系列データD3に相当)」を取得する。即ち、1個の「確率の時系列データ」は、n個の時間帯(フレーム)についての各確率の集合体のため、総計n×m個の確率の集合体が第2判定モデル学習部132に提供される。
第2判定モデル学習部132は、第1判定部131-1乃至131-mから提供される総計n×m個の確率の集合体である、m個の「確率の時系列データ」に対して、第2判定モデルの学習処理を実行する。
この学習処理の結果として、音声判定装置1において第2判定処理に用いられる合成モデルCMが生成又は更新される。生成又は更新された合成モデルCMは、第2判定モデルDB302に格納される。
次に、図8を参照して、図7の音声学習装置3により実行される学習処理について説明する。
学習処理とは、音声判定装置1において用いられるモデルに関する学習の処理である。
図8は、図7の機能的構成を有する音声学習装置により実行される学習処理の流れの一例を説明するフローチャートである。
ステップS11において、学習データ取得部111は、人の声が含まれる音声データを、学習用音声データとして取得する。
ステップS12において、時系列分割部112は、学習用音声データからn個の時間帯の夫々のフレームを構成要素として、時系列データを生成する。
ステップS13において、第1学習部113は、ステップS12で得られた時系列データを用いて、第1判定モデル学習を行う。
この第1判定モデル学習の結果として、音声判定装置1において第1判定処理に用いられるm個のモデルの夫々が生成又は更新される。生成又は更新されたm個のモデルの夫々は、第1判定モデルDB301に格納される。
ステップS14において、第2学習部114は、ステップS12で得られた時系列データを用いて、第2判定モデル学習を行う。
即ち、第1判定部131-Kは、m個のモデルのうちk番目のモデルを第1判定モデルDB301から取得する。第1判定部131-Kは、ステップS12で得られた時系列データを構成するn個の時分割データ(フレームのデータ)の夫々に対して、k番目のモデルを用いて、第1判定処理を実行する。
第2判定モデル学習部132は、m個の第1判定部131-1乃至131-mの夫々において第1判定処理が実行された結果得られるm個の「確率の時系列データ」を取得する。即ち、1個の「確率の時系列データ」は、n個の時間帯(フレーム)についての各確率の集合体のため、総計n×m個の確率の集合体が第2判定モデル学習部132に提供される。
第2判定モデル学習部132は、第1判定部131-1乃至131-mから提供される総計n×m個の確率の集合体である、m個の「確率の時系列データ」に対して、第2判定モデルの学習処理を実行する。
この学習処理の結果として、音声判定装置1において第2判定処理に用いられる合成モデルCMが生成又は更新される。生成又は更新された合成モデルCMは、第2判定モデルDB302に格納される。
以上本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での、変形、改良等は本発明に含まれるものである。
例えば、上述の実施形態において、目標対象たる人の声を含み得る音声波形についての音声データを判定対象とした、VAD判定を例として説明を行ったが、特にこれに限定されない。即ち、例えば、目標対象は人の声ではなく、動物の鳴き声や、雨の音等、他の音でもよい。更に言えば、処理対象のデータは音声データに限らない。即ち、例えば映像であってもよく、映像データの音声データを判定対象のデータとしてもよい。
更に言えば、判定するデータは音を例として説明を行ったが、特にこれに限定されない。即ち、例えば、映像データの画像を判定対象としてもよい。即ち、例えば、映像データを縦と横と時間の観点からフレームに分割し、人や車両を目標対象として、映像中に目標対象が存在する確率を判定するものとしてもよい。更に言えば、映像と音声を組み合わせて判定を行ってもよい。
また例えば、上述の実施形態において、音声処理や学習処理に際し、時系列データD2の構成要素として、フレーム(所定の時間帯)のデータを単位としていたが、特にこれに限定さない。即ち、「一定の時間長のデータを単位データ」と採用すれば足りる。
更に言えば、上述の実施形態において、判定処理や学習処理に際し、時系列データD2を構成する時分割データの夫々を、モデルの夫々を用いて別々に判定するとしていたが、特にこれに限定されない。即ち、時系列データD2を構成する時分割データの夫々はモデルの夫々毎に違ってよい。即ち例えば、1つの時分割データに基づき判定するモデルや、複数の時分割データに基づき判定するモデルや、他のモデルと違うフレーム(所定時間帯)の長さの時分割データに基づき判定するモデルを採用してもよい。即ち、時系列データD2は、モデルごとに用意されるものであってよい。
また例えば、上述の実施形態において、時分割データは、判定の対象である時間帯t2に対して、その前後の時間帯t1及びt3の3つに分割されたデータとして説明を行ったが、特にこれに限定されない。
即ち、判定の対象である時間帯t2の前後の時間帯のうち少なくとも一方を含む態様として、例えば、時系列データD2は、時間帯t2及びt3の2つに分割されたフレームのデータから構成されるものであってよい。
更に言えば、時系列データD2は、必ずしも連続した時間帯のフレームのデータで構成される必要はなく、連続していない時間帯(例えば、時間帯t1及びt3)のフレームのデータのみにより構成されてもよい。
ただし、前後の両方の時間帯のフレームのデータを含むことのできる時間帯、即ち、例えば、音声データの中盤の時間帯のフレームを判定対象とするときには、前後の両方の時間帯のフレームのデータを含む事が望ましい。また例えば、音声データの冒頭又は末尾を判定対象とする場合には、前後の両方の時間帯のフレームのデータを含むことができないので、前後のどちらか一方の時間帯のフレームのデータを含むとよい。しかし、前後の両方の時間帯のフレームのデータを含む事により、合成モデルCMは、会話の開始・継続・終了に係る情報等を取得する可能性が高まる。従って、時系列データD2は、判定対象の時間帯の前後の両方の時間帯のフレームのデータを含む事が望ましい。
また、例えば、時系列データD2は、単に音声データD1を時間帯の夫々について分割されたものでなくてよい。即ち、音声データD1を時間帯の夫々について分割したのち、所定の処理を行ったものを、時系列データD2としてよい。例えば、時分割データは、フーリエ変換を行い、所定の時間帯についての周波数成分の分布に変換されたのち、第1判定部103に提供されてもよい。更に言えば、時分割データの夫々は、夫々の時間帯のデータについて特徴量を抽出したものであってもよい。即ち、時分割データは、所定の時間帯の夫々についてのデータであれば足る。
また例えば、上述の実施形態(主に図2)において、学習に用いられる判定器として、HMM、SVM、Gradient Boosting、CNN、CNN-biRNN(0.32sec window)、CNN-biRNN(0.96sec window)を例示して説明を行ったが、特にこれに限定されない。
即ち、上述の実施形態で説明した学習は、他の機械学習の手法を用いて実行されてもよいし、機械学習に分類されない他のアルゴリズムにより判定を行う判定器であれば足る。更に言えば、第1判定器に、いくつかの判定器の結果を合成した結果を出力する判定器、即ち上述の例における第2判定部104に相当する判定器であってよい。
また例えば、上述の実施形態の例では、第1判定処理の結果、即ち、モデルと時間に依存する確率D3は、確率であるとしたが、これに限らない。即ち、例えば、目標対象らしさの指数等の確率ではないパラメータであってもよいし、時間帯の夫々に対してモデルの夫々の判定を行った結果であれば足りる。
また例えば、上述の実施形態の例では、判定対象となる時間帯の前後を含む夫々のフレームから構成される時系列データD2の夫々に対して第1判定処理を実行した後、第2判定処理を実行したが、実行の順番はこれに限らない。例えば、音声データD1の全てを時間帯の夫々に区分した後、時間帯の夫々について第1判定処理を行ってもよい。その後、その結果をモデルと時間に依存する確率D3として、モデルの夫々と時間帯の夫々について全体を判定したのち、その結果の一部を用いて、第2判定処理を行うようにしてもよい。
上述の実施形態(主に図2)において、第2判定処理に用いられる判定器として、Multimodal Ensembleを例示して説明を行ったが、特にこれに限定されない。
即ち、上述の実施形態で説明した学習は、他の機械学習の手法を用いて実行されてもよいし、機械学習に分類されない他のアルゴリズムにより判定を行う判定器であれば足る。
即ち、例えば、単に総計n×m個の確率の集合体としての、モデルと時間に依存する確率の時系列データD3の平均値をとるものでもよい。
また例えば、上述の実施形態(例えば図2)において、確率の時系列データD3は、6個のモデルMa乃至Mfの夫々の判定結果として9個の確率の時系列データを夫々得るので、これらをまとめた54個(=6×9個)の確率の集合体を、モデルと時間に依存する確率の時系列データD3として出力するとしたが、特にこれに限定されない。即ち、6個のモデルの夫々は、1つ又は複数の時分割データから構成される時系列データD2に基づいた判定により、1つの時間に対応する確率のデータの夫々を出力するものであってよい。即ち例えば、6個のモデルの夫々は1つの時間に対応する確率のデータの夫々を出力するものであって、6個の確率のデータを時系列データD3として合成モデルCMを用いて時系列データD3を合成するものであってよい。即ち、時系列データD3は、モデルの夫々について1つ以上の確率のデータを含むものであればよい。
また例えば、上述の実施形態の例(例えば図1)では、判定対象となる時間帯t2の前後のフレームのデータを構成要素とする時系列データD2を生成し、時間帯t2の合成確率D42を生成したが、特にこれに限定されない。即ち、例えば、第1モデルM1及び第2モデルM2を用いて、判定対象となる音声データの全体を判定した後、第1モデルM1及び第2モデルM2の夫々について、時間帯t1乃至t3の夫々の確率に基づいて、モデルと時間に依存する確率D3を生成し、第2判定処理に用いてもよい。
これにより、例えば、図2における時間帯t0の判定をした場合、処理の途中において、時間帯t0に対しaモデルを用いて第1判定処理を行った結果、即ちモデルと時間に依存する確率D3a(t0)が生成されるが、これは、時間帯t1の判定を行う場合にも用いられるデータであるため、計算量を削減できる。
また例えば、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図5及び図7の機能的構成は例示に過ぎず、特に限定されない。
即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図5及び図7の例に限定されない。また、機能ブロックの存在場所も、図5及び図7に特に限定されず、任意でよい。例えば、音声判定装置1の機能ブロックを音声学習装置3等に移譲させてもよい。また、音声学習装置3の機能ブロックを音声判定装置1等に移譲させてもよい。更に言えば、音声判定装置1と音声学習装置3は、同じハードウェアでもよい。
また例えば、一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。
また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
また例えば、このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的或いは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
以上を換言すると、本発明が適用される情報処理装置は、次のような構成を有する各種各様の実施形態を取ることができる。
即ち、本発明が適用される情報処理装置(例えば図3等の音声判定装置1)は、
処理対象のデータ(例えば、図1の音声データD1)の所定時間帯における目標対象(例えば人の声)の存在確率を求める情報処理装置において、
相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準(例えば図1の第1モデルM1と第2モデルM2との夫々に基づく判定基準や、図2のモデルMa乃至Mfの夫々に基づく判定基準)毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データ(例えば図1等の時系列データD2)として前記処理対象のデータから取得して、
前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを前記第2時系列データとして生成する(例えば図1の例ではm=2個の確率の時系列データD3-1,D3-2を生成し、図2の例ではm=6個の確率の時系列データD3-a乃至D3-fを生成する)、
第1判定手段(例えば図5の第1判定部103)と、
前記第1判定手段により生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率(例えば図1や図2の合成確率D4)を、第2判定結果として生成する第2判定手段(例えば図5の第2判定部104)と、
を備え、
前記第2判定手段は、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果(例えば図7の音声学習装置1により学習された結果)として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する、
情報処理装置であれば足りる。
これにより、例えば目標対象が人の声である場合には、本発明が適用される情報処理装置は、時系列データを用いた判定をすることができるため、会話(2人以上の人の声のやり取り)の開始、継続、終了等に係る情報や、前後の判定結果を参照することが可能となり、人の声(目標対象)の存在有無の検出の精度をより向上させることができる。また、相互に特徴が異なるm個の第1判定基準のうちどの機械学習モデルを採用すべきかを判断しなくとも、人の声(目標対象)の存在有無の検出の精度をより向上させることができる。
前記第1判定手段は、
更に、前記所定時間帯の第1時系列データとして、前記所定時間帯とは異なる時間に基づいて区切られた前記単位データを少なくとも含む1個以上の前記単位データを、前記処理対象のデータから取得することができる。
これにより、例えば、第2時系列データを構成する夫々の判定結果は、所定時間帯と異なる時間に基づいて区切られたデータに基づいた第1判定基準による判定結果となり、所定時間帯におけるボリュームや波長などのパラメータのバランスに基づいた判定結果のみならず、所定時間帯と異なる時間帯に対する判定結果に基づいて第2判定を行うことが可能となり、更に目標対象の存在有無の検出の精度をより向上させることができる。
ここまでは、情報処理装置は、音声データを処理対象として、目標対象の存在確率を求めていた。
しかしながら、上述したように、処理対象のデータは、音声データのみならず画像データ等他種のデータでもよい。例えば画像データについては、目標対象は画像に含まれるオブジェクトであり、オブジェクトの存在有無は、時間方向だけではなく空間方向(1枚の静止画像内の上下左右方向)でも検出し得る。つまり、映像データであれば、目標対象のオブジェクトは、時間方向においてどのフレームに存在するのか否かの検出の他、所定時刻の1枚のフレーム(1枚の静止画)のなかでどの位置(例えば画像の右端等の空間方向の位置)に存在するのかという検出も可能になる。
したがって、情報処理装置は、目標対象の存在確率は、処理対象のデータ内で求める必要は特になく、時間の次元を少なくとも含むN次元空間(Nは1以上の整数値)内の、対象座標における目標対象の存在確率を求めてもよい。ここで、空間方向であれば、水平方向と垂直方向の2次元が、N次元の中に含まれる。
つまり、本発明が適用される情報処理装置は、次のような構成を有する各種各様の実施形態を取ることができる。
即ち、本発明が適用される情報処理装置は、
時間の次元を少なくとも含むN次元空間(Nは1以上の整数値)内の、対象座標における目標対象の存在確率を求める情報処理装置において、
前記N次元空間内の所定座標におけるデータ(例えば動画データを構成する各フレームのうち、画素又は複数画素からなるブロックのデータ)を単位データとして、前記所定座標における前記単位データと、前記n次元空間における前記所定座標から一定範囲内の座標(例えば、空間方向でいえば、所定時刻の1枚のフレームにおける上下左右方向の画素又はブロックの座標)における前記単位データとを含めた、n個(nは2以上の整数値)の単位データの集合(画素又はブロックの集合体)を、前記所定座標の第1情報群として生成する生成手段と、
前記所定座標の第1情報群を構成する前記n個の単位データの夫々に対する所定の判定基準によるn個の判定結果の集合体である第2情報群を、相互に特徴が異なるm個(mは2以上の整数値)の判定基準の夫々を用いて生成する第1判定手段と、
前記第1判定手段により前記m個の判定基準により夫々生成された前記第2情報群に基づいて、前記N次元空間内の前記所定座標における前記目標対象の存在確率を、第2判定結果として生成する第2判定手段と、
を備える情報処理装置であってもよい。
1・・・音声判定装置、2・・・モデルDB、3・・・音声学習装置、11・・・CPU、101・・・解析データ取得部、102・・・時系列分割部、103・・・第1判定部、104・・・第2判定部、301・・・第1判定モデルDB、302・・・第2判定モデルDB、111・・・学習データ取得部、112・・・時系列分割部、113・・・第1学習部、114・・・第2学習部、121・・・第1判定モデル学習部、131・・・第1判定部、132・・・第2判定モデル学習部

Claims (4)

  1. 処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置において、
    相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準毎に、
    時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データとして前記処理対象のデータから取得して、
    前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを第2時系列データとして生成する、
    第1判定手段と、
    前記第1判定手段により生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第2判定結果として生成する第2判定手段と、
    を備え、
    前記第2判定手段は、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する、
    情報処理装置。
  2. 前記第1判定手段は、
    前記所定時間帯の第1時系列データとして、前記所定時間帯とは異なる時間に基づいて区切られた前記単位データを少なくとも含む1個以上の前記単位データを、前記処理対象のデータから取得する、
    請求項1に記載の情報処理装置。
  3. 処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置が実行する情報処理方法において、
    相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準毎に、
    時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データとして前記処理対象のデータから取得して、
    前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを第2時系列データとして生成する、
    第1判定ステップと、
    前記第1判定ステップにより生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第2判定結果として生成する第2判定ステップと、
    を備え、
    前記第2判定ステップは、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する、
    情報処理方法。
  4. 処理対象のデータの所定時間帯における目標対象の存在確率を求めるコンピュータに、
    相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準毎に、
    時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データとして前記処理対象のデータから取得して、
    前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを第2時系列データとして生成する、
    第1判定ステップと、
    前記第1判定ステップにより生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第2判定結果として生成する第2判定ステップと、
    を含み、
    前記第2判定ステップは、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する、
    制御処理を実行させるプログラム。
JP2019123828A 2018-11-01 2019-07-02 情報処理装置、情報処理方法及びプログラム Active JP7178331B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SG10201809737U 2018-11-01
SG10201809737UA SG10201809737UA (en) 2018-11-01 2018-11-01 Information processing device, information processing method, and program

Publications (2)

Publication Number Publication Date
JP2020071866A JP2020071866A (ja) 2020-05-07
JP7178331B2 true JP7178331B2 (ja) 2022-11-25

Family

ID=70458677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019123828A Active JP7178331B2 (ja) 2018-11-01 2019-07-02 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US11087746B2 (ja)
JP (1) JP7178331B2 (ja)
SG (1) SG10201809737UA (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201809737UA (en) * 2018-11-01 2020-06-29 Rakuten Inc Information processing device, information processing method, and program
CN114553315B (zh) * 2022-02-28 2023-07-18 常州京信新一代信息技术研究院有限公司 基于CNN-biRNN的光纤非线性均衡方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266974A (ja) 2009-05-13 2010-11-25 Sony Corp 情報処理装置、情報処理方法、およびプログラム
WO2011064938A1 (ja) 2009-11-25 2011-06-03 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP2014164126A (ja) 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析方法、装置、及びプログラム
WO2014147785A1 (ja) 2013-03-21 2014-09-25 富士通株式会社 動作検知装置,動作検知方法,プログラム及び記録媒体
WO2015059947A1 (ja) 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JP2016065924A (ja) 2014-09-24 2016-04-28 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
US20180166066A1 (en) 2016-12-14 2018-06-14 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
JP2018155939A (ja) 2017-03-17 2018-10-04 ヤフー株式会社 生成装置、生成方法および生成プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
WO2009004727A1 (ja) * 2007-07-04 2009-01-08 Fujitsu Limited 符号化装置、符号化方法および符号化プログラム
US9047878B2 (en) * 2010-11-24 2015-06-02 JVC Kenwood Corporation Speech determination apparatus and speech determination method
GB201322377D0 (en) * 2013-12-18 2014-02-05 Isis Innovation Method and apparatus for automatic speech recognition
WO2017216786A1 (en) * 2016-06-14 2017-12-21 Omry Netzer Automatic speech recognition
US20190034542A1 (en) * 2017-07-26 2019-01-31 Scripps Networks Interactive, Inc. Intelligent agent system and method of accessing and delivering digital files
SG10201809737UA (en) * 2018-11-01 2020-06-29 Rakuten Inc Information processing device, information processing method, and program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266974A (ja) 2009-05-13 2010-11-25 Sony Corp 情報処理装置、情報処理方法、およびプログラム
WO2011064938A1 (ja) 2009-11-25 2011-06-03 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP2014164126A (ja) 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析方法、装置、及びプログラム
WO2014147785A1 (ja) 2013-03-21 2014-09-25 富士通株式会社 動作検知装置,動作検知方法,プログラム及び記録媒体
WO2015059947A1 (ja) 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
JP2016065924A (ja) 2014-09-24 2016-04-28 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
US20180166066A1 (en) 2016-12-14 2018-06-14 International Business Machines Corporation Using long short-term memory recurrent neural network for speaker diarization segmentation
JP2018155939A (ja) 2017-03-17 2018-10-04 ヤフー株式会社 生成装置、生成方法および生成プログラム

Also Published As

Publication number Publication date
SG10201809737UA (en) 2020-06-29
JP2020071866A (ja) 2020-05-07
US11087746B2 (en) 2021-08-10
US20200143796A1 (en) 2020-05-07

Similar Documents

Publication Publication Date Title
US20210074315A1 (en) Augmented multi-tier classifier for multi-modal voice activity detection
EP3791392B1 (en) Joint neural network for speaker recognition
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
US8558952B2 (en) Image-sound segment corresponding apparatus, method and program
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
CN113343831A (zh) 视频中说话人分类方法、装置、电子设备和存储介质
JP7475423B2 (ja) ビデオからの同期した音声生成
KR20150031896A (ko) 음성인식장치 및 그 동작방법
JP2024516815A (ja) エピソード的コンテンツをサポートする話者ダイアライゼーション
US11461948B2 (en) System and method for voice driven lip syncing and head reenactment
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
CN110503957A (zh) 一种基于图像去噪的语音识别方法及装置
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
JP7178331B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN118338184B (zh) 基于aigc的耳机智能降噪方法及装置
KR102673384B1 (ko) 딥러닝 기반 구음 장애 분류 장치, 시스템의 제어 방법, 및 컴퓨터 프로그램
CN121000952A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
CN115331676A (zh) 一种结合语音和图像的字符记录方法及执行芯片
US20090150164A1 (en) Tri-model audio segmentation
JP2022086961A (ja) 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム
CN115022733B (zh) 摘要视频生成方法、装置、计算机设备及存储介质
Mondal et al. RespVAD: Voice activity detection via video-extracted respiration patterns
WO2023049407A1 (en) Target speaker mode

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190801

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220509

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221114

R150 Certificate of patent or registration of utility model

Ref document number: 7178331

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150