JP7178331B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP7178331B2 JP7178331B2 JP2019123828A JP2019123828A JP7178331B2 JP 7178331 B2 JP7178331 B2 JP 7178331B2 JP 2019123828 A JP2019123828 A JP 2019123828A JP 2019123828 A JP2019123828 A JP 2019123828A JP 7178331 B2 JP7178331 B2 JP 7178331B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- determination
- time
- model
- time period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Description
処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置において、
相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを前記第2時系列データとして生成する、
第1判定手段と、
前記第1判定手段により生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第2判定結果として生成する第2判定手段と、
を備え、
前記第2判定手段は、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する。
例えば、本発明の情報処理装置の一実施形態にかかる音声判定装置(例えば、図3の音声判定装置1)は、図1に示すように、存在有無の目標対象として、人の声を採用している。音声判定装置は、音声データD1に対して次に述べるような各種処理を施すことで、所定の時間帯t2における人の声の存在確率として、合成確率D4を出力する。
同様に、音声判定装置は、時間帯t2の時分割データD2-2と、時間帯t3の時分割データD2-3の夫々を、第1モデルM1を用いて判定し、夫々の判定結果として、第1モデルM1と夫々の時間に依存する確率D3-12及びD3-13の夫々を出力する。
なお、詳細については図2等を用いて後述するが、第1判定で用いるモデルの個数及び種類は、特に図1に限定されず、任意でよい。
即ち、第2判定処理においては、音声判定装置は、モデルと時間の夫々に依存する確率D3-11乃至D3-13(第1モデルM1の夫々の判定結果を示す時系列のデータ)と、モデルと時間の夫々に依存する確率D3-21乃至D3-23(第2モデルM2の夫々の判定結果を示す時系列のデータ)との集合体を、合成モデルCMを用いて合成して判定し、その判定結果として、時間帯t2における合成確率D42を出力する。
この時間帯t2における合成確率D42に基づいて、当該時間帯t2に人の声が存在するか否かが判定される。
当該時系列データD2に対する第1判定処理の結果である、時間の夫々とモデルの夫々に依存する確率の各フレームの集合体を、「モデルと時間に依存する確率の時系列データD3」と呼ぶ。
ここで、モデルと時間に依存する確率の時系列データD3のうち、第1モデルに依るものを、「モデルと時間に依存する確率の時系列データD3-1」と呼ぶ。同様に、モデルと時間に依存する確率の時系列データD3のうち、第2モデルに依るものを、「モデルと時間に依存する確率の時系列データD3-2」と呼ぶ。
また、モデルと時間に依存する確率の時系列データD3は、時間と第1モデルに依存する確率の時系列データD3-1と、時間と第2モデルに依存する確率の時系列データD3-2から構成される。
ここで、時間と第1モデルに依存する確率の時系列データD3-1は、時間の夫々と第1モデルに依存する確率D3-11乃至D3-13から構成される。同様に、時間と第2モデルに依存する確率の時系列データD3-2は、時間の夫々と第2モデルに依存する確率D3-21乃至D3-23から構成される。
即ち、図2の例とは、図1の情報処理の例に対して、更に多数の時系列データと、更に多数のモデルを用いた場合の情報処理の詳細の流れの例である。
即ち、図1の例では、音声判定装置は、人の声が少なくとも一部の時間帯において含まれ得る音声データD1を、時間帯t1乃至t3に区分して、3つの時分割データD2-1乃至D2-3を生成していた。これに対して、図2の例では、音声判定装置は、音声データD1を、時間帯t-4乃至t4に区分して、9つの時分割データD2(t-4)乃至D2(t4)を生成している。
また、図1の例では、音声判定装置は、第1判定処理において、第1モデルと第2モデルの2つのモデルを用いていた。これに対して、図2の例では、音声判定装置は、モデルMa乃至Mfの6つのモデルを用いている。
なお、時間帯t-4乃至t4の夫々の時間長さ(フレーム長)は、図2の例では0.1秒とされている。
即ち、音声判定装置は、時系列データD2の夫々をモデルMa乃至Mfの夫々に入力させる。
モデルMaと時間の夫々に依存する確率の時系列データD3-aは、音声データD1と同様に時間帯t-4乃至t4の夫々に区分されたグラフとして表現することができる。例えば、図2に「モデルMa確率」として示すように、横軸に「時間」、縦軸に「予測された確率」をとる平面に描画されるグラフとして、モデルMaと時間の夫々に依存する確率の時系列データD3-aは表現することができる。
この図2に示すグラフの例によれば、モデルMaでの判定結果は、音声データD1に対して、時間帯t-4乃至t-2の間において人の声が含まれていた可能性が高く、時間帯t-1乃至t3において音声データD1に人の声が含まれていない可能性が高く、かつ時間帯t4において人の声が含まれている可能性が高い、という結果であることを示している。
このように、音声判定装置は、時間帯t-4乃至t4の夫々について時分割データD2(t-4)乃至D2(t4)の夫々を、モデルMaを用いて判定し、夫々の判定結果として、モデルの夫々と時間の夫々に依存する確率の時系列データD3-aを出力する。
モデルMa乃至Mfの夫々は、例えば、機械学習で用いられるモデルである、HMM、SVM、Gradient Boosting、CNN(Convolutional Neural Network)、CNN-biRNN(0.32sec window)、CNN-biRNN(0.96sec window)、の夫々で構成されている。
ここで、CNN-biRNNは、CNNに対し、RNN(Recurrent Neural Networks)において未来の情報を用いて精度を向上するモデルであるbiRNN(Bidirectional RNN)を適用したものである。CNN-biRNNは、0.32sec windowと0.96sec windowの2つのパラメータをとっている。
即ち、相互に特徴が異なるVAD判定器とは、夫々のモデルを構成する機械学習のモデルが違うことに限らず、windowの違い等、パラメータが違うことに依るものも含む広義な概念である。また、言うまでもないが、上述の機械学習のモデルは一例に過ぎない。即ち、上述のもの以外の機械学習のモデルを採用してもよいし、更に言えば、機械学習のモデルに限らず、所定のアルゴリズムにより判定を行う判定器を採用してもよい。
次に、音声判定装置は、第2判定処理を実行する。
即ち、音声判定装置は、モデルと時間に依存する確率の時系列データD3を合成モデルCMを用いて判定し、その判定結果として、時間帯t0についての合成確率D4(Combined Probability (t0) D4)を出力する。
なお、アンサンブル学習型ニューラルネットワークやGradient Boostingは一例に過ぎず、これら以外の機械学習の手法を適用してもよい。更に言えば、合成モデルCMは、機械学習のモデルに限らず、所定のアルゴリズムにより判定を行う判定器を採用してもよい。
図3は、本発明の一実施形態にかかる情報処理システムの構成の例を示す図である。
音声学習装置3は、所定区間(フレーム)毎に人の声の存在確率を判定することについて機械学習を行うことで、モデル(特に上述の図1や図2の合成モデルCM)を生成又は更新して、モデルDB2に格納する。音声学習装置3の機能的構成や処理の詳細については、図7等を参照して後述する。
CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
出力部16は、ディスプレイやスピーカ等で構成され、画像や音声を出力する。
入力部17は、キーボードやマウス等で構成され、ユーザの指示操作に応じて各種情報を入力する。
記憶部18は、ハードディスク等で構成され、各種情報のデータを記憶する。
ドライブ20には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ20によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。また、リムーバブルメディア31は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
また、説明の便宜上、音声学習装置3は、音声判定装置1とは別途設けるものとしたが、特にこれに限定されず、音声学習装置3と、音声判定装置1との各機能を1台の情報処理装置に集約してもよい。
音声判定装置1のCPU11においては、解析データ取得部101と、時系列分割部102と、第1判定部103-1乃至103-mと、第2判定部104とが機能する。ここで、mは、第1判定処理に用いるモデルの個数、即ち「相互に特徴が異なるVAD判定器(モデル)」の個数であり、図1の例では2であり、図2の例では6である。
第1判定モデルDB301には、第1判定部103-1乃至103-mの夫々で用いられるm個の「相互に特徴が異なるVAD判定器(モデル)」が格納されている。
また、第2判定モデルDB302には、第2判定部104で用いられる合成モデルCMが格納されている。
ここで、nは、時系列データD2に含める時分割データの個数、即ち時間帯(フレーム)の個数であり、図1の例では3個であり、図2の例では9個である。
即ち、1個の「確率の時系列データD3」は、n個の時間帯(フレーム)についての各確率の集合体のため、総計n×m個の確率の集合体が第2判定部104に供給される。
そこで、第2判定部104は、これら総計n×m個の確率の集合体に対し、第2判定処理を実行する。
即ち、第2判定部104は、機械学習により得られた(又は更新された)合成モデルCMを第2判定モデルDB302から取得する。第2判定部104は、合成モデルCMのモデルを用いる判定の処理を実行し、その判定結果として、n個の各時間帯のうち所定の(代表する)時間帯(例えば上述の図1の例では時間帯t2であり、図2の例では時間帯t0である)について合成確率D4を出力する。
換言すると、ある1つのモデルしか用いない場合、当該モデルの特性を直接的に最終的な確率に反映してしまうというデメリットが生じる。このようなデメリットを解消すべく、第2判定部104を採用している。
具体的な利用方法の一例は、以下の通りである。
例えば、映画等の字幕作成をする場合において、字幕を作成する作業を行う作業者は、音声データD1をそのまま利用するのではなく、VAD判定による会話の開始点や終了点を効率的に抽出すべく、合成確率D4の時系列データを利用することができる。これにより、作業者は、人の声等の抽出作業の負担を減らすことができ、例えば、短時間で作業を完了することができる。
換言すれば、通常であれば作業者は、単に音声(上述の具体例にあわせて音声データD1に対応する音声とする)を含む映像を視聴して字幕作成を行っていた。そこで、作業者は、合成確率D4の時系列データを適切に利用することで、会話の開始点や終了点を効率的に抽出することができるようになり、その結果として、負担を減らすことができる。
これにより、時間帯の夫々において会話がなされているか否かがより精度よく作業者に伝われることになるため、作業者は従来より効率的かつ低負担で作業を行うことができるようになる。
なお、会話が切れているのか、それとも、話者が会話中に一呼吸入れているのかについての判定の精度は充分ではない可能性もあり得る。そこで、このような場合には、合成確率D4は、例えば以下のように利用することもできる。
具体的に例えば、作業者は、音声データD1の波形に対して合成確率D4の重みづけをした波形を用いることもできる。これにより、作業者は、夫々の時間帯に人の声が含まれているかの情報(合成確率D4)を活用しつつ、人の声が含まれていないと判定された場合には、その時間の音声を聞いて確認することもできる。そして、作業者は、人の声が含まれていないのは、会話が終了したのか、それとも、話し手が会話中に一呼吸入れているのか等の判断をすることができる。
判定処理とは、音声が複数のフレームに区分された場合において、人の声の存在確率をフレーム毎に求めることで、人の声の存在有無を判定する処理である。
図6は、図4の機能的構成を有する音声判定装置により実行される判定処理の流れの一例を説明するフローチャートである。
即ち、第1判定部103-1乃至103-mの夫々は、m個のモデルのうちの自身が用いる1個を第1判定モデルDB301から取得して、取得したモデルを用いる第1判定処理を時系列データD2に対して夫々施すことで、モデルと時間に依存する確率の時系列データD3-1乃至D3-mの夫々を生成する。
これにより、総計n×m個の確率の集合体としての、モデルと時間に依存する確率の時系列データD3が生成される。
図7は、図3の音声学習装置の機能的構成の一例を示す機能ブロック図である。
なお、学習データ取得部111は、学習の支援として、学習用音声データを構成する夫々の時間帯(フレーム)毎に、実際に音声が含まれているか否かの情報を取得し、当該情報を時系列分割部112に提供してもよい。
ここで、時系列分割部112は、学習用音声データの夫々の時間帯に実際に音声が含まれているか否かの情報を提供された場合、時系列データを構成する各時分割データ毎に、音声が含まれているか否かの情報を付与して、第1学習部113及び第2学習部114に提供してよい。
第1判定モデル学習部121-K(Kは、1乃至mの内の任意の整数値)は、時系列分割部102から提供される時系列データを構成するn個の時分割データ(フレームのデータ)の夫々を用いて、m個のモデルのうちk番目のものを用いる第1判定モデルについての学習処理を実行する。
この学習処理の結果として、音声判定装置1において第1判定処理に用いられるモデルのうち、k番目のモデルが生成又は更新される。生成又は更新されたk番目のモデルは、第1判定モデルDB301に格納される。
第2判定モデル学習部132は、第1判定部131-1乃至131-mから提供される総計n×m個の確率の集合体である、m個の「確率の時系列データ」に対して、第2判定モデルの学習処理を実行する。
この学習処理の結果として、音声判定装置1において第2判定処理に用いられる合成モデルCMが生成又は更新される。生成又は更新された合成モデルCMは、第2判定モデルDB302に格納される。
学習処理とは、音声判定装置1において用いられるモデルに関する学習の処理である。
図8は、図7の機能的構成を有する音声学習装置により実行される学習処理の流れの一例を説明するフローチャートである。
この第1判定モデル学習の結果として、音声判定装置1において第1判定処理に用いられるm個のモデルの夫々が生成又は更新される。生成又は更新されたm個のモデルの夫々は、第1判定モデルDB301に格納される。
即ち、第1判定部131-Kは、m個のモデルのうちk番目のモデルを第1判定モデルDB301から取得する。第1判定部131-Kは、ステップS12で得られた時系列データを構成するn個の時分割データ(フレームのデータ)の夫々に対して、k番目のモデルを用いて、第1判定処理を実行する。
第2判定モデル学習部132は、m個の第1判定部131-1乃至131-mの夫々において第1判定処理が実行された結果得られるm個の「確率の時系列データ」を取得する。即ち、1個の「確率の時系列データ」は、n個の時間帯(フレーム)についての各確率の集合体のため、総計n×m個の確率の集合体が第2判定モデル学習部132に提供される。
第2判定モデル学習部132は、第1判定部131-1乃至131-mから提供される総計n×m個の確率の集合体である、m個の「確率の時系列データ」に対して、第2判定モデルの学習処理を実行する。
この学習処理の結果として、音声判定装置1において第2判定処理に用いられる合成モデルCMが生成又は更新される。生成又は更新された合成モデルCMは、第2判定モデルDB302に格納される。
更に言えば、判定するデータは音を例として説明を行ったが、特にこれに限定されない。即ち、例えば、映像データの画像を判定対象としてもよい。即ち、例えば、映像データを縦と横と時間の観点からフレームに分割し、人や車両を目標対象として、映像中に目標対象が存在する確率を判定するものとしてもよい。更に言えば、映像と音声を組み合わせて判定を行ってもよい。
即ち、判定の対象である時間帯t2の前後の時間帯のうち少なくとも一方を含む態様として、例えば、時系列データD2は、時間帯t2及びt3の2つに分割されたフレームのデータから構成されるものであってよい。
更に言えば、時系列データD2は、必ずしも連続した時間帯のフレームのデータで構成される必要はなく、連続していない時間帯(例えば、時間帯t1及びt3)のフレームのデータのみにより構成されてもよい。
即ち、上述の実施形態で説明した学習は、他の機械学習の手法を用いて実行されてもよいし、機械学習に分類されない他のアルゴリズムにより判定を行う判定器であれば足る。更に言えば、第1判定器に、いくつかの判定器の結果を合成した結果を出力する判定器、即ち上述の例における第2判定部104に相当する判定器であってよい。
即ち、上述の実施形態で説明した学習は、他の機械学習の手法を用いて実行されてもよいし、機械学習に分類されない他のアルゴリズムにより判定を行う判定器であれば足る。
即ち、例えば、単に総計n×m個の確率の集合体としての、モデルと時間に依存する確率の時系列データD3の平均値をとるものでもよい。
換言すると、図5及び図7の機能的構成は例示に過ぎず、特に限定されない。
即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図5及び図7の例に限定されない。また、機能ブロックの存在場所も、図5及び図7に特に限定されず、任意でよい。例えば、音声判定装置1の機能ブロックを音声学習装置3等に移譲させてもよい。また、音声学習装置3の機能ブロックを音声判定装置1等に移譲させてもよい。更に言えば、音声判定装置1と音声学習装置3は、同じハードウェアでもよい。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。
また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
即ち、本発明が適用される情報処理装置(例えば図3等の音声判定装置1)は、
処理対象のデータ(例えば、図1の音声データD1)の所定時間帯における目標対象(例えば人の声)の存在確率を求める情報処理装置において、
相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準(例えば図1の第1モデルM1と第2モデルM2との夫々に基づく判定基準や、図2のモデルMa乃至Mfの夫々に基づく判定基準)毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データ(例えば図1等の時系列データD2)として前記処理対象のデータから取得して、
前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを前記第2時系列データとして生成する(例えば図1の例ではm=2個の確率の時系列データD3-1,D3-2を生成し、図2の例ではm=6個の確率の時系列データD3-a乃至D3-fを生成する)、
第1判定手段(例えば図5の第1判定部103)と、
前記第1判定手段により生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率(例えば図1や図2の合成確率D4)を、第2判定結果として生成する第2判定手段(例えば図5の第2判定部104)と、
を備え、
前記第2判定手段は、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果(例えば図7の音声学習装置1により学習された結果)として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する、
情報処理装置であれば足りる。
更に、前記所定時間帯の第1時系列データとして、前記所定時間帯とは異なる時間に基づいて区切られた前記単位データを少なくとも含む1個以上の前記単位データを、前記処理対象のデータから取得することができる。
しかしながら、上述したように、処理対象のデータは、音声データのみならず画像データ等他種のデータでもよい。例えば画像データについては、目標対象は画像に含まれるオブジェクトであり、オブジェクトの存在有無は、時間方向だけではなく空間方向(1枚の静止画像内の上下左右方向)でも検出し得る。つまり、映像データであれば、目標対象のオブジェクトは、時間方向においてどのフレームに存在するのか否かの検出の他、所定時刻の1枚のフレーム(1枚の静止画)のなかでどの位置(例えば画像の右端等の空間方向の位置)に存在するのかという検出も可能になる。
したがって、情報処理装置は、目標対象の存在確率は、処理対象のデータ内で求める必要は特になく、時間の次元を少なくとも含むN次元空間(Nは1以上の整数値)内の、対象座標における目標対象の存在確率を求めてもよい。ここで、空間方向であれば、水平方向と垂直方向の2次元が、N次元の中に含まれる。
つまり、本発明が適用される情報処理装置は、次のような構成を有する各種各様の実施形態を取ることができる。
時間の次元を少なくとも含むN次元空間(Nは1以上の整数値)内の、対象座標における目標対象の存在確率を求める情報処理装置において、
前記N次元空間内の所定座標におけるデータ(例えば動画データを構成する各フレームのうち、画素又は複数画素からなるブロックのデータ)を単位データとして、前記所定座標における前記単位データと、前記n次元空間における前記所定座標から一定範囲内の座標(例えば、空間方向でいえば、所定時刻の1枚のフレームにおける上下左右方向の画素又はブロックの座標)における前記単位データとを含めた、n個(nは2以上の整数値)の単位データの集合(画素又はブロックの集合体)を、前記所定座標の第1情報群として生成する生成手段と、
前記所定座標の第1情報群を構成する前記n個の単位データの夫々に対する所定の判定基準によるn個の判定結果の集合体である第2情報群を、相互に特徴が異なるm個(mは2以上の整数値)の判定基準の夫々を用いて生成する第1判定手段と、
前記第1判定手段により前記m個の判定基準により夫々生成された前記第2情報群に基づいて、前記N次元空間内の前記所定座標における前記目標対象の存在確率を、第2判定結果として生成する第2判定手段と、
を備える情報処理装置であってもよい。
Claims (4)
- 処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置において、
相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを第2時系列データとして生成する、
第1判定手段と、
前記第1判定手段により生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第2判定結果として生成する第2判定手段と、
を備え、
前記第2判定手段は、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する、
情報処理装置。 - 前記第1判定手段は、
前記所定時間帯の第1時系列データとして、前記所定時間帯とは異なる時間に基づいて区切られた前記単位データを少なくとも含む1個以上の前記単位データを、前記処理対象のデータから取得する、
請求項1に記載の情報処理装置。 - 処理対象のデータの所定時間帯における目標対象の存在確率を求める情報処理装置が実行する情報処理方法において、
相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを第2時系列データとして生成する、
第1判定ステップと、
前記第1判定ステップにより生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第2判定結果として生成する第2判定ステップと、
を備え、
前記第2判定ステップは、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する、
情報処理方法。 - 処理対象のデータの所定時間帯における目標対象の存在確率を求めるコンピュータに、
相互に特徴が異なるm個(mは2以上の整数値)の第1判定基準毎に、
時間に基づいて区切られるデータを単位データとして、前記所定時間帯に基づいて1個以上の前記単位データを、前記所定時間帯の第1時系列データとして前記処理対象のデータから取得して、
前記所定時間帯の第1時系列データに対する前記第1判定基準の判定結果を示す1個以上のデータを第2時系列データとして生成する、
第1判定ステップと、
前記第1判定ステップにより生成された前記m個の前記第2時系列データに基づいて、前記所定時間帯における前記目標対象の存在確率を、第2判定結果として生成する第2判定ステップと、
を含み、
前記第2判定ステップは、学習用のデータに対する前記m個の前記第1判定基準の夫々の判定結果を用いて学習された結果として生成又は更新される第2判定基準を用いて、前記第2判定結果を生成する、
制御処理を実行させるプログラム。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| SG10201809737U | 2018-11-01 | ||
| SG10201809737UA SG10201809737UA (en) | 2018-11-01 | 2018-11-01 | Information processing device, information processing method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020071866A JP2020071866A (ja) | 2020-05-07 |
| JP7178331B2 true JP7178331B2 (ja) | 2022-11-25 |
Family
ID=70458677
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019123828A Active JP7178331B2 (ja) | 2018-11-01 | 2019-07-02 | 情報処理装置、情報処理方法及びプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11087746B2 (ja) |
| JP (1) | JP7178331B2 (ja) |
| SG (1) | SG10201809737UA (ja) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| SG10201809737UA (en) * | 2018-11-01 | 2020-06-29 | Rakuten Inc | Information processing device, information processing method, and program |
| CN114553315B (zh) * | 2022-02-28 | 2023-07-18 | 常州京信新一代信息技术研究院有限公司 | 基于CNN-biRNN的光纤非线性均衡方法及系统 |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010266974A (ja) | 2009-05-13 | 2010-11-25 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
| WO2011064938A1 (ja) | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
| JP2014164126A (ja) | 2013-02-25 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号分析方法、装置、及びプログラム |
| WO2014147785A1 (ja) | 2013-03-21 | 2014-09-25 | 富士通株式会社 | 動作検知装置,動作検知方法,プログラム及び記録媒体 |
| WO2015059947A1 (ja) | 2013-10-22 | 2015-04-30 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
| JP2016065924A (ja) | 2014-09-24 | 2016-04-28 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 |
| US20180166066A1 (en) | 2016-12-14 | 2018-06-14 | International Business Machines Corporation | Using long short-term memory recurrent neural network for speaker diarization segmentation |
| JP2018155939A (ja) | 2017-03-17 | 2018-10-04 | ヤフー株式会社 | 生成装置、生成方法および生成プログラム |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02195400A (ja) * | 1989-01-24 | 1990-08-01 | Canon Inc | 音声認識装置 |
| WO2009004727A1 (ja) * | 2007-07-04 | 2009-01-08 | Fujitsu Limited | 符号化装置、符号化方法および符号化プログラム |
| US9047878B2 (en) * | 2010-11-24 | 2015-06-02 | JVC Kenwood Corporation | Speech determination apparatus and speech determination method |
| GB201322377D0 (en) * | 2013-12-18 | 2014-02-05 | Isis Innovation | Method and apparatus for automatic speech recognition |
| WO2017216786A1 (en) * | 2016-06-14 | 2017-12-21 | Omry Netzer | Automatic speech recognition |
| US20190034542A1 (en) * | 2017-07-26 | 2019-01-31 | Scripps Networks Interactive, Inc. | Intelligent agent system and method of accessing and delivering digital files |
| SG10201809737UA (en) * | 2018-11-01 | 2020-06-29 | Rakuten Inc | Information processing device, information processing method, and program |
-
2018
- 2018-11-01 SG SG10201809737UA patent/SG10201809737UA/en unknown
-
2019
- 2019-07-02 JP JP2019123828A patent/JP7178331B2/ja active Active
- 2019-07-24 US US16/520,614 patent/US11087746B2/en active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010266974A (ja) | 2009-05-13 | 2010-11-25 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
| WO2011064938A1 (ja) | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
| JP2014164126A (ja) | 2013-02-25 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号分析方法、装置、及びプログラム |
| WO2014147785A1 (ja) | 2013-03-21 | 2014-09-25 | 富士通株式会社 | 動作検知装置,動作検知方法,プログラム及び記録媒体 |
| WO2015059947A1 (ja) | 2013-10-22 | 2015-04-30 | 日本電気株式会社 | 音声検出装置、音声検出方法及びプログラム |
| JP2016065924A (ja) | 2014-09-24 | 2016-04-28 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 |
| US20180166066A1 (en) | 2016-12-14 | 2018-06-14 | International Business Machines Corporation | Using long short-term memory recurrent neural network for speaker diarization segmentation |
| JP2018155939A (ja) | 2017-03-17 | 2018-10-04 | ヤフー株式会社 | 生成装置、生成方法および生成プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| SG10201809737UA (en) | 2020-06-29 |
| JP2020071866A (ja) | 2020-05-07 |
| US11087746B2 (en) | 2021-08-10 |
| US20200143796A1 (en) | 2020-05-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20210074315A1 (en) | Augmented multi-tier classifier for multi-modal voice activity detection | |
| EP3791392B1 (en) | Joint neural network for speaker recognition | |
| JP6993353B2 (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
| US8558952B2 (en) | Image-sound segment corresponding apparatus, method and program | |
| JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
| CN113343831A (zh) | 视频中说话人分类方法、装置、电子设备和存储介质 | |
| JP7475423B2 (ja) | ビデオからの同期した音声生成 | |
| KR20150031896A (ko) | 음성인식장치 및 그 동작방법 | |
| JP2024516815A (ja) | エピソード的コンテンツをサポートする話者ダイアライゼーション | |
| US11461948B2 (en) | System and method for voice driven lip syncing and head reenactment | |
| Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
| JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
| KR102564570B1 (ko) | 멀티모달 감성 분석 시스템 및 방법 | |
| CN110503957A (zh) | 一种基于图像去噪的语音识别方法及装置 | |
| CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
| JP7178331B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
| CN118338184B (zh) | 基于aigc的耳机智能降噪方法及装置 | |
| KR102673384B1 (ko) | 딥러닝 기반 구음 장애 분류 장치, 시스템의 제어 방법, 및 컴퓨터 프로그램 | |
| CN121000952A (zh) | 视频生成方法、装置、电子设备、存储介质和程序产品 | |
| CN115331676A (zh) | 一种结合语音和图像的字符记录方法及执行芯片 | |
| US20090150164A1 (en) | Tri-model audio segmentation | |
| JP2022086961A (ja) | 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム | |
| CN115022733B (zh) | 摘要视频生成方法、装置、计算机设备及存储介质 | |
| Mondal et al. | RespVAD: Voice activity detection via video-extracted respiration patterns | |
| WO2023049407A1 (en) | Target speaker mode |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190801 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220509 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220509 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220928 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221018 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221114 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7178331 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |