JP6563080B2 - プログラム - Google Patents

プログラム Download PDF

Info

Publication number
JP6563080B2
JP6563080B2 JP2018108947A JP2018108947A JP6563080B2 JP 6563080 B2 JP6563080 B2 JP 6563080B2 JP 2018108947 A JP2018108947 A JP 2018108947A JP 2018108947 A JP2018108947 A JP 2018108947A JP 6563080 B2 JP6563080 B2 JP 6563080B2
Authority
JP
Japan
Prior art keywords
learning
section
speech
tag
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018108947A
Other languages
English (en)
Other versions
JP2019028446A (ja
Inventor
高史 前角
高史 前角
悠哉 藤田
悠哉 藤田
健一 磯
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018108947A priority Critical patent/JP6563080B2/ja
Publication of JP2019028446A publication Critical patent/JP2019028446A/ja
Application granted granted Critical
Publication of JP6563080B2 publication Critical patent/JP6563080B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明はプログラムに関する。
近年、自動音声認識(Automatic Speech Recognition)を利用した技術が知られてい
る。このような自動音声認識の技術の一例として、利用者の発話をテキストデータに変換
し、変換後のテキストデータを用いて各種の情報処理を実行する技術が知られている。ま
た、認識精度を改善するため、入力された音響信号から、利用者の発話が含まれる音声区
間を検出する音声区間検出(Voice Activity Detection)の技術が知られている。
特開2008−139654号公報
しかしながら、従来技術では、認識精度の向上が難しい場合がある。
例えば、音声区間を検出する技術として、ステートマシンを用いた技術が考えられる。
例えば、このような技術では、処理対象となるフレームが音声区間であるか、非音声区間
であるか、音声区間の始端であるか、音声区間の終端であるかを示すステートマシンを準
備する。また、このような技術では、DNN(Deep Neural Network)等のモデルを用
いて、音響信号から処理対象となるフレームの特徴を検出し、検出した特徴に基づいて、
ステートマシンの状態を遷移させることで、音響信号から音声区間を検出する。
このようなステートマシンを用いた技術において、認識精度を向上させるには、ステー
トマシンの状態を遷移させる際の各種のパラメータをチューニングすることとなる。しか
しながら、ステートマシンの最適化における目的関数は、パラメータに対して微分可能で
はないため、手動で調整しなければならず、手間がかかる。
本願は、上記に鑑みてなされたものであって、音声区間の認識精度を容易に向上させる
ことを目的とする。
本願に係る検出装置は、音響信号を取得する取得部と、音響信号のうち認識対象となる
音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の
始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得された音響信号
から前記音声区間を検出する検出部とを有することを特徴とする。
実施形態の一態様によれば、音声区間の認識精度を容易に向上させることができる。
図1は、実施形態に係る情報提供装置が実行する検出処理の一例を示す図である。 図2は、実施形態に係る情報提供装置の構成例を示す図である。 図3は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。 図4は、実施形態に係る学習モデルが出力する各タグの値の一例を説明する図である。 図5は、実施形態に係る学習モデルのバリエーションの一例を説明する図である。 図6は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。 図7は、実施形態に係る情報提供装置が実行する検出処理の流れの一例を示すフローチャートである。 図8は、ハードウェア構成の一例を示す図である。
以下に、本願に係る検出装置、検出方法、検出プログラム、モデルおよび学習用データ
を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説
明する。なお、この実施形態により本願に係る検出装置、検出方法、検出プログラム、モ
デルおよび学習用データが限定されるものではない。また、各実施形態は、処理内容を矛
盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において
同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.検出装置としての情報提供装置〕
まず、図1を用いて、情報提供装置10が実行する検出処理の一例について説明する。
図1は、実施形態に係る情報提供装置が実行する検出処理の一例を示す図である。図1で
は、情報提供装置10によって、利用者の発話や背景となる音声等といった各種音響が含
まれる音響信号を取得すると、取得した音響信号のうち利用者の発話が含まれる部分であ
る音声区間を検出し、検出結果に応じた処理結果を利用者に対して提供する処理の一例に
ついて説明する。
図1に示す情報提供装置10は、検出処理を行う情報処理装置であり、例えば、サーバ
装置やクラウドシステム等により実現される。また、情報提供装置10は、発話を含む音
響情報を受付けると、受付けた音響情報から音声区間を特定し、特定した音声区間に含ま
れる音の周波数特性から、利用者の発話をテキストデータに変換する。そして、情報提供
装置10は、変換後のテキストデータを用いて、各種の処理を実行し、実行結果を利用者
に対して提供する。すなわち、情報提供装置10は、音声認識を用いた各種の処理を実行
する。
なお、情報提供装置10は、テキストデータを用いた任意の処理を実行してよい。例え
ば、情報提供装置10は、テキストデータを用いて、ウェブ検索、路線検索、天気予報の
検索等といった各種の検索処理を実行してもよく、電子商店街への注文、家電装置の制御
等、任意の処理を実行してもよい。また、情報提供装置10は、各種処理を実行する外部
サーバ(図示は、省略)に対してテキストデータを送信し、外部サーバがテキストデータ
に基づいて実行した処理の結果を利用者に対して提供してもよい。また、かかる処理の結
果は、外部サーバから直接提供されてもよい。
〔1−1.検出処理について〕
ここで、利用者の発話に基づいて各種処理を実行する場合、発話が含まれる音響信号か
ら音声区間を抽出し、抽出した音声区間から発話を認識し、認識結果に応じた処理を実行
することとなる。このため、音響信号に含まれる音声区間を精度良く抽出できなかった場
合、発話の認識精度が低下する恐れがある。例えば、利用者が発話を行う場合には、促音
の前に現れるクロージャや言いよどみによる短い無音区間(ショートポーズ)が含まれる
場合がある。しかしながら、かかるショートポーズを音声区間の始端や終端として検出し
た場合、利用者の発話が分断されてしまい、適切な処理を実行することができなくなる場
合がある。また、音声認識を行う場合は、音声区間の検出における遅延を可能な限り低下
させるのが望ましい。
そこで、情報提供装置10は、以下の検出処理を実行する。まず、情報提供装置10は
、処理対象となる音響信号を取得する。そして、情報提供装置10は、音響信号のうち認
識対象となる音声が含まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて
、音声区間の始端および終端以外の区間の特徴とを学習した学習モデルを用いて、取得さ
れた音響信号から音声区間を検出する。
より具体的には、情報提供装置10は、音声区間の始端の特徴として、音声区間のうち
始端を含む所定の区間における音響信号の特徴を学習し、音声区間の終端の特徴として、
音声区間のうち終端を含む所定の区間における音響信号の特徴を学習した学習モデルを用
いて、取得された音響信号から音声区間を検出する。すなわち、情報提供装置10は、音
声区間の始端および終端といった音声区間に関する2つの情報のみならず、音声区間の始
端から終端の間(すなわち、音声区間の途中の区間)における特徴といった3つ目の情報
を学習した学習モデルを用いて、処理対象となる音響信号から音声区間の検出を行う。
〔1−2.情報提供装置が実行する処理の一例について〕
以下、図1を用いて、情報提供装置10が実行する処理の一例について説明する。なお
、以下の説明では、情報提供装置10が実行する処理として、モデルM1の学習を行う学
習処理と、学習を行ったモデルM1を用いて音声区間を検出する検出処理との一例につい
て説明する。
〔1−2−1.情報提供装置が実行する学習処理の一例について〕
まず、情報提供装置10は、学習モデルに音声区間の始端、終端、および途中の区間の
特徴を学習させる学習処理を実行する。例えば、情報提供装置10は、発話の始端を示す
始端タグと、発話の終端を示す終端タグと、発話のうち始端および終端以外の区間を示す
その他タグとが設定された音声データ(すなわち、音響信号)を学習データとし、学習デ
ータに含まれる音声データと各タグとの間の関係性を所定のモデルに学習させる(ステッ
プS1)。より具体的には、情報提供装置10は、音声区間の始端における周波数特性の
特徴と、音声区間の終端における周波数特性の特徴と、音響信号のうち音声区間の始端ま
たは終端以外の区間における周波数特性の特徴とをモデルM1に学習させる。
例えば、図1に示す例では、情報提供装置10は、学習データLD1を有する。学習デ
ータLD1には、複数のフレームからなる音声データと、各フレームが音声区間の始端で
あるか否かを示す始端タグ(すなわち、第1タグ)と、各フレームが音声区間の終端であ
るか否かを示す終端タグ(すなわち、第2タグ)とに加えて、各フレームが音声区間の始
端または終端以外の区間であるか否かを示すその他タグ(すなわち、第3タグ)とを有す
る。
より具体的な例を説明すると、音声データは、例えば、10ミリセカンドのフレームに
分割された音響信号であり、各フレームにおける音の周波数特性や音量を示す。また、音
声データの各フレームには、始端タグ、終端タグ、およびその他タグが設定されている。
例えば、あるフレームに含まれる音声データが、音声区間の始端から所定の範囲内(例え
ば、前後5フレーム)に収まれる場合には、始端タグの値が「1」となり、他のタグの値
が「0」となる。また、あるフレームに含まれる音声データが、音声区間の終端から所定
の範囲内に収まれる場合には、終端タグの値が「1」となり、他のタグの値が「0」とな
る。また、あるフレームに含まれる音声データが、音声区間の始端から所定の範囲内に含
まれず、かつ、音声区間の終端から所定の範囲内に含まれない場合は、その他タグの値が
「1」となり、他のタグの値が「0」となる。すなわち、その他タグは、音声区間のうち
始端または終端となる区間のみならず、音声区間以外の区間も示す情報となる。なお、図
1に示す例では、各タグの値が「1」となる期間のみを網掛けで示し、他の期間について
は、白抜きで記載した。
このように、情報提供装置10は、各フレームが音声区間の始端であるか否か、終端で
あるか否かといった情報に加えて、各フレームが音声区間であるか否かといった計6値の
ラベルが付された音声データを学習データとする。そして、情報提供装置10は、各フレ
ームにおける音声データと、各フレームの値との間の関係性を学習する。より具体的には
、情報提供装置10は、各フレームにおける音声データが示す音声の周波数特性と、各タ
グの値との間の関係性を学習する。
例えば、情報提供装置100は、複数のノードを多段に接続したニューラルネットワー
クをモデルM1として準備する。このようなモデルM1は、例えば、DNN(Deep Neur
al Network)等により実現される。例えば、図1に示す例では、モデルM1は、音声デ
ータを入力する入力層を有する。また、情報提供装置10は、入力層の出力をLSTM(
Long Short-Term Memory)の機能を有する中間層であるLSTM層に入力する構造を有
する。また、モデルM1は、LSTM層の出力に基づいて、入力された音声データが、始
端を含む確度、終端を含む確度、始端または終端以外の期間を含む確度を出力する出力層
を有する。ここで、確度とは、「状態の事後確率」又は「状態の尤度」等、対応する状態
である確かさを示す各種の数値やスコアを含む概念である。
なお、LSTM層は、畳み込みニューラルネットワークや、再帰型ニューラルネットワ
ークであってもよく、これら畳み込みニューラルネットワークや、再帰型ニューラルネッ
トワークの機能をさらに有していてもよい。例えば、LSTM層は、LSTMの機能を有
さない単純な多層のニューラルネットワークにより実現されてもよい。また、図1に示す
モデルM1の構造は、あくまで機能構成的な例を示すものであり、実際には、異なる構造
を有していてもよい。
このようなモデルM1において、出力層は、LSTM層が出力した情報に基づいて、入
力された音声データが音声区間の始端を含む確度である始端確度、入力された音声データ
が音声区間の終端を含む確度である終端確度および、入力された音声データが音声区間の
始端または終端以外となる確度であるその他確度を算出し、算出した各確度を出力する。
情報提供装置10は、このようなモデルM1に対して音声データを入力し、図1中(A
)に示すように、始端タグ、終端タグ、およびその他タグを出力層における損失関数を扱
うための教師データとして用いることで、モデルM1の学習を行う。より具体的には、情
報提供装置10は、モデルM1に音声データを入力した際に、教師データが示す音声デー
タの特徴を再現するように、モデルM1が有するノード間の接続係数(すなわち、ノード
間の値を伝達する際の重み)をバックプロパゲーション等の手法によって修正する。例え
ば、情報提供装置10は、中間層から出力されたデータと、教師データとを比較し、値が
異なる場合には、図1中(B)に示すように、中間層から出力されたデータが教師データ
の値と近くなるように中間層の接続係数を補正する。
例えば、情報提供装置10は、始端タグの値が「1」となり、終端タグおよびその他タ
グの値が「0」となる音声データをモデルM1に入力した場合は、始端確度の値が所定の
閾値τ以上となり、終端確度およびその他確度の値が所定の閾値τ未満となるように、中
間層が有する接続係数の再計算を行う。また、情報提供装置10は、出力層における損失
関数を扱う際に、教師データである各タグの値を用いる。
このような学習の結果、モデルM1は、音声区間の始端の特徴と、終端の特徴と、音声
区間の始端および終端以外の区間の特徴とを学習することとなる。換言すると、モデルM
1は、音声区間の始端の特徴と、終端の特徴と、音声区間の始端および終端以外の区間の
特徴とに応じた接続係数の組として学習することとなる。
以下、モデルM1の学習の一例について説明する。例えば、図1に示す音声データには
、音声区間の始端S1と終端E1とが存在する。このため、学習データLD1においては
、先頭フレームから始端S1よりも所定の数だけ前のフレームまでの期間TW1において
、その他タグのみが「1」の値をとり、始端タグおよび終端タグは「0」の値を取る。ま
た、学習データLD1においては、期間TW1に続く期間であって、始端S1から所定の
範囲内のフレームを含む期間TW2において、始端タグのみが「1」の値を取り、終端タ
グおよびその他タグは「0」の値を取る。
また、学習データLD1においては、期間TW2に続く期間であって、終端E1よりも
所定の数だけ前のフレームまでの期間TW3において、その他タグのみが「1」の値をと
り、始端タグおよび終端タグは「0」の値を取る。また、学習データLD1においては、
期間TW3に続く期間であって、終端E1から所定の範囲内のフレームを含む期間TW4
において、終端タグのみが「1」の値を取り、始端タグおよびその他タグは「0」の値を
取る。また、また、学習データLD1においては、期間TW4に続く期間であって、終端
フレームまでの期間TW5において、その他タグのみが「1」の値をとり、始端タグおよ
び終端タグは「0」の値を取る。
このような学習データLD1を用いて、情報提供装置10は、以下の学習処理を実行す
る。まず、情報提供装置10は、期間TW1に含まれるフレームの音声データを入力層か
ら入力する。そして、情報提供装置10は、モデルM1が出力する各確度の値が示す音声
データの特徴が、教師データとなる各タグの値が示す特徴と一致するように、バックプロ
パゲーション等の学習手法を用いて、モデルM1の接続係数を修正する。例えば、情報提
供装置10は、学習データLD1の先頭フレームから順番に各フレームの音声データを入
力する。そして、情報提供装置10は、期間TW1に含まれるフレームの各データを入力
した場合には、始端確度および終端確度の値が所定の閾値τ未満となり、その他タグの値
が所定の閾値τ以上となるように、モデルM1が有する接続係数を修正する。
同様に、情報提供装置10は、期間TW2に含まれるフレームの音声データを入力した
場合には、終端確度およびその他確度の値が所定の閾値τ未満となり、始端確度の値が所
定の閾値τ以上となるように、モデルM1が有する接続係数を修正する。また、情報提供
装置10は、期間TW3に含まれるフレームの音声データを入力した場合には、始端確度
および終端確度の値が所定の閾値τ未満となり、その他確度の値が所定の閾値τ以上とな
るように、モデルM1が有する接続係数を修正する。また、情報提供装置10は、期間T
W4に含まれるフレームの音声データを入力した場合には、始端確度およびその他確度の
値が所定の閾値τ未満となり、終端確度の値が所定の閾値τ以上となるように、モデルM
1が有する接続係数を修正する。また、情報提供装置10は、期間TW5に含まれるフレ
ームの音声データを入力した場合には、始端確度および終端確度の値が所定の閾値τ未満
となり、その他確度の値が所定の閾値τ以上となるように、モデルM1が有する接続係数
を修正する。
ここで、学習データLD1は、音声区間の始端や終端の特徴のみならず、始端や終端で
はない区間の特徴をも示す。より具体的には、学習データLD1は、音声区間より前の区
間や音声区間より後の区間、すなわち、無音の区間や背景音声のみの区間の特徴や、音声
区間内における特徴をも含むこととなる。このような学習データLD1の特徴を学習した
場合、モデルM1は、音声区間の始端や終端の特徴のみならず、音声区間ではない区間の
特徴や、音声区間のうち始端や終端以外の区間(以下、「音声区間内」と記載する。)の
特徴をも学習する。
例えば、学習データLD1の音声データを入力した際に、対応する教師データとなる始
端タグ、終端タグ、およびその他タグを再現するよう学習を行った場合、モデルM1は、
音声データの終端や始端のみならず、音声区間ではない区間の音声データの特徴や音声区
間内の音声データの特徴をも学習することとなる。すると、モデルM1は、始端の特徴や
終端の特徴のみならず、音声区間外の特徴や音声区間内の特徴をも考慮して、始端や終端
を検出することとなる。この結果、情報提供装置10は、始端や終端の特徴を学習させた
従来のモデルよりも、精度よく始端や終端を検出するモデルを生成することができる。
例えば、上述した学習処理を実行した場合、モデルM1はその他確度の値が所定の閾値
τ(以下、単に「τ」と記載する場合がある。)以上となるような場合には、始端確度や
終端確度がτ未満となるように接続係数の補正が行われる。ここで、学習データLD1に
おいては、始端S1から終端E1の間にショートポーズ等の無音区間が含まれている場合
であっても、その他タグの値が「1」となっている。このため、モデルM1は、ショート
ポーズ等の無音区間においても、その他確度の値をτ以上に保ち、始端タグや終端タグの
値をτ未満とするようになる。すなわち、モデルM1は、音声区間に含まれるショートポ
ーズ等の無音区間の特徴を、始端の特徴や終端の特徴とは異なる特徴として学習すること
となる。
このように、情報提供装置10は、始端タグと終端タグとに加えて、その他タグを含む
学習データLD1を用いてモデルM1を学習することで、モデルM1に対し、始端や終端
とは異なるが、特徴が始端や終端と類似する音声の特徴を学習させることができる。この
結果、情報提供装置10は、モデルM1による始端および終端の検出精度を向上させるこ
とができる。
なお、情報提供装置10は、LSTMの機能を有するモデルM1の学習を行う。この結
果、情報提供装置10は、始端や終端の検出精度をより向上させることができる。すなわ
ち、モデルM1は、過去に入力されたデータから、もっともらしいデータを予測して出力
することができるので、発話等、次のデータが過去のデータから確率的に予測されうる情
報の処理精度を考量させることができる。なお、以下の説明では、学習が行われたモデル
M1を学習モデルM1と記載する。
〔1−2−2.情報提供装置が実行する検出処理の一例について〕
続いて、情報提供装置10は、上述した学習処理により学習が行われた学習モデルM1
を用いた測定処理、すなわち、音声区間の始端と終端とを検出する検出処理を実行する。
まず、情報提供装置10は、マイク等を用いて、利用者の発話Aを含む音響信号を取得す
る(ステップS2)。そして、情報提供装置10は、学習モデルに音声データを入力する
ことで、利用者の発話の始端と終端とを検出する(ステップS3)。例えば、情報提供装
置10は、音響信号を複数のフレームに分割した音声データを生成する。そして、情報提
供装置10は、音声データを先頭フレームから順に学習モデルM1の入力層に入力する。
このような場合、情報提供装置10は、学習モデルM1に音声データを入力し、始端確
度、終端確度、およびその他確度を算出する。そして、情報提供装置10は、始端確度が
閾値τ以上となり、他の確度が閾値τに満たない場合は、始端タグの値「1」を出力し、
他のタグの値「0」を出力する。また、情報提供装置10は、終端確度が閾値τ以上とな
り、他の確度が閾値τに満たない場合は、終端タグの値「1」を出力し、他のタグの値「
0」を出力する。
また、情報提供装置10は、各フレームについて出力したタグの値から、音声区間の始
端から終端を検出する。例えば、情報提供装置10は、始端タグが「1」となった最初の
フレームから、終端タグが「1」となった最後のフレームまでの区間を音声区間として検
出する。なお、情報提供装置10は、このような処理以外にも、始端タグや終端タグの値
に基づいて音声区間を抽出するのであれば、任意のルールに基づいて、音声区間を抽出し
てもよい。例えば、情報提供装置10は、始端タグが「1」となった最初のフレームから
、終端タグが「1」となった最後のフレームまでのフレーム数が所定の閾値に満たなかっ
た場合、さらにその後で終端タグが「1」となったフレームまでを音声区間として抽出し
てもよい。
そして、情報提供装置10は、始端から終端までの範囲に含まれる音声、すなわち、音
声区間に含まれる音声に応じた応答を出力する(ステップS4)。例えば、情報提供装置
10は、音声区間に含まれる音声をテキストデータに変換し、変換後のテキストデータに
基づいて、路線検索等の各種の処理を実行し、実行結果を利用者に対して提供する。
〔1−3.音声区間について〕
ここで、上述した例では、情報提供装置10は、音響信号のうち利用者の発話を含む音
声区間の抽出を行った。ここで、情報提供装置10は、任意の粒度で設定された音声区間
を設定することができる。
例えば、情報提供装置10は、音響信号のうち音声認識に関する所定の要件を満たす音
声が含まれる区間の特徴を学習モデルM1に学習させてもよい。例えば、利用者の発話に
基づいて処理を実行する場合、かかる発話には処理の実行に必要な情報(例えば、主語と
目的語との組や検索に必要な各種のクエリを示す単語)が含まれる必要がある。そこで、
情報提供装置10は、学習データLD1として、音響信号のうち、利用者の発話の音声が
含まれる区間であって、音声認識結果を用いた処理において一つの単位として用いられる
利用者による発話が含まれる区間を音声区間として示す学習データLD1を準備し、かか
る学習データLD1を用いて、学習モデルM1の学習を行ってもよい。より具体的な例を
を挙げると、情報提供装置10は、音響信号に「横浜の」という発話に続いて所定期間以
内の無音状態が続いた後に「天気は?」といった発話が含まれる場合、「横浜の」という
音声の先頭部分から「天気は?」という音声の終端部分までを音声区間とする学習データ
LD1を用いて学習を行ってもよい。
このような学習データLD1を用いて学習が行われた学習モデルM1は、音声区間であ
って、音声認識結果を用いた処理において一つの単位として用いられる発話を含む音声区
間の特徴を学習することとなる。例えば、学習モデルM1は、ある単語の末尾にその単語
を目的語として示す「の」といった音声が含まれる場合は、その後に無音区間が含まれて
いたとしても、その無音区間の先に利用者の発話の続きがあると予測し、その無音区間が
音声区間中の無音区間であると推定する。この結果、学習モデルM1は、処理に必要なひ
とかたまりの発話を含む区間を音声区間として抽出することができる。
なお、上述した処理は、あくまで一例であり、情報提供装置10は、任意の粒度の発話
を含む音声区間を抽出するように、学習モデルM1の学習を行ってよい。すなわち、情報
提供装置10は、音声認識結果を用いた処理を基準として条件のみならず、例えば、音声
をテキストデータに変換する処理や、利用者が発話する言語の特性等に基づく条件で区切
られた音声区間の始端、終端およびその他の特徴を学習させてもよい。例えば、情報提供
装置10は、利用者が発話する言語に応じた文節を音声区間とする学習データLD1の学
習を行わせることで、利用者が発話する言語に応じた文節に応じた音声区間の始端、終端
、その他の特徴を学習モデルM1に学習させてもよい。
また、情報提供装置10は、どれくらいの長さの区間を音声区間とするかを学習モデル
M1に学習させてもよい。例えば、情報提供装置10は、音声区間の長さが所定の閾値を
超えないように、学習モデルM1のチューニングを行ってもよい。かかるチューニングは
、学習データLD1に設定する始端タグから終端タグまでの期間を所定の閾値以下とする
ことで、学習モデルM1に学習させてもよく、事後的に設定してもよい。例えば、情報提
供装置10は、始端から終端までの長さが所定の閾値を超え、かつ、出力層が算出した確
度の値に応じて、事後的に音声区間を分割してもよい。
ここで、情報提供装置10は、音声認識の対象としたい音声が含まれる範囲を音声区間
とし、かかる音声区間の特徴、すなわち、音声認識の対象としたい音声の特徴を学習させ
てもよい。例えば、音響信号には、認識対象としたい利用者の発話以外にも、他の利用者
の発話の音やテレビの音等といった背景音声が含まれる場合がある。ここで、認識対象と
したい利用者の発話と、他の利用者の発話との間には、音量の違いがあると予測され、認
識対象としたい利用者の発話とテレビの音との間には、周波数特性の違いがあると予測さ
れる。
そこで、情報提供装置10は、音声認識の対象としたい音声が含まれる範囲を音声区間
とする学習データLD1を用いて学習モデルM1の学習を行うことで、上述した各種背景
音声と音声認識の対象としたい音声との違いの特徴を学習モデルM1に学習させてもよい
。すなわち、情報提供装置10は、始端タグや終端タグに加え、その他タグを設定するこ
とで、各種背景音声が含まれる範囲の特徴、すなわち、音声認識の対象としたい音声とは
異なる音声の特徴を学習モデルM1に学習させることができる。この結果、情報提供装置
10は、音声認識の精度をさらに向上させることができる。
〔1−4.始端と終端との学習について〕
ここで、学習モデルM1は、測定時にLSTMを用いて将来の予測を行うこととなる。
そこで、情報提供装置10は、学習時において、未来の情報を入力することで、予測精度
を向上させてもよい。例えば、情報提供装置10は、あるフレーム(以下、「学習対象フ
レーム」と記載する。)における音声データとともに、学習対象フレームにおける始端タ
グや終端タグを教師データとして学習モデルM1を学習するのではなく、学習対象フレー
ムよりも先のフレームにおける始端タグや終端タグを教師データとして学習モデルM1の
学習を行ってもよい。
すなわち、情報提供装置10は、学習対象フレームよりも後のフレームの音響信号が音
声区間の始端であるか否かを示す始端タグと、学習対象フレームよりも後のフレームの音
響信号が音声区間の終端であるか否かを示す終端タグと、学習対象フレームが音声区間の
始端または終端以外の区間であるか否かを示すその他タグとの間の関係性を学習モデルM
1に学習させてもよい。例えば、情報提供装置10は、学習対象フレームよりも20フレ
ーム後の始端タグと終端タグとを教師データとして、学習モデルM1の学習を行ってもよ
い。
ここで、情報提供装置10は、学習対象フレームよりも所定の第1フレーム数だけ後の
フレームの音響信号が音声区間の始端であるか否かを示す始端タグと、学習対象フレーム
よりも所定の第2フレーム数だけ後のフレームであって、第1フレーム数よりも多い第2
フレーム数だけ後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと
、学習対象フレームが音声区間の始端または終端以外の区間であるか否かを示すその他タ
グとの間の関係性を学習モデルM1に学習させてもよい。例えば、情報提供装置10は、
学習対象フレームよりも20フレーム後の始端タグと、学習対象フレームよりも40フレ
ーム後の終端タグとを入力してもよい。
〔1−5.その他〕
なお、情報提供装置10は、発話を行う利用者ごとに学習モデルM1を生成し、生成し
た学習モデルM1を用いて音声区間を検出してもよく、デモグラフィック属性やサイコグ
ラフィック属性等といった発話を行う利用者の属性ごとに学習を行った学習モデルM1を
用いて、音声区間を検出してもよい。また、情報提供装置10は、言語ごとに学習モデル
M1を生成してもよい。
また、情報提供装置10は、DNN等のニューラルネットワークを用いたモデル以外に
も、例えば、SVM(Support Vector Machine)等を用いたモデルを用いてもよい。す
なわち、情報提供装置10は、始端と終端とに加えて、始端と終端以外の特徴をモデルに
学習させるのであれば、任意のモデルを採用可能である。
〔2.情報提供装置が有する機能構成の一例について〕
以下、上記した検出処理および配信処理を実現する情報提供装置10が有する機能構成
の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である
。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40
を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。
そして、通信部20は、ネットワークNと有線または無線で接続され、例えば、利用者が
使用する利用者端末100との間で情報の送受信を行う。このような利用者端末100は
、利用者の発話をマイク等で取得し、取得した発話を含む音響信号を情報提供装置10へ
と送信する。また、情報提供装置10は、上述した検出処理により、音響信号から音声区
間を抽出し、抽出した音声区間の音声認識に基づく処理の結果を利用者端末100へと出
力する。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash
Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置に
よって実現される。また、記憶部30は、学習データデータベース31およびモデルデー
タベース32を記憶する。
学習データデータベース31は、学習データが登録される。例えば、図3は、実施形態
に係る学習データデータベースに登録される情報の一例を示す図である。図3に示すよう
に、学習データデータベース31には、「学習データID(Identifier)」、「フレーム
番号」、「音声データ」、「始端タグ」、「終端タグ」、および「その他タグ」といった
項目を有する情報が登録される。
ここで、「学習データID」とは、学習データの識別子である。また、「フレーム番号
」とは、対応付けられた音声データ、始端タグ、終端タグおよびその他タグと対応するフ
レームを識別する番号である。また、「音声データ」とは、対応付けられた「フレーム番
号」が示すフレームの音声データ、すなわち音響信号である。また、「始端タグ」とは、
対応付けられた「フレーム番号」が示すフレームの始端タグの値である。また、「終端タ
グ」とは、対応付けられた「フレーム番号」が示すフレームの終端タグの値である。また
、「その他タグ」とは、対応付けられた「フレーム番号」が示すフレームのその他タグの
値である。
例えば、図3に示す例では、学習データデータベース31には学習データID「LD1
」、フレーム番号「t1」、音声データ「SD1」、始端タグ「0」、終端タグ「0」、
およびその他タグ「1」が対応付けて登録されている。このような情報は、学習データI
D「LD1」が示す学習データのうち、フレーム番号「t1」が示すフレームの音声デー
タとして、音声データ「SD1」が登録されており、かかるフレームの各タグの値が始端
タグ「0」、終端タグ「0」、その他タグ「1」である旨を示す。
なお、図3に示す例では、「SD1」といった概念的な値を記載したが、実際には、学
習データデータベース31には、音声データとして各フレームの音声の音量や周波数分布
等を示す情報が登録されることとなる。また、図3に示す情報以外にも、学習データデー
タベース31には、任意の情報が登録されていてよい。
図2に戻り、説明を続ける。モデルデータベース32には、学習モデルが登録される。
すなわち、モデルデータベース32には、音響信号のうち認識対象となる音声が含まれる
音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端
以外の区間の特徴とを学習した学習モデルM1のデータが登録される。例えば、モデルデ
ータベース32には、学習モデルM1のデータとして、それぞれが1つ又は複数のノード
を含む多段の層を構成するノードの情報と、各ノード間の接続関係を示す情報と、ノード
間で情報を伝達する際の重みである接続係数とが登録される。
ここで、学習モデルM1は、学習データである音響信号が入力される入力層を有する。
また、学習モデルM1は、音響信号のうち認識対象となる音声が含まれる音声区間の始端
を示す情報と、音声区間の終端を示す情報とに加えて、音声区間の始端および終端以外の
区間を示す情報とを出力する出力層を有する。
また、学習モデルM1は、入力層から出力層までのいずれかの層であって出力層以外の
層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素
と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要
素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力さ
れた情報と対応する情報を出力層から出力するようコンピュータを機能させる。
このような学習モデルM1は、例えば、学習時においては、入力層に音声データが入力
された場合に、出力層から、始端確度と、終端確度と、その他確度とを出力するようコン
ピュータを機能させる。そして、情報提供装置10は、学習モデルM1が出力する各確度
が、入力された音声データと対応する教師データ、すなわち、音響信号のうち認識対象と
なる音声が含まれる音声区間の始端を示す情報(すなわち、始端タグ)と、音声区間の終
端を示す情報(すなわち、終端タグ)とに加えて、音声区間の始端および終端以外の区間
を示す情報(すなわち、その他タグ)を示すように、学習モデルM1の接続係数を修正す
る。
また、学習モデルM1は、測定時においては、入力層に音声データが入力された場合に
、出力層から、始端タグと、終端タグと、その他タグとを示す情報を出力するようコンピ
ュータを機能させる。すなわち、学習モデルM1は、入力層に入力された音響信号に対し
、出力層以外の各層に属する各要素を第1要素として、第1要素と、第1要素の重みであ
って、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間
の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを反映させた重
みに基づく演算を行うことにより、入力された音響信号のうち音声区間に関する情報を出
力層から出力するよう、コンピュータを機能させるためのモデルである。
ここで、学習モデルM1がSVMや回帰モデルで実現される場合、学習モデルM1は、
入力層と出力層とを有する単純パーセプトロンと見做すことができる。学習モデルM1を
単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対
応し、第2要素は、出力層が有するノードと見做すことができる。また、学習モデルM1
をDNN等、1つまたは複数の中間層を有するニューラルネットワークで実現される場合
、各モデルが含む第1要素とは、入力層または中間層が有するいずれかのノードと見做す
ことができ、第2要素とは、第1要素と対応するノードから値が伝達されるノード、すな
わち、次段のノードと対応し、第1要素の重みとは、第1要素と対応するノードから第2
要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数であ
る。
ここで、情報提供装置10は、学習データデータベース31に登録される学習データを
用いて、上述した検出処理を実行するための学習モデルM1を生成する。すなわち、学習
データデータベース31に登録される学習データは、音響信号と、音響信号が入力される
入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属
する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を
含み、入力層に入力された音響信号に対し、出力層以外の各層に属する各要素を第1要素
として、第1要素と、第1要素の重みであって、音響信号のうち認識対象となる音声が含
まれる音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端およ
び終端以外の区間の特徴とを反映させた重みに基づく演算を行うことにより、入力された
音響信号のうち音声区間に関する情報を出力層から出力するよう、コンピュータを機能さ
せるためのデータである。
情報提供装置10は、上述した回帰モデルやニューラルネットワーク等、任意の構造を
有するモデルを用いて、検出処理を実行する。より具体的には、情報提供装置10は、音
響信号が入力された場合に、音響信号のうち音声区間の始端を示す情報と、終端を示す情
報と共に、音響信号のうち音声区間の始端および終端以外の区間を示す情報とを出力する
ように接続係数が設定された学習モデルM1を用いて、音声区間を検出する。
制御部40は、コントローラ(controller)であり、例えば、CPU(Central Proce
ssing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供
装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実
行されることにより実現される。また、制御部40は、コントローラ(controller)であ
り、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Fi
eld Programmable Gate Array)等の集積回路により実現されてもよい。
また、制御部40は、記憶部30に記憶される学習モデルM1に従った情報処理により
、学習モデルM1の入力層に入力された音響信号に対し、学習モデルM1が有する係数(
すなわち、学習モデルM1が学習した各特徴に対応する係数)に基づく演算を行い、入力
された音響信号が音声区間の始端であるか、終端であるか、音声区間の始端または終端以
外の区間であるかを定量的に示す値、すなわち、始端確度、終端確度、およびその他確度
といった各種の確度(事後確率や状態確率、以下「確度」と記載する。)を算出し、学習
モデルM1の出力層から出力する。
図2に示すように、制御部40は、学習部41、取得部42、検出部43、応答生成部
44、及び提供部45を有する。
学習部41は、学習データデータベース31に登録される学習データを用いて、モデル
データベース32に登録される学習モデルM1の学習を行う。例えば、学習部41は、学
習データLD1の音声データの値を入力した際に、学習モデルM1が入力された音声デー
タと対応する教師データである始端タグと、終端タグと、その他タグとを示す始端確度、
終端確度およびその他確度の値を出力するように、学習モデルM1の接続係数を補正する
。この結果、学習部41は、音響信号のうち認識対象となる音声が含まれる音声区間の始
端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の
特徴とを学習モデルM1に学習させる。
より具体的には、学習部41は、始端が含まれるフレームから所定の範囲のフレームの
始端タグの値が「1」となり、終端が含まれるフレームから所定の範囲のフレームの終端
タグの値が「1」となる学習データLD1を用いて、学習モデルM1の学習を行う。この
結果、学習部41は、音声区間の始端の特徴として、音声区間のうち始端を含む所定の区
間における音響信号の特徴を学習モデルM1に学習させ、音声区間の終端の特徴として、
音声区間のうち終端を含む所定の区間における音響信号の特徴を学習モデルM1に学習さ
せることとなる。
また、学習部41は、音声区間として、音響信号のうち音声認識に関する所定の要件を
満たす音声が含まれる区間の始端、終端、およびその区間以外の区間を示す学習データL
D1を用いて、音声区間として、音響信号のうち音声認識に関する所定の要件を満たす音
声が含まれる区間の特徴を学習モデルM1に学習させる。例えば、学習部41は、音声区
間として、音響信号のうち、音声認識結果を用いた処理において一つの単位として用いら
れる利用者による発話が含まれる区間の始端、終端、およびその区間以外の区間を示す学
習データLD1を用いて、音声区間として、音声認識結果を用いた処理において一つの単
位として用いられる利用者による発話が含まれる区間の特徴を学習モデルM1に学習させ
る。
また、学習部41は、音響信号として、音の周波数特性を示す音声データを含む学習デ
ータLD1を用いて学習モデルM1の学習を行うことで、音声区間の始端における周波数
特性の特徴と、音声区間の終端における周波数特性の特徴と、音響信号のうち音声区間の
始端または終端以外の区間における周波数特性の特徴とを学習モデルM1に学習させる。
なお、学習部41は、学習モデルM1として、LSTMの機能を有する学習モデルM1
の学習を行う。また、学習部41は、複数のフレームを含む音響信号と、各フレームが音
声区間の始端であるか否かを示す始端タグ、各フレームが音声区間の終端であるか否かを
示す終端タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを
示すその他タグとを有する学習データLD1を用いて学習モデルM1の学習を行うことで
、各フレームの音響信号と、始端タグと、終端タグと、その他タグとの間の関係性を学習
モデルM1に学習させる。
なお、学習部41は、対応するフレームよりも後のフレームの音響信号が音声区間の始
端であるか否かを示す始端タグと、対応するフレームよりも後のフレームの音響信号が音
声区間の終端であるか否かを示す終端タグと、対応するフレームが音声区間の始端または
終端以外の区間であるか否かを示すその他タグとを有する学習データLD1を用いて、学
習モデルM1の学習を行うことで、各フレームの音響信号と、始端タグと、終端タグと、
その他タグとの間の関係性を学習モデルM1に学習させてもよい。例えば、学習部41は
、対応するフレームよりも所定の第1フレーム数だけ後のフレームの音響信号が音声区間
の始端であるか否かを示す始端タグと、対応するフレームよりも所定の第2フレーム数だ
け後のフレームであって、第1フレーム数よりも多い第2フレーム数だけ後のフレームの
音響信号が音声区間の終端であるか否かを示す終端タグと、対応するフレームが音声区間
の始端または終端以外の区間であるか否かを示すその他タグとを有する学習データLD1
を用いて、学習モデルM1の学習を行うことで、各フレームの音響信号と、始端タグと、
終端タグと、その他タグとの間の関係性を学習モデルM1に学習させてもよい。
また、学習部41は、いかなる学習アルゴリズムを用いて各モデルを生成してもよい。
例えば、学習部41は、ニューラルネットワーク、サポートベクターマシン(support v
ector machine)、クラスタリング、強化学習等の学習アルゴリズムを用いて各モデルの
学習や生成を行ってよい。一例として、学習部41がニューラルネットワークを用いて楽
手モデルM1を生成する場合、学習モデルM1は、一以上のニューロンを含む入力層と、
一以上のニューロンを含む中間層と、一以上のニューロンを含む出力層とを有する。
取得部42は、処理対象となる音響信号を取得する。例えば、取得部42は、利用者端
末100から音響信号を取得する。
検出部43は、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と
、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学
習した学習モデルM1を用いて、取得された音響信号から音声区間を検出する。例えば、
検出部42は、処理対象となる音響信号を所定の長さのフレームに分割する。また、検出
部43は、モデルデータベース32に登録された学習モデルM1を読出し、読み出した学
習モデルM1の入力層に各フレームの音響信号を入力する。
ここで、図4は、実施形態に係る学習モデルが出力する各確度の値の一例を説明する図
である。なお、図4に示す例では、図1に示す学習データLD1に含まれる音声データと
同一の音声データを学習モデルM1に入力した際に、学習モデルM1が有する出力層が出
力する確度の一例について記載した。また、図4に示す例では、音声データが音声区間の
始端を含む確度STを短点線で示し、音声データが音声区間の終端を含む確度ETを長点
線で示し、音声データが音声区間の始端または終端以外となる確度OTを実線で示した。
例えば、図4に示す例では、学習モデルM1に期間TW1に含まれる音声データが入力
された場合は、確度OTの値が閾値τを超えるとともに、確度ST、ETの値が確度τの
値を下回る。また、学習モデルM1に期間TW2に含まれる音声データが入力された場合
は、確度STの値が閾値τを超えるとともに、確度OT、ETの値が閾値τの値を下回る
。また、学習モデルM1に期間TW3に含まれる音声データが入力された場合は、確度O
Tの値が閾値τを超えるとともに、確度ST、ETの値が確度τの値を下回る。また、学
習モデルM1に期間TW4に含まれる音声データが入力された場合は、確度ETの値が閾
値τを超えるとともに、確度ST、OTの値が確度τの値を下回る。
この結果、学習モデルM1は、期間TW1および期間TW3に含まれる音声データが入
力された場合は、その他確度の値として「1」を出力し、他の確度の値として「0」を出
力する。また、学習モデルM1は、期間TW2に含まれる音声データが入力された場合は
、始端確度の値として「1」を出力し、他の確度の値として「0」を出力する。また、学
習モデルM1は、期間TW4に含まれる音声データが入力された場合は、終端確度の値と
して「1」を出力し、他の確度の値として「0」を出力する。
このような場合、検出部43は、始端確度の値がτを超えたフレーム(すなわち、始端
タグの値が「1」となるフレーム)から終端確度の値がτを超えたフレーム(すなわち、
終端タグの値が「0」となるフレーム)までの間の区間を音声区間として特定する。そし
て、検出部43は、音響信号から特定した区間を抽出することで、音声区間のデータを生
成する。
応答生成部44は、抽出された音声区間を用いて、各種処理結果を応答として生成する
。例えば、応答生成部44は、抽出した音声区間に含まれる音からテキストデータを生成
し、生成したテキストデータを各種外部サーバへと送信し、外部サーバからテキストデー
タに基づく処理結果を取得する。
提供部45は、処理結果を応答として利用者端末100に提供する。例えば、提供部4
5は、応答生成部44によって取得された処理結果の内容を読み上げた音声データを生成
し、生成した音声データを利用者端末100へと送信する。
〔3.学習モデルの他の例について〕
上述した例では、情報提供装置10は、始端タグと終端タグとに加えて、その他タグを
設定した学習データLD1を用いた。しかしながら、実施形態は、これに限定されるもの
ではない。例えば、情報提供装置10は、始端タグ、終端タグ、およびその他タグに加え
て、1つまたは複数のタグをさらに設定した学習データLD1を用いて、学習モデルM1
の学習を行ってもよい。
例えば、情報提供装置10は、発話のうち破裂音やブレス等の音が含まれる区間を示す
タグを設定した学習モデルM1の学習を行ってもよい。すなわち、情報提供装置10は、
音声データのうち、発話の始端や終端と特徴が類似するが、始端や終端とは異なる区間の
特徴をさらに学習モデルM1に学習させることで、音声認識の精度をさらに向上させても
よい。
例えば、図5は、実施形態に係る学習モデルのバリエーションの一例を説明する図であ
る。例えば、図5に示す例では、学習データLD2には、音声データとともに、教師デー
タとなる始端タグ、終端タグ、その他タグに加えて、対応するフレームの音声がブレスで
あるか否かを示すブレスタグを含む。まが、学習モデルM2の出力層は、始端確度、終端
確度、その他確度に加えて、ブレス確度やその他教師データに含まれるタグと対応する確
度を出力する構成を有する。なお、学習データLD2には、図5に示すタグ以外にも、対
応するフレームの音声データの特徴を示す各種のタグが含まれていてもよい。
このような場合、情報提供装置10は、図5中(A)に示すように、始端タグ、終端タ
グ、その他タグ、ブレスタグ等の各種タグを含む教師データを出力層における損失関数を
扱う際に利用するとともに、学習データLD2の音声データを入力した場合に、出力層か
ら各タグの値を示す確度を出力するように学習モデルM2の学習を行う。例えば、情報提
供装置10は、図5中(B)に示すように、中間層から出力される各データと、教師デー
タとを比較し、中間層から出力される各データが教師データの値と近くなるように、接続
係数の再計算を行う。このような処理の結果、情報提供装置10は、音声データのうち、
発話の始端や終端と特徴が類似するが、始端や終端とは異なる区間の特徴をさらに詳細に
学習モデルM2に学習させることができるので、音声認識の精度をさらに向上させること
ができる。
なお、学習データLD2において、始端確度の値もしくは終端確度の値がτ以上となる
場合には、他のタグの値がτ未満となるのであれば、任意の学習が採用可能である。すな
わち、学習データLD2においては、始端確度および終端確度以外の確度のうち、複数の
確度がτ以上となってもよい。
〔4.情報提供装置が実行する処理の流れについて〕
次に、図6、図7を用いて、情報提供装置10が実行する処理の流れの一例について説
明する。図6は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフ
ローチャートである。また、図7は、実施形態に係る情報提供装置が実行する検出処理の
流れの一例を示すフローチャートである。
まず、図6を用いて、学習処理の流れの一例を説明する。まず、情報提供装置10は、
始端タグと、終端タグと、その他タグとが付与された学習データLD1、LD2を読出し
(ステップS101)、各タグと音声データとの間の関係性を学習モデルに学習させ(ス
テップS102)、処理を終了する。
続いて、図7を用いて、検出処理の流れの一例を説明する。まず、情報提供装置10は
、音響情報を受付けたか否かを判定し(ステップS201)、受付けていない場合は(ス
テップS201:No)、ステップS201を実行する。また、情報提供装置10は、音
響信号を受付けた場合は(ステップS201:Yes)、音響信号を学習モデルM1に入
力し(ステップS202)、学習モデルM1が出力した各確度の値に基づいて、音声区間
の始端と終端とを特定する(ステップS203)。そして、情報提供装置10は、特定結
果に応じた処理を実行し(ステップS204)、処理を終了する。
〔5.変形例〕
上記では、情報提供装置10による学習処理や検出処理の一例について説明した。しか
しながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行
する検出処理や配信処理のバリエーションについて説明する。
〔5−1.装置構成〕
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持
されていてもよい。また、情報提供装置10は、学習処理を実行する学習サーバ、検出処
理を実行する検出サーバ、および検出結果に応じて各種の処理を実行する実行サーバとが
連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学
習部41が配置されていればよく、検出サーバには、取得部42、および検出部43が配
置されていればよく、実行サーバには、応答生成部44および提供部45が配置されてい
ればよい。
〔5−2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明
した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとし
て説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上
記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報
については、特記する場合を除いて任意に変更することができる。例えば、各図に示した
各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示
の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示の
ものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単
位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせるこ
とが可能である。
〔5−3.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図8に示すような構成のコ
ンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図であ
る。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装
置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1
060、入力IF1070、ネットワークIF1080がバス1090により接続された
形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプロ
グラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を
実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いる
データを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置
1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であ
り、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等
により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置101
0に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB
(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録
商標)(High Definition Multimedia Interface)といった規格のコネクタにより実
現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった
各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、US
B等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Vers
atile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Ma
gneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体
メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメ
モリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して
演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデ
ータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置101
0や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や
二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードした
プログラムを実行する。
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ
1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまた
はデータ(例えば、学習モデルM1)を実行することにより、制御部40の機能を実現す
る。コンピュータ1000の演算装置1030は、これらのプログラムまたはデータ(例
えば、学習モデルM1)を一次記憶装置1040から読み取って実行するが、他の例とし
て、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
〔6.効果〕
上述したように、情報提供装置10は、音響信号を取得する。そして、情報提供装置1
0は、音響信号のうち認識対象となる音声が含まれる音声区間の始端の特徴と、音声区間
の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを学習した学習
モデルM1、M2を用いて、取得された音響信号から音声区間を検出する。このため、情
報提供装置10は、音声区間の認識精度を容易に向上させることができる。すなわち、情
報提供装置10は、学習モデルM1、M2に対して、始端および終端に加えて、音声区間
の始端および終端以外の区間の特徴を学習させるだけで、始端および終端と類似するが始
端および終端ではない区間を、音声区間の始端および終端以外の区間として学習させるこ
とができるので、音声区間の認識精度を容易に向上させることができる。
また、情報提供装置10は、音声区間の始端の特徴として、音声区間のうち始端を含む
所定の区間における音響信号の特徴を学習し、音声区間の終端の特徴として、音声区間の
うち終端を含む所定の区間における音響信号の特徴を学習した学習モデルM1、M2を用
いて、取得された音響信号から音声区間を検出する。このため、情報提供装置10は、適
切に、音声区間の特徴を学習させることができる。
また、情報提供装置10は、音声区間として、音響信号のうち音声認識に関する所定の
要件を満たす音声が含まれる区間の特徴を学習した学習モデルM1、M2を用いる。例え
ば、情報提供装置10は、音声区間として、音響信号のうち、音声認識結果を用いた処理
において一つの単位として用いられる利用者による発話が含まれる区間の特徴を学習した
学習モデルM1、M2を用いる。このため、情報提供装置10は、音声認識の結果を用い
た処理の実行精度を向上させることができる。
また、情報提供装置10は、学習モデルM1、M2として、音声区間の始端における周
波数特性の特徴と、音声区間の終端における周波数特性の特徴と、音響信号のうち音声区
間の始端または終端以外の区間における周波数特性の特徴とを学習した学習モデルM1、
M2を用いて、取得された音響信号から音声区間を検出する。このため、情報提供装置1
0は、音声区間の特徴を適切に学習させることができる。
また、情報提供装置10は、学習モデルM1、M2として、LSTMの機能を有する学
習モデルM1、M2を用いる。このため、情報提供装置10は、入力された音響信号の全
体を入力せずとも、取得された音響信号を先頭から順に学習モデルM1、M2に入力した
場合にも、音声区間を適切に検出することができるので、処理をストリーミング形式で実
行することができる結果、処理のリアルタイム性を担保することができる。
また、情報提供装置10は、学習モデルM1、M2として、複数のフレームを含む音響
信号と、各フレームが音声区間の始端であるか否かを示す始端タグ、各フレームが音声区
間の終端であるか否かを示す終端タグ、および各フレームが音声区間の始端または終端以
外の区間であるか否かを示すその他タグとの間の関係性を学習した学習モデルM1、M2
を用いる。このため、情報提供装置10は、学習モデルM1、M2が音声区間の始端と終
端とを検出する精度を向上させることができる。
また、情報提供装置10は、学習モデルM1、M2として、対応するフレームよりも後
のフレームの音響信号が音声区間の始端であるか否かを示す始端タグと、対応するフレー
ムよりも後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと、対応
するフレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグとの
間の関係性を学習した学習モデルM1、M2を用いる。例えば、情報提供装置10は、学
習モデルM1、M2として、対応するフレームよりも所定の第1フレーム数だけ後のフレ
ームの音響信号が音声区間の始端であるか否かを示す始端タグと、対応するフレームより
も所定の第2フレーム数だけ後のフレームであって、第1フレーム数よりも多い第2フレ
ーム数だけ後のフレームの音響信号が音声区間の終端であるか否かを示す終端タグと、対
応するフレームが音声区間の始端または終端以外の区間であるか否かを示すその他タグと
の間の関係性を学習した学習モデルM1、M2を用いる。このため、情報提供装置10は
、学習モデルM1、M2が音声区間の始端と終端とを検出する精度をさらに向上させるこ
とができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示で
あり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、
改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに
読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることがで
きる。
10 情報提供装置
20 通信部
30 記憶部
31 学習データデータベース
32 モデルデータベース
40 制御部
41 学習部
42 取得部
43 検出部
44 応答生成部
45 提供部
100 利用者端末

Claims (1)

  1. 音響信号が入力される入力層と、
    出力層と、
    前記入力層から前記出力層までのいずれかの層であって前記出力層以外の層に属する第1要素と、
    前記第1要素と前記第1要素の重みとに基づいて値が算出される第2要素と、を含み、
    前記入力層に入力された音響信号に対し、前記出力層以外の各層に属する各要素を前記第1要素として、前記第1要素と、前記第1要素の重みであって、複数のフレームを含む音響信号と、各フレームが音響信号のうち認識対象となる音声が含まれる音声区間の始端であるか否かを示す第1タグ、各フレームが音声区間の終端であるか否かを示す第2タグ、および各フレームが音声区間の始端または終端以外の区間であるか否かを示す第3タグとの間の関係性を学習することで、音声区間の始端の特徴と、音声区間の終端の特徴とに加えて、音声区間の始端および終端以外の区間の特徴とを反映させた重みに基づく演算を行うことにより、入力された音響信号のうち音声区間に関する情報を前記出力層から出力するモデル
    としてコンピュータを機能させるためのプログラム
JP2018108947A 2018-06-06 2018-06-06 プログラム Active JP6563080B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018108947A JP6563080B2 (ja) 2018-06-06 2018-06-06 プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018108947A JP6563080B2 (ja) 2018-06-06 2018-06-06 プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017151064A Division JP6392950B1 (ja) 2017-08-03 2017-08-03 検出装置、検出方法、および検出プログラム

Publications (2)

Publication Number Publication Date
JP2019028446A JP2019028446A (ja) 2019-02-21
JP6563080B2 true JP6563080B2 (ja) 2019-08-21

Family

ID=65478430

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018108947A Active JP6563080B2 (ja) 2018-06-06 2018-06-06 プログラム

Country Status (1)

Country Link
JP (1) JP6563080B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11670290B2 (en) 2020-07-17 2023-06-06 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0442299A (ja) * 1990-06-08 1992-02-12 Sharp Corp 音声区間検出装置
JPH04369695A (ja) * 1991-06-19 1992-12-22 Matsushita Electric Ind Co Ltd 音声判別装置
US10229700B2 (en) * 2015-09-24 2019-03-12 Google Llc Voice activity detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11670290B2 (en) 2020-07-17 2023-06-06 Samsung Electronics Co., Ltd. Speech signal processing method and apparatus

Also Published As

Publication number Publication date
JP2019028446A (ja) 2019-02-21

Similar Documents

Publication Publication Date Title
US11676575B2 (en) On-device learning in a hybrid speech processing system
US20210142794A1 (en) Speech processing dialog management
US10283111B1 (en) Disambiguation in speech recognition
US9484021B1 (en) Disambiguation in speech recognition
US11132509B1 (en) Utilization of natural language understanding (NLU) models
JP6892426B2 (ja) 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
US11386890B1 (en) Natural language understanding
KR20190125463A (ko) 음성 감정 검출 방법 및 장치, 컴퓨터 장치 및 저장 매체
US11763816B1 (en) Natural language processing policies
US11574637B1 (en) Spoken language understanding models
US11348601B1 (en) Natural language understanding using voice characteristics
US11605376B1 (en) Processing orchestration for systems including machine-learned components
JP6392950B1 (ja) 検出装置、検出方法、および検出プログラム
US11132994B1 (en) Multi-domain dialog state tracking
US20230074681A1 (en) Complex natural language processing
US11862149B2 (en) Learning how to rewrite user-specific input for natural language understanding
US11361764B1 (en) Device naming-indicator generation
JP2015184378A (ja) パターン識別装置、パターン識別方法およびプログラム
JP6563080B2 (ja) プログラム
US10923113B1 (en) Speechlet recommendation based on updating a confidence value
US20230306964A1 (en) Device-specific skill processing
US11288513B1 (en) Predictive image analysis
US20230142272A1 (en) Evaluating natural language processing components
US11626106B1 (en) Error attribution in natural language processing systems
JP7092708B2 (ja) 情報処理プログラム、情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190723

R150 Certificate of patent or registration of utility model

Ref document number: 6563080

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350