JP2020064253A - Learning device, detection device, learning method, learning program, detection method, and detection program - Google Patents
Learning device, detection device, learning method, learning program, detection method, and detection program Download PDFInfo
- Publication number
- JP2020064253A JP2020064253A JP2018197718A JP2018197718A JP2020064253A JP 2020064253 A JP2020064253 A JP 2020064253A JP 2018197718 A JP2018197718 A JP 2018197718A JP 2018197718 A JP2018197718 A JP 2018197718A JP 2020064253 A JP2020064253 A JP 2020064253A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- learning
- model
- section
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims description 74
- 230000008569 process Effects 0.000 claims description 51
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 description 41
- 238000010586 diagram Methods 0.000 description 12
- 239000008186 active pharmaceutical agent Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明は、学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラムに関する。 The present invention relates to a learning device, a detection device, a learning method, a learning program, a detection method, and a detection program.
近年、自動音声認識(Automatic Speech Recognition)を利用した技術が知られている。このような自動音声認識の技術の一例として、利用者の発話をテキストデータに変換し、変換後のテキストデータを用いて各種の情報処理を実行する技術が知られている。また、認識精度を改善するため、入力された音響信号から、利用者の発話が含まれる音声区間を検出する音声区間検出(Voice Activity Detection)の技術が知られている。 In recent years, a technique using automatic speech recognition has been known. As an example of such a technique of automatic speech recognition, a technique is known in which a user's utterance is converted into text data and various information processing is executed using the converted text data. Further, in order to improve recognition accuracy, there is known a technique of voice activity detection that detects a voice interval including a user's utterance from an input acoustic signal.
このような音声区間検出の技術を用いて、所定の音声を含む音声区間を検出する処理が考えられる。例えば、処理対象となるフレームが音声を含む音声区間であるか否かを学習させたDNN(Deep Neural Network)等のモデルを用いて、音響信号から所定の音声を抽出する技術が考えられる。 A process of detecting a voice section including a predetermined voice using such a voice section detection technique is conceivable. For example, a technique is conceivable in which a predetermined voice is extracted from an acoustic signal by using a model such as DNN (Deep Neural Network) in which it is learned whether or not a frame to be processed is a voice section including a voice.
しかしながら、このような技術では、音声区間の検出精度を改善する余地があった。 However, with such a technique, there is room for improving the detection accuracy of the voice section.
例えば、複数の単語から構成されるキーワードや、途中に無発声の区間が含まれるキーワード等を含む音声区間を抽出しようとした場合、上述した技術では、キーワードの一部のみを含む区間を音声区間として検出してしまう恐れがある。 For example, when an attempt is made to extract a voice segment including a keyword composed of a plurality of words or a keyword including an unvoiced segment in the middle, in the above-described technique, a segment including only a part of the keyword is a voice segment. May be detected as.
本願は、上記に鑑みてなされたものであって、音声区間の検出精度を向上させることを目的とする。 The present application has been made in view of the above, and an object thereof is to improve the detection accuracy of a voice section.
本願に係る学習装置は、検出対象となる対象音声が含まれる音声情報を取得する取得部と、前記対象音声の終端と、当該対象音声の始端から経過した期間とをモデルに学習させる学習部とを有することを特徴とする。 A learning device according to the present application, an acquisition unit that acquires voice information that includes a target voice that is a detection target, a learning unit that causes a model to learn the end of the target voice, and the period elapsed from the start end of the target voice. It is characterized by having.
実施形態の一態様によれば、音声区間の検出精度を向上させることができる。 According to the aspect of the embodiment, it is possible to improve the detection accuracy of the voice section.
以下に、本願に係る学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Hereinafter, a learning device, a detection device, a learning method, a learning program, a detection method, and a mode for carrying out the detection program (hereinafter, referred to as “embodiment”) according to the present application will be described in detail with reference to the drawings. . Note that the learning device, the detection device, the learning method, the learning program, the detection method, and the detection program according to the present application are not limited by this embodiment. Further, the respective embodiments can be appropriately combined within the range in which the processing content is not inconsistent. Also, in each of the following embodiments, the same parts are designated by the same reference numerals, and duplicated description will be omitted.
〔1.情報提供装置と端末装置とについて〕
まず、図1を用いて、学習装置の一例である情報提供装置10が実行する学習処理の一例と、検出装置の一例である端末装置100が実行する検出処理の一例とについて説明する。図1は、実施形態に係る情報提供装置と端末装置とが実行する処理の一例を示す図である。図1では、情報提供装置10によって、利用者の発話を含む音声情報から、検出対象となる所定の対象音声を抽出する際に用いるモデルの学習を行う学習処理の一例について記載した。また、図1では、端末装置100によって、利用者の発話を含む音声情報から所定のキーワードが含まれるキーワード区間を検出する検出処理の一例について記載した。
[1. Information providing device and terminal device]
First, an example of a learning process executed by the
図1に示す情報提供装置10は、学習処理を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、情報提供装置10は、データサーバDSから提供される学習データを用いて、所定のキーワードが含まれるキーワード区間を音声データから抽出する際に用いるモデルの学習を実行する。
The
データサーバDSは、各種のデータを管理する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、データサーバDSは、情報提供装置10が学習処理に用いる学習データの管理を行う。なお、データサーバDSが管理する学習データの詳細については、後述する。
The data server DS is an information processing device that manages various data, and is realized by, for example, a server device or a cloud system. For example, the data server DS manages the learning data used by the
端末装置100は、周囲の音を取得するマイク等の取得装置と、任意の音を出力可能なスピーカー等の出力装置とを有する入出力装置とを有する入出力装置であり、例えば、スマートスピーカーと呼ばれるデバイスである。例えば、端末装置100は、出力装置を用いて、音楽の出力や音声による情報提供を実現可能な装置である。また、端末装置100は、音の入力を受付ける受付機能を有し、利用者が発した音声を取得すると、取得した音声の内容に応じた音を出力する出力機能を有する。
The
例えば、端末装置100は、利用者が所定の楽曲の曲名を示す音声を発した場合には、各種の音声解析技術により、音声が示す曲名を特定し、特定した曲名が示す楽曲のデータを、ネットワークN(例えば、図2を参照)を介して、所定の外部サーバOS(例えば、図2)から取得する。そして、音声デバイスは、取得した楽曲を再生する。
For example, when the user utters a voice indicating a song title of a predetermined song, the
なお、端末装置100は、例えば、利用者Uが発した音声の内容を各種の音声解析技術により特定し、特定した内容に応じた応答を出力する機能を有する。例えば、端末装置100は、「今日の天気は?」といった利用者Uの音声を取得した場合は、外部サーバOSから天気や気温などといった各種の気象情報を取得し、取得した気象情報を読み上げることで、利用者Uに天気の情報を提供する。また、端末装置100は、上述した処理以外にも、例えば、電子商店街に出品された商品の注文、空調装置や照明装置等といった各種家電機器の制御、メールやスケジュールの読み上げ等といった各種の処理を実現可能なスマートスピーカーである。
The
なお、端末装置100は、外部サーバOSと連携することで、音声解析を行ってもよい。例えば、端末装置100は、マイク等を用いて周囲の音声を取得し、取得した音声が所定の条件を満たした場合は、外部サーバOSに取得した音声を送信する。このような場合、外部サーバOSは、取得した音声の内容を各種の音声解析技術により特定し、特定結果を端末装置100へと送信する。その後、端末装置100は、特定結果に対応する各種の処理を実行してもよい。すなわち、端末装置100は、スタンドアローン型のスマートスピーカーであってもよく、クラウド等の外部サーバと連携するスマートスピーカーであってもよい。
The
ここで、端末装置100は、それぞれ異なる位置に取付けられた複数の取得装置(例えば、マイク等)を有し、各取得装置を介して受付けた音声を用いて、上述した各種の処理を実行してもよい。また、端末装置100は、それぞれ異なる位置に取付けられた複数の取得装置を有する装置であれば、例えば、スマートデバイスや録音装置等、任意の装置であってもよい。また、端末装置100は、物理的に離間した位置に設置された複数の取得装置と無線LAN(Local Area Network)やブルートゥース(登録商標)等の無線通信を介して接続され、各取得装置が取得した音声を収集する装置であってもよい。
Here, the
〔1−1.キーワードの検出について〕
ここで、利用者は、スマートスピーカー等を操作する場合は、所定のキーワードを発話した後で、実行させる処理を示す発話(以下、「処理発話」と記載する。)を発話する。このような場合、端末装置100は、取得した音声に所定のキーワードが含まれているか否かを判定する。そして、端末装置100は、所定のキーワードが含まれていると判定される場合は、そのキーワードに続いて利用者が発話した処理発話が含まれる音声データの区間から、音声解析により利用者の発話内容を特定する。
[1-1. About keyword detection]
Here, when operating a smart speaker or the like, the user utters a predetermined keyword and then utters a process indicating a process to be executed (hereinafter, referred to as a “process utterance”). In such a case, the
また、このようなキーワードは、単に処理の起動音声として用いられるだけではなく、後続する処理発話の明瞭化処理に用いられる場合がある。例えば、音声データからキーワードが含まれるキーワード区間を抽出し、抽出されたキーワード区間内に含まれる音声から特徴を抽出し、抽出した特徴に基づいて、後続する音声のうち利用者の発話を強調することで、音楽やテレビジョンの音声等といった雑音の影響を軽減するといった態様が考えられる。また、複数のマイクを用いて取得された複数の音声データからキーワード区間をそれぞれ抽出し、抽出した各キーワード区間が測定された時間差に基づいて、利用者が所在する方向を推定し、推定した方向からの音声を強調することで、雑音の影響を軽減するビームフォーミングの技術が考えられる。このため、キーワード区間を適切に検出することができた場合、起動音声の有無を適切に判定することができるだけではなく、処理発話の認識精度を向上させることができる。 Further, such a keyword may be used not only as a start voice of a process but also in a process of clarifying a subsequent process utterance. For example, a keyword section including a keyword is extracted from voice data, a feature is extracted from a voice included in the extracted keyword section, and a user's utterance is emphasized in subsequent voices based on the extracted feature. Therefore, it is possible to reduce the influence of noise such as music and television sound. In addition, the keyword section is extracted from each of the plurality of voice data acquired using the plurality of microphones, the direction in which the user is located is estimated based on the time difference between the extracted keyword sections, and the estimated direction is determined. A beamforming technology that reduces the influence of noise by enhancing the sound from the can be considered. For this reason, when the keyword segment can be detected appropriately, it is possible not only to appropriately determine the presence or absence of the activation voice, but also to improve the recognition accuracy of the processed utterance.
ここで、キーワードが有する特徴をSVM(Support Vector Machine)やDNN(Deep Neural Network)等といった各種分類器として動作するモデルに学習させ、学習済モデルを用いて、収集した音声からキーワードの検出を行うといった態様が考えられる。しかしながら、単にキーワードの音声が有する特徴をモデルに学習させた場合は、キーワードのうちどの時点からモデルがキーワードであると判断するかが明確ではないため、音声データのうちどこからどこまでがキーワードを含むキーワード区間であるかを推定するのが困難となる。 Here, a model that operates as various classifiers such as SVM (Support Vector Machine) and DNN (Deep Neural Network) is made to learn the characteristics of the keyword, and the keyword is detected from the collected voice using the learned model. Such a mode is conceivable. However, if the model is simply trained to have the characteristics of the voice of the keyword, it is not clear from which point in the keyword the model is determined to be the keyword. It is difficult to estimate whether it is an interval.
〔1−2.学習処理について〕
そこで、情報提供装置10は、以下の学習処理を実行する。まず、情報提供装置10は、検出対象となる対象音声が含まれる音声情報を取得する。例えば、情報提供装置10は、キーワード等、所定の端末装置100に所定の動作を実行させるための音声を対象音声として含む音声情報を取得する。そして、情報提供装置10は、すくなくとも、対象音声の終端と、対象音声の始端から経過した期間とをモデルに学習させる。より具体的な例を挙げると、情報提供装置10は、対象音声の始端から終端までの間の特徴、すなわち、対象音声の特徴をモデルに学習させるとともに、音声の始端から対象音声の各区間までの間の期間とをモデルに学習させる。例えば、情報提供装置10は、音声情報を複数の区間に分割し、各区間ごとに、対象音声の終端が含まれているか否かと、対象音声の始端から処理対象となる区間までの期間とをモデルに学習させる。
[1-2. About learning processing]
Therefore, the
換言すると、情報提供装置10は、キーワードの終端付近でキーワードを検出した旨を出力するモデルの学習を行う。例えば、情報提供装置10は、音声データの音声を複数のフレームに分割し、各フレームに含まれる音声の情報を時系列順にモデルに入力する。そして、情報提供装置10は、キーワードの終端を含むフレーム若しくは終端付近のフレームに含まれる音声の情報をモデルに入力した際に、キーワードの終端を検知した旨の情報を出力するように、モデルの学習を行う。ここで、情報提供装置10は、過去に入力した音声の特徴量を考慮して、新たに入力された音声がキーワードの終端である事後確率を算出させるため、RNN(Recurrent Neural Network)若しくは、LSTM(Long short-term memory)といった再帰型ニューラルネットワークの構成を有するモデルの学習を行う。
In other words, the
このような学習に加えて、情報提供装置10は、入力されたフレームを、キーワードの始端からの長さに応じたクラスに分類させるタスクを追加する。すなわち、情報提供装置10は、各フレームが、キーワードの始端からどれくらい経過したフレームなのか、すなわち、各フレームに含まれる音声が、キーワードの始端からどれくらい経過した際に観測される音声なのかをモデルに学習させる。
In addition to such learning, the
例えば、情報提供装置10は、1フレームが20ミリ秒であり、キーワードが約100フレーム程度で発話される場合は、キーワードの始端から10フレームごとに異なるクラスを割り当てる。そして、情報提供装置10は、各フレームにキーワードの終端が含まれているか否かを学習させるとともに、入力されたフレームがどのクラスに割り当てられているかをモデルに学習させる。すなわち、情報提供装置10は、モデルにマルチタスク学習を実行させる。
For example, the
上述した学習処理により、情報提供装置10は、キーワードの終端を適切に検出するとともに、検出したキーワードの始端から検出した終端までの期間を推定可能なモデルの学習を実現できる。例えば、情報提供装置10は、上述した学習処理により、キーワード全体(例えば、キーワードの始端から終端)までの特徴に基づいて、キーワードの終端を検出するモデルを実現する。すなわち、情報提供装置10は、キーワードの各区間が有する特徴の出現順序に基づいて、キーワードの終端を含む区間を検出するようにモデルの学習を行う。この結果、情報提供装置10は、キーワードの終端の検出精度を向上させることができる。
By the learning process described above, the
例えば、情報提供装置10は、キーワードの終端付近のフレームに含まれる音声のみを学習データとして用いるのではなく、キーワード全体の各フレームの音声を時系列順にモデルに入力することで、キーワードの各フレームにおける音声の特徴と、各音声の出現順序の特徴とをモデルに学習させる。このような学習が行われた場合、モデルは、先頭から終端までの各フレームにおける特徴と、特徴の時系列的な出現順序とがキーワードと類似する音声が入力された場合に、キーワードを検出したと判定することとなる。この結果、情報提供装置10は、複数の単語や無音区間が含まれるキーワードを適切に検出することができる。
For example, the
例えば、キーワードが「ねえ」という単語と「ヤフー」という単語とを含む「ねえ_ヤフー」であった場合、情報提供装置10は、「ねえ_ヤフー」という複数の単語を含む一連の音声の特徴をキーワードの音声としてモデルに学習させる。より具体的には、情報提供装置10は、「ねえ_ヤフー」という音声の各フレームを出現順にモデルに入力し、最後のフレーム、すなわち、終端のフレームが入力された際に、キーワードを検出した旨を出力するようモデルの学習を行う。例えば、情報提供装置10は、「ねえ_ヤフー」という音声の各フレームを出現順にモデルに入力し、終端のフレーム以外の各フレームの音声が入力される度に「0」を出力し、終端のフレームが入力された場合に「1」を出力するように、モデルの学習を行う。
For example, if the keyword is “Hey_Yahoo” including the word “Hey” and the word “Yahoo”, the
このような学習が行われた場合、モデルは、「ヤフー」という単語が入力されただけでは、キーワードを検出した旨(すなわち、「1」)を出力せず、「ねえ_ヤフー」という音声の各フレームが出現順に入力された場合に、キーワードを検出した旨を出力することとなる。また、このようなモデルは、「おい_ヤフー」や「ねえ_やすこ」といったキーワードの一部と類似する音声が入力された場合や、「ヤフー_ねえ」といったキーワードと音の出現順序が異なる音声が入力されただけでは、キーワードを検出した旨を出力せず、キーワード全体と類似する音声の各フレームが、キーワードと同じ順序で入力された場合にのみ、キーワードの終端を検出することとなる。 When such learning is performed, the model does not output the fact that the keyword is detected (that is, “1”) only by inputting the word “Yahoo”, and the voice of “Hey_Yahoo” is output. When each frame is input in the order of appearance, the fact that the keyword has been detected is output. In addition, in such a model, when a voice similar to a part of a keyword such as “Oi_Yahoo” or “Hey_Yasuko” is input, or a voice such as “Yahoo_Hey” and the sound appearance order are different. Does not output that the keyword has been detected, and detects the end of the keyword only when the frames of the voice similar to the entire keyword are input in the same order as the keyword.
一方、キーワードの終端のフレームに含まれる音声の特徴のみをモデルに学習させた場合、単に「ヤフー」や「フー」という音声が入力されただけで、キーワードを検出したとモデルが誤判定する恐れがある。そこで、情報提供装置10は、キーワード全体の特徴からキーワードの終端を検出するようにモデルに学習を行うことで、複数の単語や無音の区間を含むキーワードの終端を適切に検出可能なモデルを学習することができる。
On the other hand, if the model is made to learn only the features of the speech contained in the end frame of the keyword, the model may erroneously determine that the keyword is detected simply by inputting the speech such as "Yahoo" or "Fu". There is. Therefore, the
また、情報提供装置10は、キーワードの終端を検出するモデルに対し、キーワードの始端から検出した終端までの期間の特徴を学習させる。このような学習が行われたモデル(以下、「学習モデル」と記載する。)に対し、実際に測定された音声データの各フレームを時系列順に入力した場合、学習モデルは、入力されたフレームにキーワードの終端が含まれているか否か(若しくは、キーワードの終端の近傍であるか否か)を出力するとともに、入力されたフレームのクラスを示す情報、すなわち、キーワードの始端から入力されたフレームまでどれくらいの期間が経過したかを示す期間情報を出力する。
The
ここで、学習モデルが終端であると判定したフレームから、そのフレームが属するクラスに応じた期間だけ遡ったフレーム若しくはそのフレームの近傍には、キーワードの始端が含まれていると推定される。この結果、情報提供装置10は、キーワード区間を精度よく抽出可能な学習モデルの学習を実現することができる。
Here, it is estimated that the start point of the keyword is included in the frame that is traced back from the frame in which the learning model is determined to be the end for the period corresponding to the class to which the frame belongs, or in the vicinity of the frame. As a result, the
また、上述した学習処理により学習が行われた学習モデルは、時系列順に入力されたキーワードの各フレームの特徴に基づいて、キーワードの終端を推定する。このため、学習モデルは、キーワードに複数の単語が含まれる場合や無音の区間が含まれる場合であっても、キーワードの終端を適切に推定することができる。 The learning model learned by the above-described learning process estimates the end of the keyword based on the characteristics of each frame of the keyword input in chronological order. Therefore, the learning model can appropriately estimate the end of the keyword even when the keyword includes a plurality of words or a silent section.
なお、上述した説明では、情報提供装置10は、キーワード全体の特徴と、キーワードの始端から経過した期間とをモデルに学習させたが、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、すくなくとも、キーワードの終端付近の特徴と、キーワードの始端から経過した期間とをモデルに学習させればよい。このような学習が行われた場合、モデルは、キーワードの終端と類似する音声が入力された場合に、キーワードの終端を検出した旨を出力するとともに、キーワードの始端から検出した終端までの期間を示す情報を出力することとなる。このような出力からも、終端と検出されたフレームから、モデルが検出した期間だけ遡ることで、キーワード若しくは一部がキーワードと類似する音声が含まれる区間を検出することができる。このような区間の検出を行い、実際にキーワードが含まれるか否かについては、他のモデル等を用いて判定を行ってもよい。
In the above description, the
〔1−3.検出処理について〕
一方、端末装置100は、情報提供装置10により学習が行われた学習モデルを用いて、利用者の発話からキーワード区間を検出する。例えば、端末装置100は、マイク等を用いて、利用者の発話を含む音声情報を取得する。そして、端末装置100は、検出対象となる対象音声の終端と、対象音声の始端から経過した期間とを学習させたモデル、すなわち、情報提供装置10により学習が行われた学習モデルを用いて、取得された音声情報から、対象音声の始端を検出する。
[1-3. About detection processing]
On the other hand, the
例えば、端末装置100は、マイク等を用いて取得した音声情報を複数のフレームに分割し、時系列順に各フレームを学習モデルに入力する。上述した学習処理により学習が行われた学習モデルにフレームを入力した場合、学習モデルは、入力されたフレームに終端が含まれているか否かを示す情報(例えば、終端が含まれているか否かを示す確度や、終端が含まれているか否かを示す2値の情報)を出力するとともに、入力されたフレームに含まれる音声がキーワードの始端からどれくらい経過した際の音声であるかを示す情報、すなわち、始端からの経過時間に応じたクラスを示す情報を出力する。例えば、学習モデルは、入力されたフレームが各クラスに属する事後確率(すなわち、各クラスに属する確度)を出力することとなる。すなわち、学習モデルは、フレームに終端が含まれているか否かのクラス分類(以下、「終端クラス分類」と記載する場合がある。)を行うとともに、始端からの経過時間に応じたクラス分類(以下、「経過クラス分類」と記載する場合がある。)とを同時に行うこととなる。
For example, the
このような学習モデルを用いて、端末装置100は、入力されたフレームに終端が含まれているか否かを特定するとともに、入力されたフレームに含まれる音声が始端からどれくらい経過した音声であるかを特定する。例えば、端末装置100は、学習モデルによる終端クラス分類の結果に基づいて、あるフレームにキーワードの終端が含まれている旨を特定した場合は、そのフレームの経過クラス分類の結果を特定する。そして、端末装置100は、特定したクラスに応じた期間だけ遡ったフレームにキーワードの始端が含まれていると推定し、キーワードの始端が含まれているフレームから、キーワードの終端が含まれているフレームまでをキーワード区間として抽出する。このような処理の結果、端末装置100は、キーワード区間を精度良く検出することができる。
Using such a learning model, the
〔1−4.処理の一例〕
続いて、図1を用いて、情報提供装置10が実行する学習処理の一例、および、端末装置100が実行する検出処理の一例について説明する。例えば、情報提供装置10は、データサーバDSからモデルの学習に用いる学習データを取得する(ステップS1)。そして、情報提供装置10は、キーワードの終端と始端から各区間までの経過時間とをモデルに学習させる(ステップS2)。
[1-4. Example of processing]
Subsequently, an example of a learning process executed by the
例えば、情報提供装置10は、学習データとして、キーワードの発話音声を含む音声データと、音声データの各区間にキーワードの終端が含まれるか否かを示す終端ラベルと、各区間が属するクラスを含むクラスラベルとを含む学習データLD1を取得する。なお、キーワードに複数の単語が含まれる場合や、無音の区間が含まれる場合は、複数の単語を発声した音声、又は、無音の区間を含む音声を対象音声として含む音声データを学習データとして取得することとなる。
For example, the
例えば、図1に示す例では、学習データLD1は、始端S1と終端E1とを有するキーワードを含む音声データを有する。また、学習データLD1において、音声データは、区間「1」〜「23」に分割されている。また、学習データLD1は、各区間ごとに、キーワードの終端E1が含まれているか否かを示す終端ラベルが付与されている。例えば、学習データLD1の各区間「1」〜「23」には、終端E1が含まれていない旨を示す値「0」、若しくは、終端E1が含まれている旨を示す値「1」が付与されている。 For example, in the example shown in FIG. 1, the learning data LD1 has voice data including a keyword having a start end S1 and an end end E1. Further, in the learning data LD1, the voice data is divided into sections “1” to “23”. Further, the learning data LD1 is provided with an end label indicating whether or not the end E1 of the keyword is included in each section. For example, the value "0" indicating that the end E1 is not included in each section "1" to "23" of the learning data LD1 or the value "1" indicating that the end E1 is included is Has been granted.
また、学習データLD1は、各区間ごとに、始端S1から経過した期間に応じたクラスを示すクラスラベルが付与されている。例えば、図1に示す例では、始端S1が区間「3」に含まれている。このような場合、学習データLD1の区間「1」、「2」には、クラスラベル「0」が付与されており、区間「3」〜「21」には、順にクラスラベル「1」〜「19」が付与されている。 Further, the learning data LD1 is provided with a class label indicating a class according to the period elapsed from the starting end S1 for each section. For example, in the example shown in FIG. 1, the start end S1 is included in the section “3”. In such a case, the class label “0” is given to the sections “1” and “2” of the learning data LD1, and the class labels “1” to ““ in order to the sections “3” to “21”. 19 ”is given.
ここで、学習データLD1において、終端が含まれる区間よりも後の区間には、クラスラベル「0」が付与されている。例えば、学習データの区間「21」には、キーワードの終端が含まれているため、終端ラベル「1」が付与されており、区間「21」よりも後の区間「22」、「23」には、クラスラベル「0」が付与されている。 Here, in the learning data LD1, a class label “0” is given to a section after the section including the end. For example, since the section “21” of the learning data includes the end of the keyword, the end label “1” is added to the sections “22” and “23” after the section “21”. Is assigned the class label “0”.
なお、キーワードが平均して20区間程度で発話される場合、クラスレベルの最大値を20としてもよい。また、図1に示す例では、キーワードの終端が含まれる区間よりも後の区間に対し、クラスラベル「0」を付与したが、実施形態は、これに限定されるものではない。例えば、終端が含まれる区間よりも後の区間に対しても、連続する一連のクラスラベルが付与されてもよく、クラスラベルの最大値を超えた区間については、前の区間と同一のクラスラベルが付与されてもよい。例えば、区間「22」、「23」には、クラスラベル「20」、「21」が付与されてもよく、同一のクラスラベル「20」が付与されてもよい。 When the keywords are spoken in about 20 sections on average, the maximum class level value may be set to 20. Further, in the example shown in FIG. 1, the class label “0” is given to the section after the section including the end of the keyword, but the embodiment is not limited to this. For example, a continuous series of class labels may be given to a section after the section including the end, and a section exceeding the maximum class label value has the same class label as the previous section. May be given. For example, the class labels “20” and “21” may be given to the sections “22” and “23”, or the same class label “20” may be given.
なお、図1に示す学習データLD1は、23個の区間に分割されているが、実施形態は、これに限定されるものではない。図1に示す学習データLD1は、発明の理解を容易にするために模式的に示したものであり、実際には、より多くの区間に分割されることとなる。具体的な例を挙げると、音声データを処理する際のフレームが20ミリ秒であり、学習データLD1に含まれる音声データが3秒のデータである場合、音声データは、150個のフレームに分割されることとなる。 The learning data LD1 shown in FIG. 1 is divided into 23 sections, but the embodiment is not limited to this. The learning data LD1 shown in FIG. 1 is schematically shown to facilitate understanding of the invention, and is actually divided into more sections. As a specific example, when the frame for processing the audio data is 20 milliseconds and the audio data included in the learning data LD1 is 3 seconds, the audio data is divided into 150 frames. Will be done.
図1に示す学習データLD1の各区間は、1つのフレームに対応するものであってもよく、複数のフレームに対応してもよい。また、終端ラベルやクラスラベルは、任意の単位で各区間に付与されていてよい。例えば、終端ラベルは、各フレームごとに付与され、クラスラベルは、複数のフレームごとに付与されるものであってもよい。また、クラスラベルは、キーワード区間と対応する各フレームに対し、フレームごとに異なる値が付与されていてもよい。 Each section of the learning data LD1 shown in FIG. 1 may correspond to one frame or may correspond to a plurality of frames. Further, the end label and the class label may be given to each section in arbitrary units. For example, the end label may be given to each frame and the class label may be given to each of a plurality of frames. Further, as the class label, a different value may be given to each frame corresponding to the keyword section.
まず、情報提供装置10は、LSTMの構造を有するモデルMを準備する。そして、情報提供装置10は、学習データLD1に含まれる音声データの各フレームを時系列順にモデルに入力した際に、入力されたフレームに付与された終端ラベルとクラスラベルとを出力するように、モデルMの学習を行う。なお、このような学習は、例えば、バックプロパゲーションや確率的勾配降下法等、LSTMの学習を実現する任意の学習手法が採用可能である。
First, the
例えば、情報提供装置10は、区間「3」に含まれるフレームをモデルMに入力した場合は、モデルMが終端ラベル「0」とクラスラベル「1」とを出力するように、モデルMの学習を行う。同様に、情報提供装置10は、各フレームを時系列順にモデルMに入力し、各フレームと対応する終端ラベルとクラスラベルとを出力するように、モデルMの学習を行う。なお、情報提供装置10は、適切な学習を行うため、例えば、終端ラベルが「0」となるフレーム等、一部の学習データをランダムな順序で入力してもよい。
For example, the
このように、情報提供装置10は、所定の区間に含まれる音声を前記モデルに入力した際に、その所定の区間に対象音声の終端が含まれているか否かを示す終端情報と、対象音声の始端からその所定の区間までの期間を示す期間情報とを出力するように、モデルMの学習を行う。また、情報提供装置10は、音声情報を複数の区間に分割し、所定の区間に含まれる音声を入力した際に、対象音声の始端から所定の区間までの期間に応じた分類結果を出力するよう、モデルの学習を行う。
As described above, the
なお、情報提供装置10は、学習データLD1のみならず、複数の学習データを用いて、モデルMの学習を行う。ここで、情報提供装置10は、モデルMによる処理精度を向上させるため、様々な利用者により発話されたキーワードを含む学習データを用いてよい。また、情報提供装置10は、テレビジョンから発せられた音声や他の利用者の発話、ホワイトノイズ等の各種雑音を付加した音声データを含む学習データを用いて、モデルMの学習を行ってよい。
The
そして、情報提供装置10は、学習が行われた学習モデルMを端末装置100に提供する(ステップS3)。このような場合、端末装置100は、利用者の発話を受付ける(ステップS4)。例えば、端末装置100は、利用者が順に発話したキーワードおよび処理発話の音声をマイクを用いて取得する。そして、端末装置100は、学習モデルMを用いて、取得した音声からキーワードの終端を推定し、学習モデルMにより推定されたキーワードの終端までの経過期間に基づいて、キーワード区間の始端を推定する(ステップS5)。
Then, the
例えば、端末装置100は、利用者から取得した音声(以下、「発話音声」と記載する)を複数の区間に分割し、各区間の音声を時系列順に学習モデルMに入力する。そして、端末装置100は、各区間ごとに、学習モデルMが出力した終端ラベルとクラスラベルとを取得する。そして、端末装置100は、区間「19」の音声を入力した際に、学習モデルM1が終端ラベル「1」を出力した場合は、キーワード区間の終端が区間「19」であると推定する。また、端末装置100は、区間「19」の音声を入力した際に、学習モデルM1がクラスラベル「15」を出力した場合は、区間「19」から「15」クラス分前の区間、すなわち、区間「4」にキーワードの始端が含まれていると推定する。そして、端末装置100は、区間「4」から区間「19」までの間がキーワード区間であると推定する。
For example, the
続いて、端末装置100は、推定したキーワード区間に含まれる音声を用いて、所定の処理を実行する(ステップS6)。例えば、端末装置100は、キーワード区間に含まれる音声の解析を行い、キーワードが発話されたか否かを判定してもよく、ビームフォーミング等を実行し、後続する処理発話の強調等を行ってもよい。また、端末装置100は、単に、キーワード区間に後続する処理発話の解析を行い、解析結果と対応する処理を実行してもよい。そして、端末装置100は、処理結果を利用者に対して提供する(ステップS7)。
Then, the
このように、端末装置100は、学習対象となった音声情報である学習情報に含まれる各区間ごとに、対象音声の終端が含まれているか否かと、対象音声の始端から処理対象の区間までの期間とを学習させたモデルを用いて、発話音声から対象音声の始端を含む区間を検出する。例えば、端末装置100は、再帰型ニューラルネットワークの構成を有する学習モデルMに対し、発話音声の各区間に含まれる音声を先頭から順に入力し、学習モデルMが出力した終端情報と期間情報とに基づいて、対象音声の始端を含む区間を検出する。
As described above, the
すなわち、端末装置100は、所定の区間に含まれる音声が入力された場合にその所定の区間に対象音声の終端が含まれているか否かを示す終端情報と、対象音声の始端からその所定の区間までの期間を示す期間情報とを出力するように学習が行われた学習モデルMを用いて、発話音声から対象音声の始端を含む区間を検出する。また、端末装置100は、発話音声を複数の区間に分割し、分割した区間のうち、音声を入力した際に対象音声の終端が含まれている旨を示す終端情報を学習モデルMが出力した区間を特定し、特定した区間について学習モデルMが出力した期間情報に基づいて、対象音声の始端が含まれる区間を検出する。
That is, the
このような処理の結果、端末装置100は、1つの学習モデルMにより、キーワードの検出に加えて、キーワード区間を適切に推定することができる。また、端末装置100は、LSTMにより構成される学習モデルMを用いて、キーワードの終端を推定し、推定したキーワードの終端から遡ってキーワードの始端を推定する。ここで、LSTM等の再帰型ニューラルネットワークにおいては、それまでに入力されたデータの特徴を考慮して、新たに入力されたデータが所定の条件を満たすか否かを判定することができる。このため、端末装置100は、キーワード全体の発話を待って、キーワード区間の検出を行うことができるので、キーワード区間を精度よく検出することができる。
As a result of such processing, the
また、キーワードの終端を検出するタスクとともに、キーワードの始端から各区間までの経過期間とを推定するタスクとのマルチタスク学習を行わせた場合、音声が有する特徴のうち各タスクを実現するための特徴をモデルが多角的に学習することとなる。このような処理の結果、学習モデルMにおいては、キーワードの終端を検出するタスクのみを学習させたモデルよりも、キーワードの終端をより精度よく検出することができる。 In addition, when performing multitask learning with the task of detecting the end of the keyword and the task of estimating the elapsed time from the start of the keyword to each section, in order to realize each task among the features of the voice. The model learns the features from multiple angles. As a result of such processing, in the learning model M, the keyword end can be detected more accurately than in the model in which only the task of detecting the keyword end is learned.
〔1−5.モデルについて〕
上述した説明では、情報提供装置10は、LSTMの構造を有するモデルを学習モデルMとした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、BidirectionalLSTM等、LSTMから派生した各種のニューラルネットワークであってもよく、各種RNNであってもよい。また、情報提供装置10は、入力された音声の区間にキーワードの終端が含まれているか否かと、キーワードの始端から入力された音声の区間までの期間とを同時に学習させるのであれば、SVM(Support Vector Machine)やDNN(Deep Neural Network)、CNN(Convolutional Neural Network)等といった任意の構成を有するモデルを採用してよい。
[1-5. About the model]
In the above description, the
また、情報提供装置10は、複数のモデルを用いて、学習を行ってもよい。例えば、情報提供装置10は、キーワードの終端を検出するように第1モデルの学習を行うとともに、キーワードの始端から各区間までの経過期間を第2モデルに学習させる。そして、端末装置100は、このような第1モデルと第2モデルとに対して、個別に発話音声の各区間を入力し、第1モデルが終端であると判定した区間から、第2モデルが出力した経過期間分だけ遡った区間を、キーワードの始端を含む区間としてもよい。
Moreover, the
〔1−6.区間について〕
上述した例では、情報提供装置10は、学習データを複数の区間に分割し、区間ごとに終端ラベルの値とクラスラベルの値とをモデルに学習させた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、学習データを所定長のフレームに分割し、フレームごとに終端ラベルの値を学習させるとともに、複数のフレームを含む区間ごとにクラスラベルの値を学習させてもよい。すなわち、情報提供装置10は、キーワードの終端についてはフレームごとの学習を行い、経過期間については、複数のフレームごとの学習を行ってもよい。また、入力されたフレームをいくつのクラスに分類するかについては、任意の態様が採用可能である。
[1-6. About section]
In the example described above, the
〔1−7.学習処理について〕
上述した例では、キーワードの終端について「1」若しくは「0」といった2値の値を出力するようにモデルの学習を行い、経過期間(すなわち、クラス)について「1」〜「20」といった整数値を出力するようにモデルの学習を行う例について記載した。
[1-7. About learning processing]
In the above-mentioned example, the model is trained so as to output a binary value such as "1" or "0" at the end of the keyword, and an integer value such as "1" to "20" for the elapsed period (that is, class). An example in which the model is trained to output is described.
ここで、実際には、情報提供装置10は、入力されたフレームにキーワードの終端が含まれている確度を出力するようにモデルの学習を行う。このような場合、端末装置100は、あるフレームを学習モデルMに入力した際に、学習モデルMが出力した確度が所定の閾値を超える場合は、そのフレームにキーワードの終端が含まれていると推定してもよい。
Here, in reality, the
また、情報提供装置10は、入力されたフレームが各クラスに属する確度をそれぞれ出力するようにモデルの学習を行う。このような場合、端末装置100は、あるフレームを学習モデルMに入力した際に、学習モデルMが出力した確度が所定の閾値を超えるクラスを、入力したフレームが属するクラスと判定してもよい。換言すると、端末装置100は、各経過期間のうち、学習モデルM1が出力した確度が所定の閾値を超える経過期間を特定し、入力されたフレームが、キーワードの始端から特定した経過期間だけ後のフレームであると推定してもよい。
The
なお、入力されたフレームが、終端クラス分類や経過クラス分類の各クラスごとに確度を出力するように学習モデルの学習を行う場合、所定の閾値を超えるクラスが複数存在する事象が生じうる。そこで、情報提供装置10は、各クラスの確度の最大値を特定し、確度が最も高いクラスを採用することとしてもよい。すなわち、情報提供装置10は、各クラスの確度に関してargmaxを取ることによってクラスの決定を行ってもよい。また、情報提供装置10は、このようなargmaxの処理を行う出力層を備えたモデルの学習を行ってもよい。また、情報提供装置10は、確度が所定の閾値を超えたクラスのうち、確度が最大となるクラスにフレームの分類を行うように、学習モデルの学習を行ってもよい。
When the learning model is learned so that the input frame outputs the accuracy for each class of the terminal class classification and the elapsed class classification, there may occur a plurality of classes exceeding the predetermined threshold. Therefore, the
なお、情報提供装置10は、経過期間に関しては、回帰問題で解いてもよい。例えば、情報提供装置10は、経過時間のクラス分類ではなく、始端から経過したと推定される期間を示す数値そのものを出力するように、モデルの学習を行ってもよい。例えば、情報提供装置10は、クラスラベルに代えて、キーワードの始端から各フレームまでの経過時間を含む学習データの特徴をモデルに学習させてもよい。
The
〔1−7.適用対象について〕
上述した例では、情報提供装置10は、起動音声となるキーワードの検出を行うモデルの学習を行った。しかしながら、実施形態は、これに限定されるものではない。情報提供装置10は、検出目的となる音声であれば、任意の音声の検出を行うモデルの学習を行ってよい。すなわち、情報提供装置10は、各種の音声データの中から、所定の機械音、環境音、ノイズ等、検出目的となる音を含む区間を検出するため、検出目的となる音の終端と、検出目的となる音の始端から経過した期間とをモデルに学習させるのであれば、任意の音を検出目的として良い。
[1-7. About application target]
In the example described above, the
〔1−8.実行主体について〕
上述した例では、情報提供装置10により学習処理が行われ、端末装置100により検出処理が実行された。しかしながら、実施形態は、これに限定されるものではない。例えば、学習処理および検出処理は、情報提供装置10により実行されてもよい。このような場合、情報提供装置10は、端末装置100が取得した発話音声を受付け、学習モデルMを用いて、受付けた発話音声からキーワード区間を検出することとなる。また、上述した学習処理および検出処理は、端末装置100によって実現されてもよい。
[1-8. Execution subject]
In the example described above, the learning process is performed by the
〔2.機能構成の一例〕
以下、上記した学習処理を実現する情報提供装置10が有する機能構成の一例、および、上述した検出処理を実現する端末装置100が有する機能構成の一例について説明する。
[2. Example of functional configuration]
Hereinafter, an example of a functional configuration of the
〔2−1.情報提供装置の機能構成の一例について〕
まず、図2を用いて、情報提供装置10が有する機能構成の一例を説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
[2-1. Regarding an example of the functional configuration of the information providing device]
First, an example of the functional configuration of the
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、例えば、端末装置100、データサーバDSおよび外部サーバOSとの間で情報の送受信を行う。
The
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、学習データデータベース31およびモデルデータベース32を記憶する。
The
学習データデータベース31は、学習データが登録される。例えば、図3は、実施形態に係る学習データデータベースに登録される情報の一例を示す図である。図3に示すように、学習データデータベース31には、「学習データID(Identifier)」、「区間」、「音声データ」、「終端タグ」、および「クラスラベル」といった項目を有する情報が登録される。なお、図3に示す例では、「区間」ごとに音声データ、終端タグ、およびクラスラベルが格納される例について記載したが、実際には、フレームごとに音声データ、終端タグ、およびクラスラベルが格納されていてもよい。
Learning data is registered in the learning
ここで、「学習データID」とは、学習データの識別子である。また、「区間」とは、学習データとなる音声データを分割した各区間を識別するための情報であり、例えば、区間に付与された一連の番号である。また、「音声データ」とは、対応付けられた「区間」が示す区間に含まれる音声データ、すなわち音響信号である。また、「終端タグ」とは、対応付けられた「区間」にキーワードの終端が含まれているか否かを示す情報である。また、「クラスラベル」は、対応付けられた「区間」に含まれる音声が、キーワードの始端からどれくらい経過した際の音声であるかを示す区間情報であり、対応付けられた「区間」が属するクラスを示す情報である。 Here, "learning data ID" is an identifier of learning data. Further, the “section” is information for identifying each section obtained by dividing the audio data that is the learning data, and is, for example, a series of numbers given to the section. Further, the “voice data” is voice data included in the section indicated by the associated “section”, that is, an acoustic signal. The “end tag” is information indicating whether the associated “section” includes the end of the keyword. Further, the “class label” is section information indicating how long the voice included in the associated “section” is the voice after the beginning of the keyword, and the associated “section” belongs to the “class label”. This is information indicating a class.
例えば、図3に示す例では、学習データデータベース31には学習データID「LD1」、区間「1」、音声データ「SD1」、終端タグ「0」、およびクラスラベル「0」が対応付けて登録されている。このような情報は、学習データID「LD1」が示す学習データのうち、区間「1」に含まれるの音声データとして音声データ「SD1」が登録されており、区間「1」における終端タグの値が「0」であり、クラスラベルの値が「0」である旨を示す。
For example, in the example shown in FIG. 3, the learning data ID “LD1”, the section “1”, the voice data “SD1”, the end tag “0”, and the class label “0” are associated and registered in the learning
なお、図3に示す例では、「SD1」といった概念的な値を記載したが、実際には、学習データデータベース31には、音声データとして各フレームの音声の音量や周波数分布等を示す情報が登録されることとなる。また、学習データデータベース31には、「区間」に代えて、フレーム番号等が登録されていてもよい。また、図3に示す情報以外にも、学習データデータベース31には、任意の情報が登録されていてよい。
Note that in the example shown in FIG. 3, a conceptual value such as “SD1” is described, but in reality, the learning
図2に戻り、説明を続ける。モデルデータベース32には、学習モデルが登録される。すなわち、モデルデータベース32には、検出対象となる対象音声の終端と、対象音声の始端から経過した期間とを学習させた学習モデルMのデータが登録される。例えば、モデルデータベース32には、学習モデルM1のデータとして、それぞれが1つ又は複数のノードを含む多段の層を構成するノードの情報と、各ノード間の接続関係を示す情報と、ノード間で情報を伝達する際の重みである接続係数とが登録される。 Returning to FIG. 2, the description will be continued. Learning models are registered in the model database 32. That is, in the model database 32, the data of the learning model M in which the end of the target voice to be detected and the period elapsed from the start of the target voice are learned are registered. For example, in the model database 32, as data of the learning model M1, information on nodes forming a multi-tiered layer each including one or a plurality of nodes, information indicating a connection relationship between each node, A connection coefficient, which is a weight for transmitting information, is registered.
ここで、学習モデルM1は、学習データである音響信号が入力される入力層を有する。また、学習モデルM1は、入力された音響信号に対象音声の終端が含まれているか否かを示す終端情報と、入力された音響信号が対象音声の始端からどれくらい経過した際の音響信号であるのかを示す期間情報、すなわち、入力された音響信号の分類先となるクラスを示す情報とを出力する出力層を有する。 Here, the learning model M1 has an input layer to which an acoustic signal that is learning data is input. Further, the learning model M1 is termination information indicating whether or not the input sound signal includes the end of the target sound, and the sound signal when the input sound signal has elapsed from the start end of the target sound. The output layer outputs period information indicating whether or not, that is, information indicating a class to which the input acoustic signal is classified.
また、学習モデルM1は、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された情報に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と第1要素の重みとに基づく演算を行うことにより、入力層に入力された情報と対応する情報を出力層から出力するようコンピュータを機能させる。 Further, the learning model M1 has a value calculated based on the first element belonging to any layer from the input layer to the output layer and other than the output layer, and the first element and the weight of the first element. And a second element which is included in the input layer, and performs an operation based on the first element and the weight of the first element with respect to the information input to the input layer, with each element belonging to each layer other than the output layer as the first element. This causes the computer to function so that the information corresponding to the information input to the input layer is output from the output layer.
このような学習モデルM1は、例えば、学習時および測定時において、入力層に音声データが入力された場合に、出力層から、終端情報と期間情報とを出力するようコンピュータを機能させる。そして、情報提供装置10は、学習時においては、学習モデルM1が出力する終端情報と期間情報とが、入力された音声データと対応する終端情報と期間情報とを示すように、学習モデルM1の接続係数を修正する。
Such a learning model M1 causes a computer to output termination information and period information from the output layer when voice data is input to the input layer during learning and measurement, for example. Then, at the time of learning, the
ここで、学習モデルM1がSVMや回帰モデルで実現される場合、学習モデルM1は、入力層と出力層とを有する単純パーセプトロンと見做すことができる。学習モデルM1を単純パーセプトロンと見做した場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードと見做すことができる。また、学習モデルM1をDNN等、1つまたは複数の中間層を有するニューラルネットワークで実現される場合、各モデルが含む第1要素とは、入力層または中間層が有するいずれかのノードと見做すことができ、第2要素とは、第1要素と対応するノードから値が伝達されるノード、すなわち、次段のノードと対応し、第1要素の重みとは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重み、すなわち、接続係数である。 Here, when the learning model M1 is realized by the SVM or the regression model, the learning model M1 can be regarded as a simple perceptron having an input layer and an output layer. When the learning model M1 is regarded as a simple perceptron, the first element can be regarded as a node included in the input layer, and the second element can be regarded as a node included in the output layer. When the learning model M1 is realized by a neural network having one or a plurality of intermediate layers such as DNN, the first element included in each model is regarded as any node included in the input layer or the intermediate layer. The second element corresponds to the node whose value is transmitted from the node corresponding to the first element, that is, the node in the next stage, and the weight of the first element corresponds to the first element. It is a weight, that is, a connection coefficient, which is considered for the value transmitted from the node to the node corresponding to the second element.
ここで、情報提供装置10は、学習データデータベース31に登録される学習データを用いて、上述した検出処理を実行するための学習モデルM1を生成する。すなわち、学習データデータベース31に登録される学習データは、音響信号が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された音響信号に対し、出力層以外の各層に属する各要素を第1要素として、第1要素と、第1要素の重みであって、対象音声の特徴と、対象音声の始端から対象音声の各区間までの期間との特徴を反映させた重みに基づく演算を行うことにより、終端情報と期間情報とを出力層から出力するよう、コンピュータを機能させるためのデータである。
Here, the
制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、情報提供装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
The
図2に示すように、制御部40は、データ取得部41、学習部42、および提供部43を有する。データ取得部41は、検出対象となる対象音声が含まれる音声情報を取得する。例えば、データ取得部41は、データサーバDSから学習データとして、複数の区間に分割された音声データと、各区間に含まれる音声に対象音声の終端が含まれているか否かを示す終端タグと、対象音声の始端から各区間に含まれる音声までの期間を示す期間情報、すなわちクラスデータとを対応付けた情報を取得する。そして、データ取得部41は、取得した学習データを学習データデータベース31に登録する。
As shown in FIG. 2, the
なお、データ取得部41は、端末装置100に所定の動作を実行させるための音声、すなわち、起動音声であるキーワードを対象音声として含む音声情報を取得してもよい。また、データ取得部41は、複数の単語を発声した音声、又は、無音の区間を含む音声を対象音声として含む音声情報を取得してもよい。このように、どのような音声を対象音声とするかについては、任意の設定が可能であるが、設定された対象音声を適切に検出するため、データ取得部41は、検出対象となる音声と特徴が類似する音声を学習データとして取得するのが望ましい。
The data acquisition unit 41 may acquire voice for causing the
学習部42は、対象音声の終端と、対象音声の始端から経過した期間とをモデルに学習させる。例えば、学習部42は、対象音声全体の特徴に基づいて、キーワードの終端を検出するモデルを学習する。より具体的な例を挙げると、学習部42は、キーワードの各区間が有する特徴の出現順序に基づいて、キーワードの終端を含む区間を検出するようにモデルの学習を行う。
The
例えば、学習部42は、音声情報を複数の区間に分割し、各区間ごとに、対象音声の終端が含まれているか否かと、対象音声の始端から当該区間までの期間とをモデルに学習させる。より具体的な例を挙げると、学習部42は、所定の区間に含まれる音声をモデルに入力した際に、所定の区間に対象音声の終端が含まれているか否かを示す終端情報と、対象音声の始端から所定の区間までの期間を示す期間情報とを出力するように、モデルの学習を行う。すなわち、学習部42は、音声情報を複数の区間に分割し、所定の区間に含まれる音声を入力した際に、対象音声の始端から所定の区間までの期間に応じた分類結果を出力するよう、モデルの学習を行えばよい。
For example, the
なお、通常のDNN等を用いた場合、対象音声が有する特徴のうち、終端の周辺のみの特徴に基づいて対象音声の終端を検出するといった現象が考えられる。このような検出を行った場合は、対象音声の終端と特徴が類似する音声を対象音声の終端として検出してしまう恐れがある。そこで、学習部42は、対象音声全体の特徴に基づいて対象音声の終端を検出させるため、再帰型ニューラルネットワークの構成を有するモデルに対し、対象音声の終端と、対象音声の始端から経過した期間とを学習させればよい。
In addition, when a normal DNN or the like is used, a phenomenon in which the end of the target voice is detected based on the features only around the end of the features of the target voice can be considered. When such detection is performed, there is a possibility that a voice having characteristics similar to the end of the target voice may be detected as the end of the target voice. Therefore, in order to detect the end of the target voice based on the characteristics of the entire target voice, the
例えば、学習部42は、LSTMの構成を有するモデルを生成すると共に、学習データデータベース31から処理対象となる学習データを1つ読み出す。続いて、学習部42は、読み出した学習データの各区分について、時系列順(すなわち、区間の番号が若い順に)以下の処理を実行する。まず、学習部42は、処理対象となる区間の音声データをモデルに入力する。例えば、学習部42は、音声データが示す音声の周波数や振幅等を入力してもよく、音声が有する特徴をモデルに入力してもよい。そして、学習部42は、音声が入力されたモデルの出力が、処理対象となる区間の終端タグとクラスラベルとを示すように、モデルが有する接続係数の修正を行う。
For example, the
以下、音声データ「SD10」に終端タグ「1」とクラスラベル「18」とが対応付けて登録されている例について説明する。例えば、学習部42は、音声データ「SD10」をモデルに入力する。このような場合、学習部42は、モデルが有する出力層の各ノードのうち、終端情報を出力するためのノードから、所定の閾値以上の確度を示す値(すなわち、終端タグ「1」に対応する値)が出力され、かつ、モデルが有する出力層の各ノードのうち、クラスラベル「18」と対応するノードから、所定の閾値以上の確度を示す値が出力されるように、モデルの接続係数を修正する。また、学習部42は、他の学習データについても同様の処理を行う。そして、学習部42は、モデルを学習モデルMとしてモデルデータベース32に登録する。
Hereinafter, an example in which the end tag “1” and the class label “18” are registered in association with the voice data “SD10” will be described. For example, the
提供部43は、学習モデルを端末装置100に提供する。例えば、提供部43は、端末装置100からの要求に基づき、モデルデータベース32から学習モデルMを読出し、読み出した学習モデルMを端末装置100に送信する。
The providing
〔2−2.端末装置の機能構成の一例について〕
続いて、図4を用いて、端末装置100が有する機能構成の一例を説明する。図4は、実施形態に係る端末装置の構成例を示す図である。図4に示すように、端末装置100は、通信部120、記憶部130、制御部140、マイクMCおよびスピーカーSPを有する。
[2-2. Example of functional configuration of terminal device]
Next, an example of the functional configuration of the
通信部120は、例えば、NIC等によって実現される。そして、通信部120は、ネットワークNと有線または無線で接続され、例えば、情報提供装置10、データサーバDSおよび外部サーバOSとの間で情報の送受信を行う。
The
記憶部130は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部130は、情報提供装置10から配信される学習モデルMを記憶する。
The
マイクMCは、利用者が発話した音声、すなわち発話音声等、端末装置100の周囲から発せられた音声を受付けるマイク、すなわち、入力装置である。また、スピーカーSPは、各種の音声を出力するためのスピーカー、すなわち、出力装置である。なお、端末装置100は、複数のマイクMCを有していてもよく、複数のスピーカーSPを有していてもよい。
The microphone MC is a microphone that receives a voice uttered by the user, that is, a voice that is uttered from the surroundings of the
制御部140は、コントローラであり、例えば、CPU、MPU等のプロセッサによって、端末装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部140は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
The
また、制御部140は、音声取得部141、検出部142、および処理部143を有する。音声取得部141は、音声情報を取得する。例えば、音声取得部141は、マイクMCを介して、利用者の発話音声等を音声情報として取得する。
The
検出部142は、検出対象となる対象音声の終端と、対象音声の始端から経過した期間とを学習させたモデルを用いて、音声取得部141により取得された音声情報から、対象音声の始端を検出する。例えば、検出部142は、記憶部130に登録された学習モデルMを読み出す。そして、検出部42は、音声取得部141により取得された音声情報を、区分ごとに、取得された時系列に沿って順次学習モデルMに入力する。そして、検出部42は、学習モデルMの出力に基づいて、対象音声の終端と始端とを検出し、検出した始端から終端までの範囲をキーワード区間として特定する。
The detection unit 142 uses the model in which the end of the target voice to be detected and the period elapsed from the start end of the target voice are learned to determine the start end of the target voice from the voice information acquired by the voice acquisition unit 141. To detect. For example, the detection unit 142 reads the learning model M registered in the
例えば、検出部142は、音声取得部141により取得された音声情報を複数の区間に分割し、分割した区間のうち、区間に含まれる音声を入力した際に、対象音声の終端が含まれている旨を示す終端情報を学習モデルMが出力した区間を特定する。続いて、検出部142は、特定した区間について学習モデルM1が出力した期間情報に基づいて、対象音声の始端が含まれる区間を検出する。そして、検出部142は、検出した始端から終端までをキーワード区間として処理部143に通知する。
For example, the detection unit 142 divides the voice information acquired by the voice acquisition unit 141 into a plurality of sections, and when the voice included in the section is input among the divided sections, the end of the target voice is included. The section in which the learning model M outputs the end information indicating that the learning model M is output is specified. Subsequently, the detection unit 142 detects a section including the start end of the target voice, based on the period information output by the learning model M1 for the specified section. Then, the detection unit 142 notifies the
すなわち、検出部142は、学習対象となった音声情報である学習情報に含まれる各区間ごとに、対象音声の終端が含まれているか否かと、対象音声の始端から区間までの期間とを学習させたモデルを用いて、対象音声の始端を含む区間を検出する。また、検出部142は、所定の区間に含まれる音声が入力された場合に所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、対象音声の始端から所定の区間までの期間を示す期間情報とを出力するように学習が行われたモデルを用いて、対象音声の始端を含む区間を検出する。また、検出部142は、再帰型ニューラルネットワークの構成を有するモデルに対し、音声情報の各区間に含まれる音声を先頭から順に入力し、モデルが出力した終端情報と期間情報とに基づいて、対象音声の始端を含む区間を検出する。 That is, the detection unit 142 learns whether or not the end of the target voice is included for each section included in the learning information that is the voice information that is the learning target, and the period from the start end of the target voice to the section. Using the model thus generated, a section including the start end of the target voice is detected. In addition, the detection unit 142, when the voice included in the predetermined section is input, end information indicating whether or not the end of the target voice is included in the predetermined section, and a predetermined section from the start end of the target voice. The period including the start end of the target voice is detected by using the model learned to output the period information indicating the period up to. Further, the detection unit 142 sequentially inputs the voices included in each section of the voice information to the model having the configuration of the recursive neural network from the beginning, and based on the end information and the period information output from the model, the target Detects a section including the beginning of voice.
例えば、図5は、実施形態に係るモデルが出力する情報の一例を示す図である。図5に示す例では、キーワードの発話を含む音声を72個の区間に分割し、各区間の音声を時系列順に入力した際に学習モデルMが出力する情報の一例について示した。また、図5に示す例では、学習モデルMは、出力層に「0」から「16」までの番号が付与された17個のノードを有し、各ノード毎に、0以上1以下の値、すなわち確度を出力するように構成されているものとする。また、図5に示す例では、各ノードが出力した値が所定の第1閾値未満となる区間を白色で示し、第1閾値以上第2閾値未満となる区間を右肩上がりのハッチングで示し、第2閾値以上となる区間を右肩下がりのハッチングで示した。なお、図5に示す例では、確度が第2閾値以上となった場合、ノードが「1」を出力したと判定するものとする。 For example, FIG. 5 is a diagram showing an example of information output by the model according to the embodiment. In the example shown in FIG. 5, the voice including the utterance of the keyword is divided into 72 sections, and an example of information output by the learning model M when the voices in each section are input in chronological order is shown. Further, in the example shown in FIG. 5, the learning model M has 17 nodes to which numbers “0” to “16” are given in the output layer, and a value of 0 or more and 1 or less for each node. That is, it is assumed to be configured to output the accuracy. Further, in the example shown in FIG. 5, a section in which the value output by each node is less than the predetermined first threshold value is shown in white, and a section in which the value output from each node is not less than the first threshold value and less than the second threshold value is shown by upward hatching, The section that is equal to or greater than the second threshold value is indicated by hatching with a downward slope. In the example illustrated in FIG. 5, when the accuracy is equal to or higher than the second threshold value, it is determined that the node outputs “1”.
例えば、図5に示す例では、ノード0は、入力された音声がキーワードの終端でない場合は「1」に近い値を出力し、入力された音声がキーワードの終端である場合は、「0」に近い値を出力するよう学習が行われたノードである。また、ノード1は、入力された音声がキーワードの終端でない場合は「0」に近い値を出力し、入力された音声がキーワードの終端である場合は、「1」に近い値を出力するよう学習が行われたノードである。また、ノード2は、入力された音声がキーワード区間である場合は「0」に近い値を出力し、入力された音声がキーワード区間でない場合は、「1」に近い値を出力するよう学習が行われたノードである。
For example, in the example shown in FIG. 5, the
また、図5に示す例では、ノード4〜ノード16は、それぞれ異なるクラスに対応するノードであり、期間情報を出力するよう学習が行われたノードである。例えば、ノード4は、入力された音声がキーワードの始端から3区間以内の音声である場合は「1」を出力し、それ以外の場合は「0」を出力するように学習が行われたノードである。また、ノード5は、入力された音声がキーワードの始端から3区間以上が経過し、かつ、6区間以内の範囲に含まれる音声である場合は「1」を出力し、それ以外の場合は「0」を出力するように学習が行われたノードである。また、ノード6は、入力された音声がキーワードの始端から6区間以上が経過し、かつ、9区間以内の範囲に含まれる音声である場合は「1」を出力し、それ以外の場合は「0」を出力するように学習が行われたノードである。また、他のノードも同様に、音声がキーワードの始端からそれぞれ異なる区間の音声である場合に「1」を出力するように学習が行われたノードである。なお、学習モデルMは、図5に示すノード以外にも、さらに多くのクラスに対応するノードを有していてもよい。
Further, in the example shown in FIG. 5, the
このような学習モデルMに対して取得した音声を時系列順に入力した場合、各ノード0〜16は、図5に示すような値を出力する。例えば、図5に示す例ではノード1が、区間「49」において、キーワード区間の終端を検知した結果「1」に近い値を出力している。そこで、検出部142は、ノード1が第2閾値を超える値を出力した区間「49」において、キーワードの終端が検出されたと推定する。
When the acquired voices are input to the learning model M in chronological order, the
続いて、検出部142は、ノード4〜ノード16の出力を参照し、区間「49」に含まれる音声が属するクラスを特定する。図5に示す例では、区間「49」において、ノード13が値を出力し始めている。そこで、検出部142は、区間「49」に含まれる音声をノード13と対応するクラスに分類する。ここで、ノード4に対応するクラスからノード13に対応するクラスまでは、10個のクラスが存在し、各クラスに3つの区間が対応付けられている。このため、検出部142は、キーワードの始端から区間「49」までの期間は、30区間が存在していると推定し、区間「49」から30を減算した区間「19」に、キーワードの始端が含まれていると推定する。この結果、検出部142は、区間「19」から区間「49」までがキーワード区間である旨を検出することができる。
Subsequently, the detection unit 142 refers to the outputs of the
図4に戻り、説明を続ける。処理部143は、検出部142により検出された区間に含まれる音声に応じた各種の処理を実行する。例えば、処理部143は、検出された区間内の音声解析を行い、解析結果に応じた各種の処理を実行する。そして、処理部143は、処理の実行結果を示す音声をスピーカーSPから出力する。
Returning to FIG. 4, the description will be continued. The
〔3.情報提供装置および端末装置が実行する処理の流れについて〕
次に、図6、図7を用いて、情報提供装置10および端末装置100が実行する処理の流れの一例について説明する。図6は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図7は、実施形態に係る端末装置が実行する検出処理の流れの一例を示すフローチャートである。
[3. Regarding the flow of processing executed by the information providing device and the terminal device]
Next, an example of the flow of processing executed by the
まず、図6を用いて、学習処理の流れの一例を説明する。まず、情報提供装置10は、対象音声を含む音声情報を学習データとして取得し(ステップS101)、音声情報の各区間について、対象音声の終端が含まれるか否かと、対象音声の始端からの経過時間とをモデルに学習させる(ステップS102)。そして、情報提供装置10は、学習モデルを端末装置100に提供し(ステップS103)、処理を終了する。
First, an example of the flow of learning processing will be described with reference to FIG. First, the
続いて、図7を用いて、検出処理の流れの一例を説明する。まず、端末装置100は、発話音声を受付けたか否かを判定し(ステップS201)、受付けていない場合は(ステップS201:No)、ステップS201を実行する。また、端末装置100は、発話音声を受付けた場合は(ステップS201:Yes)、発話音声を学習モデルに入力し、対象音声の終端を推定する(ステップS202)。続いて、端末装置100は、学習モデルにより推定された経過期間に基づいて、始端を推定する(ステップS203)。そして、端末装置100は、キーワード区間を抽出し、抽出したキーワード区間に含まれる音声に応じた処理を実行し(ステップS204)、処理を終了する。
Next, an example of the flow of detection processing will be described using FIG. 7. First, the
〔4.変形例〕
上記では、情報提供装置10による学習処理や検出処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10や端末装置100が実行する学習処理や検出処理のバリエーションについて説明する。
[4. Modification example)
In the above, an example of the learning process and the detection process by the
〔4−1.クラスに対応する区間について〕
上述した図5を用いた説明では、1つのクラスに3つの区間を対応付けた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、1つのクラスに1つの区間を対応付けるような学習を行ってもよく、1つのクラスに10の区間を対応付けるような学習を行ってもよい。ここで、1つの区間は、1つのフレームと対応してもよく、複数のフレームと対応していてもよい。また、情報提供装置10は、クラスの数に上限値を設けてもよい。
[4-1. About the section corresponding to the class]
In the above description using FIG. 5, one class is associated with three sections. However, the embodiment is not limited to this. For example, the
〔4−2.装置構成〕
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10と端末装置100とは、上述した学習処理および検出処理を連携して実現してもよく、いずれか一方の装置が単独で実行してもよい。
[4-2. Device configuration〕
The
〔4−3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
[4-3. Other]
Further, of the processes described in the above embodiment, all or part of the processes described as being automatically performed may be manually performed, and conversely, the processes described as being manually performed. All or part of the above can be automatically performed by a known method. In addition, the processing procedures, specific names, information including various data and parameters shown in the above-mentioned documents and drawings can be arbitrarily changed unless otherwise specified. For example, the various kinds of information shown in each drawing are not limited to the illustrated information.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。 Further, each constituent element of each illustrated device is a functional conceptual one, and does not necessarily have to be physically configured as illustrated. That is, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or part of the device may be functionally or physically distributed / arranged in arbitrary units according to various loads and usage conditions. It can be integrated and configured.
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Further, the respective embodiments described above can be appropriately combined within a range in which the processing content is not inconsistent.
〔4−4.プログラム〕
また、上述した実施形態に係る情報提供装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
[4-4. program〕
Further, the
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
The
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
The output IF 1060 is an interface for transmitting information to be output to an output device 1010 that outputs various types of information such as a monitor and a printer. For example, a USB (Universal Serial Bus) or a DVI (Digital Visual Interface), It is realized by a connector of a standard such as HDMI (registered trademark) (High Definition Multimedia Interface). The input IF 1070 is an interface for receiving information from
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
The
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
The network IF 1080 receives data from another device via the network N and sends the data to the
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
The
例えば、コンピュータ1000が情報提供装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、学習モデルM1)を実行することにより、制御部40の機能を実現する。コンピュータ1000の演算装置1030は、これらのプログラムまたはデータ(例えば、学習モデルM1)を一次記憶装置1040から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
For example, when the
〔5.効果〕
上述したように、情報提供装置10は、検出対象となる対象音声が含まれる音声情報を取得し、対象音声の終端と、その対象音声の始端から経過した期間とをモデルに学習させる。このため、情報提供装置10は、入力された音声情報から対象音声が含まれる区間を適切に検出可能なモデルの学習を実現する結果、対象音声が含まれる区間の検出精度を向上させることができる。
[5. effect〕
As described above, the
また、情報提供装置10は、音声情報を複数の区間に分割し、各区間ごとに、対象音声の終端が含まれているか否かと、対象音声の始端からその区間までの期間とをモデルに学習させる。また、情報提供装置10は、所定の区間に含まれる音声をモデルに入力した際に、その所定の区間に対象音声の終端が含まれているか否かを示す終端情報と、対象音声の始端からその所定の区間までの期間を示す期間情報とを出力するように、モデルの学習を行う。また、情報提供装置10は、音声情報を複数の区間に分割し、所定の区間に含まれる音声を入力した際に、対象音声の始端からその所定の区間までの期間に応じた分類結果を出力するよう、モデルの学習を行う。
Further, the
このように、情報提供装置10は、対象音声の終端を検出するとともに、検出した終端から期間情報を遡って対象音声の始端の検出を可能とするモデルを学習する。この結果、情報提供装置10は、対象音声全体の特徴を用いて、対象音声が含まれる区間の検出を実現する結果、対象音声が含まれる区間の検出精度を向上させることができる。
In this way, the
また、情報提供装置10は、再帰型ニューラルネットワークの構成を有するモデルに対し、対象音声の終端と、その対象音声の始端から経過した期間とを学習させる。また、情報提供装置10は、所定の端末装置に所定の動作を実行させるための音声を対象音声として含む音声情報を取得する。また、情報提供装置10は、複数の単語を発声した音声、又は、無音の区間を含む音声を対象音声として含む音声情報を取得する。
The
また、情報提供装置10は、対象音声全体の特徴に基づいて、対象音声の終端を検出するようにモデルの学習を行う。例えば、情報提供装置10は、対象音声の各区間が有する特徴の出現順序に基づいて、対象音声の終端を含む区間を検出するようにモデルの学習を行う。上述した処理の結果、情報提供装置10は、対象音声が含まれる区間の検出精度を向上させることができる。
The
また、端末装置100は、音声情報を取得する。そして、端末装置100は、検出対象となる対象音声の終端と、その対象音声の始端から経過した期間とを学習させたモデルを用いて、取得部により取得された音声情報から、対象音声の始端を検出する。このため、端末装置100は、対象音声が含まれる区間の検出精度を向上させることができる。
In addition, the
また、端末装置100は、学習対象となった音声情報である学習情報に含まれる各区間ごとに、対象音声の終端が含まれているか否かと、対象音声の始端からその区間までの期間とを学習させたモデルを用いて、音声情報から対象音声の始端を含む区間を検出する。また、端末装置100は、所定の区間に含まれる音声が入力された場合にその所定の区間に対象音声の終端が含まれているか否かを示す終端情報と、対象音声の始端からその所定の区間までの期間を示す期間情報とを出力するように学習が行われたモデルを用いて、音声情報から対象音声の始端を含む区間を検出する。
In addition, the
また、端末装置100は、取得された音声情報を複数の区間に分割し、分割した区間のうち、区間に含まれる音声を入力した際に対象音声の終端が含まれている旨を示す終端情報をモデルが出力した区間を特定し、特定した区間についてモデルが出力した期間情報に基づいて、対象音声の始端が含まれる区間を検出する。また、端末装置100は、再帰型ニューラルネットワークの構成を有するモデルに対し、音声情報の各区間に含まれる音声を先頭から順に入力し、そのモデルが出力した終端情報と期間情報とに基づいて、対象音声の始端を含む区間を検出する。このような処理の結果、端末装置100は、対象音声全体の特徴に基づいて、対象音声が含まれる区間を検出するので、検出精度を向上させることができる。
Further, the
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。 As described above, some of the embodiments of the present application have been described in detail based on the drawings, but these are examples, and various modifications based on the knowledge of those skilled in the art, including the modes described in the section of the disclosure of the invention, It is possible to implement the present invention in other forms with improvements.
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、検出部は、検出手段や検出回路に読み替えることができる。 Further, the above-mentioned "section (module, unit)" can be read as "means" or "circuit". For example, the detection unit can be replaced with a detection unit or a detection circuit.
10 情報提供装置
20 通信部
30 記憶部
31 学習データデータベース
32 モデルデータベース
40 制御部
41 学習部
42 取得部
43 検出部
44 応答生成部
45 提供部
100 利用者端末
10
Claims (18)
前記対象音声の終端と、当該対象音声の始端から経過した期間とをモデルに学習させる学習部と
を有することを特徴とする学習装置。 An acquisition unit that acquires audio information that includes the target audio that is the detection target,
A learning device, comprising: a learning unit that causes a model to learn the end of the target voice and the period elapsed from the start of the target voice.
ことを特徴とする請求項1に記載の学習装置。 The learning unit divides the voice information into a plurality of sections, and for each section, learns whether the end of the target voice is included and a period from the start end of the target voice to the section as a model. The learning apparatus according to claim 1, wherein the learning apparatus is configured to:
ことを特徴とする請求項2に記載の学習装置。 The learning unit, when a voice included in a predetermined section is input to the model, end information indicating whether or not the end of the target voice is included in the predetermined section, and from a start end of the target voice. The learning device according to claim 2, wherein the model learning is performed so as to output period information indicating a period up to the predetermined section.
ことを特徴とする請求項1〜3のうちいずれか1つに記載の学習装置。 The learning unit divides the voice information into a plurality of sections, and when a voice included in a predetermined section is input, outputs a classification result according to a period from the start end of the target voice to the predetermined section. The learning device according to any one of claims 1 to 3, wherein the learning of the model is performed.
ことを特徴とする請求項1〜4のうちいずれか1つに記載の学習装置。 The learning unit causes a model having a configuration of a recursive neural network to learn a terminal end of the target voice and a period elapsed from a start end of the target voice. The learning device according to one.
ことを特徴とする請求項1〜5のうちいずれか1つに記載の学習装置。 The learning according to any one of claims 1 to 5, wherein the acquisition unit acquires voice information including a voice for causing a predetermined terminal device to perform a predetermined operation as the target voice. apparatus.
ことを特徴とする請求項1〜6のうちいずれか1つに記載の学習装置。 The said acquisition part acquires the audio | voice information which includes the audio | voice which pronounced several words, or the audio | voice containing a silent area as the said target audio | voice. Learning device.
ことを特徴とする請求項1〜7のうちいずれか1つに記載の学習装置。 The learning unit performs learning of the model based on a feature of the entire target voice so as to detect an end of the target voice. 8. The learning unit according to claim 1, wherein Learning device.
ことを特徴とする請求項8に記載の学習装置。 The learning unit performs learning of the model so as to detect a section including a terminal end of the target voice based on an appearance order of features included in each section of the target voice. Learning device.
検出対象となる対象音声の終端と、当該対象音声の始端から経過した期間とを学習させたモデルを用いて、前記取得部により取得された音声情報から、前記対象音声の始端を検出する検出部と
を有することを特徴とする検出装置。 An acquisition unit that acquires voice information,
A detection unit that detects the start end of the target voice from the voice information acquired by the acquisition unit using a model in which the end of the target voice to be detected and the period elapsed from the start end of the target voice are learned. And a detection device.
ことを特徴とする請求項10に記載の検出装置。 The detection unit determines whether or not the end of the target voice is included, and the period from the start end of the target voice to the section, for each section included in the learning information that is the voice information that is the learning target. The detection device according to claim 10, wherein the learned model is used to detect a section including a start end of the target voice from the voice information acquired by the acquisition unit.
ことを特徴とする請求項11に記載の検出装置。 The detection unit, when a voice included in a predetermined section is input, end information indicating whether or not the end of the target voice is included in the predetermined section, and the predetermined end from the start end of the target voice. A period including a start end of the target voice is detected from the voice information acquired by the acquisition unit by using a model learned to output period information indicating a period up to the period. The detection device according to claim 11.
ことを特徴とする請求項12に記載の検出装置。 The detection unit divides the voice information acquired by the acquisition unit into a plurality of sections, and the end of the target voice is included when a voice included in the section is input among the divided sections. 13. A section in which the model outputs end information indicating the section is specified, and a section in which the start end of the target voice is included is detected based on the period information output by the model for the specified section. The detection device according to 1.
ことを特徴とする請求項11または12に記載の検出装置。 The detection unit inputs voices included in each section of the voice information acquired by the acquisition unit in order from the beginning with respect to a model having a configuration of a recursive neural network, and outputs the end information and the end information output by the model. The detection device according to claim 11 or 12, wherein a section including a start end of the target voice is detected based on the period information.
検出対象となる対象音声が含まれる音声情報を取得する取得工程と、
前記対象音声の終端と、当該対象音声の始端から経過した期間とをモデルに学習させる学習工程と
を含むことを特徴とする学習方法。 A learning method executed by the learning device,
An acquisition step of acquiring voice information including a target voice to be detected,
A learning method, comprising: a learning step of causing a model to learn the end of the target voice and the period elapsed from the start of the target voice.
前記対象音声の終端と、当該対象音声の始端から経過した期間とをモデルに学習させる学習手順と
をコンピュータに実行させるための学習プログラム。 An acquisition procedure for acquiring audio information including target audio to be detected,
A learning program for causing a computer to execute a learning procedure for causing a model to learn the end of the target voice and the period elapsed from the start of the target voice.
音声情報を取得する取得工程と、
検出対象となる対象音声の終端と、当該対象音声の始端から経過した期間とを学習させたモデルを用いて、前記取得部により取得された音声情報から、前記対象音声の始端を検出する検出工程と
を含むことを特徴とする検出方法。 A detection method performed by a detection device, comprising:
An acquisition process for acquiring audio information,
A detection step of detecting the start end of the target voice from the voice information acquired by the acquisition unit using a model in which the end of the target voice to be detected and the period elapsed from the start end of the target voice are learned. A detection method comprising: and.
検出対象となる対象音声の終端と、当該対象音声の始端から経過した期間とを学習させたモデルを用いて、前記取得部により取得された音声情報から、前記対象音声の始端を検出する検出手順と
を含むことを特徴とする検出プログラム。 Acquisition procedure to acquire voice information,
A detection procedure for detecting the start end of the target voice from the voice information acquired by the acquisition unit using a model in which the end of the target voice to be detected and the period elapsed from the start end of the target voice are learned. And a detection program including.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197718A JP6892426B2 (en) | 2018-10-19 | 2018-10-19 | Learning device, detection device, learning method, learning program, detection method, and detection program |
JP2021089482A JP7212718B2 (en) | 2018-10-19 | 2021-05-27 | LEARNING DEVICE, DETECTION DEVICE, LEARNING METHOD, LEARNING PROGRAM, DETECTION METHOD, AND DETECTION PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197718A JP6892426B2 (en) | 2018-10-19 | 2018-10-19 | Learning device, detection device, learning method, learning program, detection method, and detection program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021089482A Division JP7212718B2 (en) | 2018-10-19 | 2021-05-27 | LEARNING DEVICE, DETECTION DEVICE, LEARNING METHOD, LEARNING PROGRAM, DETECTION METHOD, AND DETECTION PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020064253A true JP2020064253A (en) | 2020-04-23 |
JP6892426B2 JP6892426B2 (en) | 2021-06-23 |
Family
ID=70387213
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018197718A Active JP6892426B2 (en) | 2018-10-19 | 2018-10-19 | Learning device, detection device, learning method, learning program, detection method, and detection program |
JP2021089482A Active JP7212718B2 (en) | 2018-10-19 | 2021-05-27 | LEARNING DEVICE, DETECTION DEVICE, LEARNING METHOD, LEARNING PROGRAM, DETECTION METHOD, AND DETECTION PROGRAM |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021089482A Active JP7212718B2 (en) | 2018-10-19 | 2021-05-27 | LEARNING DEVICE, DETECTION DEVICE, LEARNING METHOD, LEARNING PROGRAM, DETECTION METHOD, AND DETECTION PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP6892426B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686093A (en) * | 2020-12-02 | 2021-04-20 | 重庆邮电大学 | Fusion partial discharge type identification method based on DS evidence theory |
JP7015405B1 (en) | 2021-04-27 | 2022-02-02 | 東京エレクトロンデバイス株式会社 | Learning model generation method, program, information processing device and learning data generation method |
JP2022028846A (en) * | 2018-07-13 | 2022-02-16 | グーグル エルエルシー | End-to-end streaming keyword spotting |
JP2022049570A (en) * | 2020-09-16 | 2022-03-29 | ヤフー株式会社 | Information processing device, information processing method, information processing program, terminal device, inference method, and inference program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6892426B2 (en) * | 2018-10-19 | 2021-06-23 | ヤフー株式会社 | Learning device, detection device, learning method, learning program, detection method, and detection program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04198997A (en) * | 1990-11-29 | 1992-07-20 | Oki Electric Ind Co Ltd | Speech recognizing method |
JPH04369695A (en) * | 1991-06-19 | 1992-12-22 | Matsushita Electric Ind Co Ltd | Voice decision device |
JP2018517928A (en) * | 2015-09-24 | 2018-07-05 | グーグル エルエルシー | Voice activity detection |
JP6392950B1 (en) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | Detection apparatus, detection method, and detection program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2096630A4 (en) * | 2006-12-08 | 2012-03-14 | Nec Corp | Audio recognition device and audio recognition method |
JP6892426B2 (en) * | 2018-10-19 | 2021-06-23 | ヤフー株式会社 | Learning device, detection device, learning method, learning program, detection method, and detection program |
-
2018
- 2018-10-19 JP JP2018197718A patent/JP6892426B2/en active Active
-
2021
- 2021-05-27 JP JP2021089482A patent/JP7212718B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04198997A (en) * | 1990-11-29 | 1992-07-20 | Oki Electric Ind Co Ltd | Speech recognizing method |
JPH04369695A (en) * | 1991-06-19 | 1992-12-22 | Matsushita Electric Ind Co Ltd | Voice decision device |
JP2018517928A (en) * | 2015-09-24 | 2018-07-05 | グーグル エルエルシー | Voice activity detection |
JP6392950B1 (en) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | Detection apparatus, detection method, and detection program |
Non-Patent Citations (2)
Title |
---|
XIAO-LEI ZHANG, ET AL.: "Deep Belief Networks Based Voice Activity Detection", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. Volume 21, Issue 4, JPN6021000009, 27 November 2012 (2012-11-27), pages 697 - 710, ISSN: 0004422500 * |
松井 清彰, 外6名: "音声区間検出におけるLSTM post-filterの検討", 電子情報通信学会技術研究報告, 音声, vol. 第117巻, 第5号, JPN6021000008, 12 March 2018 (2018-03-12), pages 45 - 50, ISSN: 0004422499 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022028846A (en) * | 2018-07-13 | 2022-02-16 | グーグル エルエルシー | End-to-end streaming keyword spotting |
JP7263492B2 (en) | 2018-07-13 | 2023-04-24 | グーグル エルエルシー | End-to-end streaming keyword spotting |
JP2022049570A (en) * | 2020-09-16 | 2022-03-29 | ヤフー株式会社 | Information processing device, information processing method, information processing program, terminal device, inference method, and inference program |
JP7408518B2 (en) | 2020-09-16 | 2024-01-05 | Lineヤフー株式会社 | Information processing device, information processing method, information processing program, terminal device, inference method, and inference program |
CN112686093A (en) * | 2020-12-02 | 2021-04-20 | 重庆邮电大学 | Fusion partial discharge type identification method based on DS evidence theory |
JP7015405B1 (en) | 2021-04-27 | 2022-02-02 | 東京エレクトロンデバイス株式会社 | Learning model generation method, program, information processing device and learning data generation method |
JP2022169290A (en) * | 2021-04-27 | 2022-11-09 | 東京エレクトロンデバイス株式会社 | Method for generating learning model, program, information processor, and method for generating learning data |
Also Published As
Publication number | Publication date |
---|---|
JP7212718B2 (en) | 2023-01-25 |
JP2021121875A (en) | 2021-08-26 |
JP6892426B2 (en) | 2021-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7212718B2 (en) | LEARNING DEVICE, DETECTION DEVICE, LEARNING METHOD, LEARNING PROGRAM, DETECTION METHOD, AND DETECTION PROGRAM | |
US20210012766A1 (en) | Voice conversation analysis method and apparatus using artificial intelligence | |
US11132990B1 (en) | Wakeword and acoustic event detection | |
KR102628211B1 (en) | Electronic apparatus and thereof control method | |
US11043218B1 (en) | Wakeword and acoustic event detection | |
JP6246636B2 (en) | PATTERN IDENTIFICATION DEVICE, PATTERN IDENTIFICATION METHOD, AND PROGRAM | |
JP6969491B2 (en) | Voice dialogue system, voice dialogue method and program | |
KR20240073984A (en) | Distillation into target devices based on observed query patterns | |
JP6676009B2 (en) | Speaker determination device, speaker determination information generation method, and program | |
JP6731802B2 (en) | Detecting device, detecting method, and detecting program | |
JP6392950B1 (en) | Detection apparatus, detection method, and detection program | |
US20240071408A1 (en) | Acoustic event detection | |
JP6563080B2 (en) | program | |
US11749270B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
US20220137917A1 (en) | Method and system for assigning unique voice for electronic device | |
TWI753576B (en) | Model constructing method for audio recognition | |
CN113870899A (en) | Training method and device of voice quality evaluation model and storage medium | |
JP2005534065A (en) | Man-machine interface unit operation and / or control method | |
KR20210033837A (en) | Electronic device and method for controlling the electronic device thereof | |
JP6998289B2 (en) | Extractor, learning device, extraction method, extraction program, learning method and learning program | |
CN110419078A (en) | The Quality Feedback of the user record keyword of automatic speech recognition system | |
US11514920B2 (en) | Method and system for determining speaker-user of voice-controllable device | |
US10601757B2 (en) | Multi-output mode communication support device, communication support method, and computer program product | |
JP6688820B2 (en) | Output device, output method, and output program | |
US11869490B1 (en) | Model configuration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210315 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210527 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6892426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |