JP7212718B2 - 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム - Google Patents
学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム Download PDFInfo
- Publication number
- JP7212718B2 JP7212718B2 JP2021089482A JP2021089482A JP7212718B2 JP 7212718 B2 JP7212718 B2 JP 7212718B2 JP 2021089482 A JP2021089482 A JP 2021089482A JP 2021089482 A JP2021089482 A JP 2021089482A JP 7212718 B2 JP7212718 B2 JP 7212718B2
- Authority
- JP
- Japan
- Prior art keywords
- target
- speech
- information
- model
- beginning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 83
- 238000000034 method Methods 0.000 title claims description 76
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 2
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 description 54
- 230000008569 process Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 12
- 239000008186 active pharmaceutical agent Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Description
まず、図1を用いて、学習装置の一例である情報提供装置10が実行する学習処理の一例と、検出装置の一例である端末装置100が実行する検出処理の一例とについて説明する。図1は、実施形態に係る情報提供装置と端末装置とが実行する処理の一例を示す図である。図1では、情報提供装置10によって、利用者の発話を含む音声情報から、検出対象となる所定の対象音声を抽出する際に用いるモデルの学習を行う学習処理の一例について記載した。また、図1では、端末装置100によって、利用者の発話を含む音声情報から所定のキーワードが含まれるキーワード区間を検出する検出処理の一例について記載した。
ここで、利用者は、スマートスピーカー等を操作する場合は、所定のキーワードを発話した後で、実行させる処理を示す発話(以下、「処理発話」と記載する。)を発話する。このような場合、端末装置100は、取得した音声に所定のキーワードが含まれているか否かを判定する。そして、端末装置100は、所定のキーワードが含まれていると判定される場合は、そのキーワードに続いて利用者が発話した処理発話が含まれる音声データの区間から、音声解析により利用者の発話内容を特定する。
そこで、情報提供装置10は、以下の学習処理を実行する。まず、情報提供装置10は、検出対象となる対象音声が含まれる音声情報を取得する。例えば、情報提供装置10は、キーワード等、所定の端末装置100に所定の動作を実行させるための音声を対象音声として含む音声情報を取得する。そして、情報提供装置10は、すくなくとも、対象音声の終端と、対象音声の始端から経過した期間とをモデルに学習させる。より具体的な例を挙げると、情報提供装置10は、対象音声の始端から終端までの間の特徴、すなわち、対象音声の特徴をモデルに学習させるとともに、音声の始端から対象音声の各区間までの間の期間とをモデルに学習させる。例えば、情報提供装置10は、音声情報を複数の区間に分割し、各区間ごとに、対象音声の終端が含まれているか否かと、対象音声の始端から処理対象となる区間までの期間とをモデルに学習させる。
一方、端末装置100は、情報提供装置10により学習が行われた学習モデルを用いて、利用者の発話からキーワード区間を検出する。例えば、端末装置100は、マイク等を用いて、利用者の発話を含む音声情報を取得する。そして、端末装置100は、検出対象となる対象音声の終端と、対象音声の始端から経過した期間とを学習させたモデル、すなわち、情報提供装置10により学習が行われた学習モデルを用いて、取得された音声情報から、対象音声の始端を検出する。
続いて、図1を用いて、情報提供装置10が実行する学習処理の一例、および、端末装置100が実行する検出処理の一例について説明する。例えば、情報提供装置10は、データサーバDSからモデルの学習に用いる学習データを取得する(ステップS1)。そして、情報提供装置10は、キーワードの終端と始端から各区間までの経過時間とをモデルに学習させる(ステップS2)。
上述した説明では、情報提供装置10は、LSTMの構造を有するモデルを学習モデルMとした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、BidirectionalLSTM等、LSTMから派生した各種のニューラルネットワークであってもよく、各種RNNであってもよい。また、情報提供装置10は、入力された音声の区間にキーワードの終端が含まれているか否かと、キーワードの始端から入力された音声の区間までの期間とを同時に学習させるのであれば、SVM(Support Vector Machine)やDNN(Deep Neural Network)、CNN(Convolutional Neural Network)等といった任意の構成を有するモデルを採用してよい。
上述した例では、情報提供装置10は、学習データを複数の区間に分割し、区間ごとに終端ラベルの値とクラスラベルの値とをモデルに学習させた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、学習データを所定長のフレームに分割し、フレームごとに終端ラベルの値を学習させるとともに、複数のフレームを含む区間ごとにクラスラベルの値を学習させてもよい。すなわち、情報提供装置10は、キーワードの終端についてはフレームごとの学習を行い、経過期間については、複数のフレームごとの学習を行ってもよい。また、入力されたフレームをいくつのクラスに分類するかについては、任意の態様が採用可能である。
上述した例では、キーワードの終端について「1」若しくは「0」といった2値の値を出力するようにモデルの学習を行い、経過期間(すなわち、クラス)について「1」~「20」といった整数値を出力するようにモデルの学習を行う例について記載した。
上述した例では、情報提供装置10は、起動音声となるキーワードの検出を行うモデルの学習を行った。しかしながら、実施形態は、これに限定されるものではない。情報提供装置10は、検出目的となる音声であれば、任意の音声の検出を行うモデルの学習を行ってよい。すなわち、情報提供装置10は、各種の音声データの中から、所定の機械音、環境音、ノイズ等、検出目的となる音を含む区間を検出するため、検出目的となる音の終端と、検出目的となる音の始端から経過した期間とをモデルに学習させるのであれば、任意の音を検出目的として良い。
上述した例では、情報提供装置10により学習処理が行われ、端末装置100により検出処理が実行された。しかしながら、実施形態は、これに限定されるものではない。例えば、学習処理および検出処理は、情報提供装置10により実行されてもよい。このような場合、情報提供装置10は、端末装置100が取得した発話音声を受付け、学習モデルMを用いて、受付けた発話音声からキーワード区間を検出することとなる。また、上述した学習処理および検出処理は、端末装置100によって実現されてもよい。
以下、上記した学習処理を実現する情報提供装置10が有する機能構成の一例、および、上述した検出処理を実現する端末装置100が有する機能構成の一例について説明する。
まず、図2を用いて、情報提供装置10が有する機能構成の一例を説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
続いて、図4を用いて、端末装置100が有する機能構成の一例を説明する。図4は、実施形態に係る端末装置の構成例を示す図である。図4に示すように、端末装置100は、通信部120、記憶部130、制御部140、マイクMCおよびスピーカーSPを有する。
次に、図6、図7を用いて、情報提供装置10および端末装置100が実行する処理の流れの一例について説明する。図6は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図7は、実施形態に係る端末装置が実行する検出処理の流れの一例を示すフローチャートである。
上記では、情報提供装置10による学習処理や検出処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10や端末装置100が実行する学習処理や検出処理のバリエーションについて説明する。
上述した図5を用いた説明では、1つのクラスに3つの区間を対応付けた。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、1つのクラスに1つの区間を対応付けるような学習を行ってもよく、1つのクラスに10の区間を対応付けるような学習を行ってもよい。ここで、1つの区間は、1つのフレームと対応してもよく、複数のフレームと対応していてもよい。また、情報提供装置10は、クラスの数に上限値を設けてもよい。
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10と端末装置100とは、上述した学習処理および検出処理を連携して実現してもよく、いずれか一方の装置が単独で実行してもよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述した実施形態に係る情報提供装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、情報提供装置10は、検出対象となる対象音声が含まれる音声情報を取得し、対象音声の終端と、その対象音声の始端から経過した期間とをモデルに学習させる。このため、情報提供装置10は、入力された音声情報から対象音声が含まれる区間を適切に検出可能なモデルの学習を実現する結果、対象音声が含まれる区間の検出精度を向上させることができる。
20 通信部
30 記憶部
31 学習データデータベース
32 モデルデータベース
40 制御部
41 学習部
42 取得部
43 検出部
44 応答生成部
45 提供部
100 利用者端末
Claims (26)
- 検出対象となる対象音声が含まれる音声情報を取得する取得部と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを前記モデルに学習させる学習部と
を有することを特徴とする学習装置。 - 検出対象となる対象音声が含まれる音声情報を取得する取得部と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを前記モデルに学習させ、所定の区間に含まれる音声を前記モデルに入力した際に、当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように、前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。 - 検出対象となる対象音声が含まれる音声情報を取得する取得部と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、所定の区間に含まれる音声を入力した際に、前記対象音声の始端から当該所定の区間までの期間に応じた分類結果を出力するよう、前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。 - 前記学習部は、再帰型ニューラルネットワークの構成を有するモデルに対し、前記対象音声の始端から終端迄の期間を学習させる
ことを特徴とする請求項1~3のうちいずれか1つに記載の学習装置。 - 前記取得部は、所定の端末装置に所定の動作を実行させるための音声を前記対象音声として含む音声情報を取得する
ことを特徴とする請求項1~4のうちいずれか1つに記載の学習装置。 - 前記取得部は、複数の単語を発声した音声、又は、無音の区間を含む音声を前記対象音声として含む音声情報を取得する
ことを特徴とする請求項1~5のうちいずれか1つに記載の学習装置。 - 前記学習部は、前記対象音声全体の特徴に基づいて、当該対象音声の終端を検出するように前記モデルの学習を行う
ことを特徴とする請求項1~6のうちいずれか1つに記載の学習装置。 - 検出対象となる対象音声が含まれる音声情報を取得する取得部と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記対象音声全体の特徴に基づいて、当該対象音声の終端を検出するように前記モデルの学習を行い、前記対象音声の各区間が有する特徴の出現順序に基づいて、当該対象音声の終端を含む区間を検出するように前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。 - 音声情報を取得する取得部と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得部により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得部により取得された音声情報から前記対象音声の始端を含む区間を検出する検出部と
を有することを特徴とする検出装置。 - 音声情報を取得する取得部と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得部により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得部により取得された音声情報から前記対象音声の始端を含む区間を検出し、所定の区間に含まれる音声が入力された場合に当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように学習が行われた前記モデルを用いて、前記取得部により取得された音声情報から前記対象音声の始端を含む区間を検出する検出部と
を有することを特徴とする検出装置。 - 音声情報を取得する取得部と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得部により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得部により取得された音声情報から前記対象音声の始端を含む区間を検出し、所定の区間に含まれる音声が入力された場合に当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように学習が行われた前記モデルを用いて、前記取得部により取得された音声情報から前記対象音声の始端を含む区間を検出し、前記取得部により取得された音声情報を複数の区間に分割し、分割した区間のうち、前記区間に含まれる音声を入力した際に前記対象音声の終端が含まれている旨を示す終端情報を前記モデルが出力した区間を特定し、特定した区間について前記モデルが出力した期間情報に基づいて、前記対象音声の始端が含まれる区間を検出する検出部
を有することを特徴とする検出装置。 - 前記検出部は、再帰型ニューラルネットワークの構成を有するモデルに対し、前記取得部により取得された音声情報の各区間に含まれる音声を先頭から順に入力し、当該モデルが出力した前記終端情報と前記期間情報とに基づいて、前記対象音声の始端を含む区間を検出する
ことを特徴とする請求項10に記載の検出装置。 - 学習装置が実行する学習方法であって、
検出対象となる対象音声が含まれる音声情報を取得する取得工程と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを前記モデルに学習させる学習工程と
を含むことを特徴とする学習方法。 - 検出対象となる対象音声が含まれる音声情報を取得する取得手順と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを前記モデルに学習させる学習手順と
をコンピュータに実行させるための学習プログラム。 - 学習装置が実行する学習方法であって、
検出対象となる対象音声が含まれる音声情報を取得する取得工程と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを前記モデルに学習させ、所定の区間に含まれる音声を前記モデルに入力した際に、当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように、前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。 - 検出対象となる対象音声が含まれる音声情報を取得する取得手順と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを前記モデルに学習させ、所定の区間に含まれる音声を前記モデルに入力した際に、当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように、前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。 - 学習装置が実行する学習方法であって、
検出対象となる対象音声が含まれる音声情報を取得する取得工程と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、所定の区間に含まれる音声を入力した際に、前記対象音声の始端から当該所定の区間までの期間に応じた分類結果を出力するよう、前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。 - 検出対象となる対象音声が含まれる音声情報を取得する取得手順と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記音声情報を複数の区間に分割し、所定の区間に含まれる音声を入力した際に、前記対象音声の始端から当該所定の区間までの期間に応じた分類結果を出力するよう、前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。 - 学習装置が実行する学習方法であって、
検出対象となる対象音声が含まれる音声情報を取得する取得工程と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記対象音声全体の特徴に基づいて、当該対象音声の終端を検出するように前記モデルの学習を行い、前記対象音声の各区間が有する特徴の出現順序に基づいて、当該対象音声の終端を含む区間を検出するように前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。 - 検出対象となる対象音声が含まれる音声情報を取得する取得手順と、
前記対象音声の始端から終端迄の期間をモデルに学習させ、前記対象音声全体の特徴に基づいて、当該対象音声の終端を検出するように前記モデルの学習を行い、前記対象音声の各区間が有する特徴の出現順序に基づいて、当該対象音声の終端を含む区間を検出するように前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。 - 検出装置が実行する検出方法であって、
音声情報を取得する取得工程と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得工程により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得工程により取得された音声情報から前記対象音声の始端を含む区間を検出する検出工程と
を含むことを特徴とする検出方法。 - 音声情報を取得する取得手順と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得手順により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得手順により取得された音声情報から前記対象音声の始端を含む区間を検出する検出手順と
をコンピュータに実行させるための検出プログラム。 - 検出装置が実行する検出方法であって、
音声情報を取得する取得工程と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得工程により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得工程により取得された音声情報から前記対象音声の始端を含む区間を検出し、所定の区間に含まれる音声が入力された場合に当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように学習が行われた前記モデルを用いて、前記取得工程により取得された音声情報から前記対象音声の始端を含む区間を検出する検出工程と
を含むことを特徴とする検出方法。 - 音声情報を取得する取得手順と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得手順により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得手順により取得された音声情報から前記対象音声の始端を含む区間を検出し、所定の区間に含まれる音声が入力された場合に当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように学習が行われた前記モデルを用いて、前記取得手順により取得された音声情報から前記対象音声の始端を含む区間を検出する検出手順と
をコンピュータに実行させるための検出プログラム。 - 検出装置が実行する検出方法であって、
音声情報を取得する取得工程と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得工程により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得工程により取得された音声情報から前記対象音声の始端を含む区間を検出し、所定の区間に含まれる音声が入力された場合に当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように学習が行われた前記モデルを用いて、前記取得工程により取得された音声情報から前記対象音声の始端を含む区間を検出し、前記取得工程により取得された音声情報を複数の区間に分割し、分割した区間のうち、前記区間に含まれる音声を入力した際に前記対象音声の終端が含まれている旨を示す終端情報を前記モデルが出力した区間を特定し、特定した区間について前記モデルが出力した期間情報に基づいて、前記対象音声の始端が含まれる区間を検出する検出工程と
を含むことを特徴とする検出方法。 - 音声情報を取得する取得手順と、
検出対象となる対象音声の始端から終端迄の期間を学習させたモデルを用いて、前記取得手順により取得された音声情報から、前記対象音声の始端を検出し、学習対象となった音声情報である学習情報に含まれる各区間ごとに、前記対象音声の終端が含まれているか否かと、前記対象音声の始端から当該区間までの期間とを学習させた前記モデルを用いて、前記取得手順により取得された音声情報から前記対象音声の始端を含む区間を検出し、所定の区間に含まれる音声が入力された場合に当該所定の区間に前記対象音声の終端が含まれているか否かを示す終端情報と、前記対象音声の始端から当該所定の区間までの期間を示す期間情報とを出力するように学習が行われた前記モデルを用いて、前記取得手順により取得された音声情報から前記対象音声の始端を含む区間を検出し、前記取得手順により取得された音声情報を複数の区間に分割し、分割した区間のうち、前記区間に含まれる音声を入力した際に前記対象音声の終端が含まれている旨を示す終端情報を前記モデルが出力した区間を特定し、特定した区間について前記モデルが出力した期間情報に基づいて、前記対象音声の始端が含まれる区間を検出する検出手順と
をコンピュータに実行させるための検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021089482A JP7212718B2 (ja) | 2018-10-19 | 2021-05-27 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018197718A JP6892426B2 (ja) | 2018-10-19 | 2018-10-19 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP2021089482A JP7212718B2 (ja) | 2018-10-19 | 2021-05-27 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018197718A Division JP6892426B2 (ja) | 2018-10-19 | 2018-10-19 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021121875A JP2021121875A (ja) | 2021-08-26 |
JP7212718B2 true JP7212718B2 (ja) | 2023-01-25 |
Family
ID=70387213
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018197718A Active JP6892426B2 (ja) | 2018-10-19 | 2018-10-19 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP2021089482A Active JP7212718B2 (ja) | 2018-10-19 | 2021-05-27 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018197718A Active JP6892426B2 (ja) | 2018-10-19 | 2018-10-19 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP6892426B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102483774B1 (ko) * | 2018-07-13 | 2023-01-02 | 구글 엘엘씨 | 종단 간 스트리밍 키워드 탐지 |
JP6892426B2 (ja) * | 2018-10-19 | 2021-06-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
JP7408518B2 (ja) * | 2020-09-16 | 2024-01-05 | Lineヤフー株式会社 | 情報処理装置、情報処理方法、情報処理プログラム、端末装置、推論方法、及び推論プログラム |
CN112686093A (zh) * | 2020-12-02 | 2021-04-20 | 重庆邮电大学 | 一种基于ds证据理论的融合局部放电类型识别方法 |
JP7015405B1 (ja) | 2021-04-27 | 2022-02-02 | 東京エレクトロンデバイス株式会社 | 学習モデルの生成方法、プログラム、情報処理装置及び学習用データの生成方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008069308A1 (ja) | 2006-12-08 | 2008-06-12 | Nec Corporation | 音声認識装置および音声認識方法 |
JP6392950B1 (ja) | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
JP6892426B2 (ja) | 2018-10-19 | 2021-06-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04198997A (ja) * | 1990-11-29 | 1992-07-20 | Oki Electric Ind Co Ltd | 音声認識方法 |
JPH04369695A (ja) * | 1991-06-19 | 1992-12-22 | Matsushita Electric Ind Co Ltd | 音声判別装置 |
US10229700B2 (en) * | 2015-09-24 | 2019-03-12 | Google Llc | Voice activity detection |
-
2018
- 2018-10-19 JP JP2018197718A patent/JP6892426B2/ja active Active
-
2021
- 2021-05-27 JP JP2021089482A patent/JP7212718B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008069308A1 (ja) | 2006-12-08 | 2008-06-12 | Nec Corporation | 音声認識装置および音声認識方法 |
JP6392950B1 (ja) | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
JP6892426B2 (ja) | 2018-10-19 | 2021-06-23 | ヤフー株式会社 | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020064253A (ja) | 2020-04-23 |
JP2021121875A (ja) | 2021-08-26 |
JP6892426B2 (ja) | 2021-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7212718B2 (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
KR102132888B1 (ko) | 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답 | |
US11138977B1 (en) | Determining device groups | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
JPWO2019087811A1 (ja) | 情報処理装置、及び情報処理方法 | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
JP6991041B2 (ja) | 生成装置、生成方法、および生成プログラム | |
US10971149B2 (en) | Voice interaction system for interaction with a user by voice, voice interaction method, and program | |
CN111862974A (zh) | 智能设备的控制方法及智能设备 | |
JP6392950B1 (ja) | 検出装置、検出方法、および検出プログラム | |
US20240071408A1 (en) | Acoustic event detection | |
WO2020202862A1 (ja) | 応答生成装置及び応答生成方法 | |
US20230306964A1 (en) | Device-specific skill processing | |
JP6731802B2 (ja) | 検出装置、検出方法及び検出プログラム | |
JP6563080B2 (ja) | プログラム | |
WO2020208972A1 (ja) | 応答生成装置及び応答生成方法 | |
JP6998289B2 (ja) | 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム | |
JP2005534065A (ja) | マンマシンインタフェースユニットの動作及び/又は制御方法 | |
JP6688820B2 (ja) | 出力装置、出力方法、および出力プログラム | |
US11749270B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
US10601757B2 (en) | Multi-output mode communication support device, communication support method, and computer program product | |
US11011174B2 (en) | Method and system for determining speaker-user of voice-controllable device | |
US20220137917A1 (en) | Method and system for assigning unique voice for electronic device | |
EP3553776A1 (en) | Device and method for identifying users using voice and gait information | |
CN111862947A (zh) | 用于控制智能设备的方法、装置、电子设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210629 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7212718 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |