JP2020086011A - 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム - Google Patents
抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム Download PDFInfo
- Publication number
- JP2020086011A JP2020086011A JP2018216881A JP2018216881A JP2020086011A JP 2020086011 A JP2020086011 A JP 2020086011A JP 2018216881 A JP2018216881 A JP 2018216881A JP 2018216881 A JP2018216881 A JP 2018216881A JP 2020086011 A JP2020086011 A JP 2020086011A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- keyword
- model
- subsequent
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 96
- 238000000605 extraction Methods 0.000 title claims description 95
- 230000006870 function Effects 0.000 claims abstract description 97
- 239000000284 extract Substances 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims description 60
- 238000001514 detection method Methods 0.000 claims description 41
- 230000002708 enhancing effect Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 description 52
- 238000010586 diagram Methods 0.000 description 20
- 239000008186 active pharmaceutical agent Substances 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
まず、図1を用いて、学習処理を実行する学習装置の一例である情報提供装置10が実行する学習処理の一例と、抽出処理を実行する検出装置の一例である端末装置100が実行する検出処理の一例とについて説明する。図1は、実施形態に係る情報提供装置と端末装置とが実行する処理の一例を示す図である。
利用者は、スマートスピーカー等を操作する場合は、所定のキーワードを発話した後で、実行させる処理を示す発話(以下、「処理発話」と記載する。)を発話する。このような場合、端末装置100は、取得した音声に所定のキーワードが含まれているか否かを判定する。そして、端末装置100は、所定のキーワードが含まれていると判定される場合は、そのキーワードに続いて利用者が発話した処理発話が含まれる音声データの区間から、音声解析により利用者の発話内容を特定する。
しかしながら、上述した技術では、あらかじめ利用者TUが発声した音声の特徴を学習しておく必要がある。このため、特徴を学習していない利用者が発話した音声を強調することができず、特徴を学習していない利用者の処理発話等を適切に認識することができない。
以下、図1を用いて、端末装置100が実行する抽出処理の一例について説明する。例えば、情報提供装置10は、データサーバDSから学習データを取得する(ステップS1)。そして、情報提供装置10は、端末装置100が抽出処理を実行する際に用いるモデルの学習を行う。例えば、情報提供装置10は、後続音声に含まれる音声のうちキーワード音声と類似する特徴の音声を抽出するモデルの学習を行う(ステップS2)。そして、情報提供装置10は、学習済のモデルである学習モデルを端末装置100に提供する(ステップS3)。なお、以下の説明では、端末装置100が学習モデルを用いて実行する抽出処理の流れの一例について説明し、情報提供装置10が学習データの特徴を学習させるモデルの構造や学習手法の具体的な内容については、後述する。
ここで、情報提供装置10は、学習処理を実行することで、上述した抽出処理を端末装置100に実行させるための学習モデルを生成し、生成した学習モデルを端末装置100に提供する。ここで、情報提供装置10は、端末装置100に対してキーワード発話と同じ特徴を有する音声を後続音声から抽出させるのであれば、任意の構造を有する学習モデルの生成を行ってよい。以下の説明では、図2〜図6を用いて、情報提供装置10が生成する学習モデルの構造および学習処理のバリエーションについて説明する。
まず、図2を用いて、情報提供装置10が生成する学習モデルの第1のバリエーションである第1モデルM1について説明する。図2は、実施形態に係る情報提供装置が生成する第1モデルの一例を示す図である。なお、図2においては、第1モデルM1が有する構造の一例と、第1モデルM1の学習を行うための学習データの一例と、第1モデルM1の学習処理の一例とを示した。
図2に示す第1モデルM1は、入力音声からマスクを生成した。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、入力音声に含まれる処理発話の音声認識を実行してもよい。例えば、情報提供装置10は、入力音声に含まれる処理発話の音声認識を実行してもよい。あるいは、情報提供装置10は、音素の事後確率である音響スコア計算を実行しても良い。そこで、以下の説明では、情報提供装置10が生成するモデルのバリエーションとして、入力音声に含まれる処理発話の音声認識を行う第2モデルM2について図3を用いて説明する。
ここで、情報提供装置10は、第1モデルM1に、対象音声を生成する機能と対象音声の音声認識を行う機能とを追加した第3モデルM3の学習を行ってもよい。例えば、図4は、実施形態に係る情報提供装置が生成する第3モデルの一例を示す図である。なお、図4においては、第3モデルM3が有する構造の一例と、第3モデルM3の学習を行うための学習データの一例と、第3モデルM3の学習処理の一例とを示した。
ここで、情報提供装置10は、第1モデルM1〜第3モデルM3に加えて、キーワード区間に含まれる音声からキーワード音声を強調し、キーワード音声を強調した音声と特徴が類似する音声を強調する空間的なフィルタを生成し、生成したフィルタを適用した後続区間から処理発話等、キーワード音声と特徴が類似する音声の抽出を行ってもよい。すなわち、情報提供装置10は、上述した第1モデルM1〜第3モデルM3を用いた抽出処理の前段において、キーワード音声が有する特徴を用いたビームフォーミング処理を実行し、実行結果となる音声を用いて、抽出処理を実行してもよい。
ここで、図2〜図6に示す各モデルM1〜M5の構成は、あくまで一例であり、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、第2モデルM2や第3モデルM3に対して、マスク生成部U7、フィルタ生成部U8およびフィルタ適用部U9(以下、「フィルタ構成」と記載する。)を適用したモデルの生成を行ってもよい。また、情報提供装置10は、第2モデルM2や第3モデルM3に対して、フィルタ構成を適用する場合、第4モデルM4のような構成を有するフィルタ構成を適用してもよく、第5モデルM5のような構成を有するフィルタ構成を適用してもよい。また、各モデルは、キーワード区間に含まれる音声からキーワード音声を音素の特徴等に基づいて検出するための手段を有していなくともよい。
上述した各モデルM1〜M5の学習を行う場合、情報提供装置10は、キーワード音声と処理音声とを含む音声データを用いるのであれば、任意の音声データを用いてよい。ここで、各モデルM1〜M5を用いて雑音が多く含まれる入力音声から音声認識を精度良く実行する点を考慮すると、情報提供装置10は、キーワード音声と処理音声とが同一の利用者により発話されており、かつ、任意の雑音が含まれる音声を音声データとして採用すればよい。
ここで、情報提供装置10は、各モデルM1〜M5に、キーワード音声を検出する機能を含めてもよく、含めずともよい。すなわち、キーワード音声を音素の特徴等に基づいて検出するための手段は、端末装置100に予め保持されていてもよく、各モデルとともに情報提供装置10が学習および配信を行ってよい。例えば、情報提供装置10は、所定のキーワードを発話した音声が有する特徴を学習したモデルを用いて、キーワード音声を検出するための機能を各モデルM1〜M5に含めてもよい。このような機能は、例えば、DNNU1やマスク生成部U7の前段に設定されることとなる。また、このようなキーワードの検出機能は、例えば、様々な利用者により発話されたキーワード音声の特徴を学習するように学習が行われたモデルにより実現されてもよい。また、このようなキーワードの検出機能は、キーワード音声に雑音を加えた学習データにより学習が行われたモデルにより実現されてもよい。
以下、上記した学習処理を実現する情報提供装置10が有する機能構成の一例、および、上述した抽出処理を実現する端末装置100が有する機能構成の一例について説明する。
まず、図7を用いて、情報提供装置10が有する機能構成の一例を説明する。図7は、実施形態に係る情報提供装置の構成例を示す図である。図7に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
続いて、図9を用いて、端末装置100が有する機能構成の一例を説明する。図9は、実施形態に係る端末装置の構成例を示す図である。図9に示すように、端末装置100は、通信部120、記憶部130、制御部140、マイクMCおよびスピーカーSPを有する。
次に、図10、図11を用いて、情報提供装置10および端末装置100が実行する処理の流れの一例について説明する。図10は、実施形態に係る情報提供装置が実行する学習処理の流れの一例を示すフローチャートである。また、図11は、実施形態に係る端末装置が実行する検出処理の流れの一例を示すフローチャートである。
上記では、学習処理や検出処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10や端末装置100が実行する学習処理や検出処理のバリエーションについて説明する。
上述した説明では、端末装置100は、情報提供装置10により学習が行われた各種のモデルを用いて、抽出処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、端末装置100は、図2〜図6に示す各種のモデルが実行する処理と同様の処理をコンピュータに実行させるプログラムを実行することにより、上述した抽出処理を実現してもよい。また、端末装置100は、図2〜図6に示す各種のモデルが有する機能構成のそれぞれを実現する回路を有し、これらの回路を用いて、上述した抽出処理を実現してもよい。
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10と端末装置100とは、上述した学習処理および検出処理を連携して実現してもよく、いずれか一方の装置が単独で実行してもよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述した実施形態に係る情報提供装置10は、例えば図12に示すような構成のコンピュータ1000によって実現される。図12は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、端末装置100は、入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する。そして、端末装置100は、入力音声のうちキーワード音声に続く音声である後続音声から、キーワード音声と特徴が類似する音声を抽出する。このような処理の結果、端末装置100は、事前に特定の利用者の声が有する特徴を学習せずとも、キーワード音声を発話した利用者の音声を後続音声から抽出することができるので、キーワード音声を発話した利用者の処理発話を適切に抽出することができる結果、雑音が多く含まれるような状態においても、音声認識精度を向上させることができる。
20、120 通信部
30、130 記憶部
31 学習データデータベース
32 モデルデータベース
40、140 制御部
41 データ取得部
42 学習部
43 提供部
100 端末装置
141 検出部
142 推定部
143 抽出部
144 生成部
145 認識部
146 強調部
147 処理部
M 学習モデル
MC マイク
SP スピーカー
OS 外部サーバ
DS データサーバ
Claims (23)
- 入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出部と、
前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出部と
を有することを特徴とする抽出装置。 - 前記抽出部は、前記後続音声に含まれる音声のうち、前記キーワード音声と特徴が類似する音声を強調した強調音声を生成する
ことを特徴とする請求項1に記載の抽出装置。 - 前記検出部により検出されたキーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する推定部
を有し、
前記抽出部は、前記推定部により推定された重みが適用された複数の前記強調関数を用いて、前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声を生成する
ことを特徴とする請求項2に記載の抽出装置。 - 前記推定部は、キーワード音声が入力されると、当該キーワード音声が有する特徴と特徴が類似する音声を強調するための各強調関数の重みを出力するように学習が行われた第1モデルを用いて、前記検出部により検出されたキーワード音声と特徴が類似する音声を強調するための重みを推定する
ことを特徴とする請求項3に記載の抽出装置。 - 前記強調音声と特徴が類似する音声を強調するためのマスクを生成する第1マスク生成部と、
前記後続音声に対して前記第1マスク生成部により生成されたマスクを適用した音声を音声認識の対象となる対象音声として生成する対象音声生成部と
を有することを特徴とする請求項2〜4のうちいずれか1つに記載の抽出装置。 - 前記第1マスク生成部は、音声が入力されると、入力された音声と特徴が類似する音声を強調するためのマスクを出力するように学習が行われた第2モデルを用いて、前記強調音声と特徴が類似する音声を強調するためのマスクを生成する
ことを特徴とする請求項5に記載の抽出装置。 - 前記対象音声に含まれる音声の音声認識を行う第1認識部
を有することを特徴とする請求項5または6に記載の抽出装置。 - 前記強調音声に含まれる音声を認識する第2認識部
を有することを特徴とする請求項2〜4のうちいずれか1つに記載の抽出装置。 - 前記第2認識部は、音声が入力されると、入力された音声の認識結果を出力するように学習が行われた第3モデルを用いて、前記強調音声に含まれる音声を認識する
ことを特徴とする請求項8に記載の抽出装置。 - キーワード発話を強調するように学習が行われたモデルを用いて、前記入力音声のうち前記キーワード発話が含まれるキーワード領域の音声から、当該キーワード発話を強調するためのマスクを生成する第2マスク生成部と、
複数の前記入力音声に対して前記第2マスク生成部により生成されたマスクを適用した適用音声から、前記キーワード発話と特徴が類似する音声を強調する空間的なフィルタを生成するフィルタ生成部と
を有し、
前記抽出部は、前記後続音声に前記フィルタ生成部により生成されたフィルタを適用した音声から、前記キーワード音声と特徴が類似する音声を抽出する
ことを特徴とする請求項1〜9のうちいずれか1つに記載の抽出装置。 - 前記第2マスク生成部により生成されたマスクを適用した適用音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する推定部
を有し、
前記抽出部は、前記推定部により推定された重みが適用された複数の前記強調関数を用いて、前記フィルタを適用した音声から前記適用音声と特徴が類似する音声を強調した強調音声を生成する
ことを特徴とする請求項10に記載の抽出装置。 - 前記検出部は、所定のキーワードを発話した音声が有する特徴を学習した第4モデルを用いて、前記キーワード音声を検出する
ことを特徴とする請求項1〜11のうちいずれか1つに記載の抽出装置。 - 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得部と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。 - 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声と同じ利用者が当該キーワード音声に続けて発話した音声である発話音声と、当該発話音声の音声認識結果とを取得する取得部と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて、前記キーワード音声に続く後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記発話音声の音声認識結果を出力するように、前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。 - 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声と同じ利用者が当該キーワード音声に続けて発話した音声である発話音声と、当該発話音声の音声認識結果とを取得する取得部と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記キーワード音声に続く後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルと、前記後続音声に対して当該第2モデルが生成したマスクを適用した音声の音声認識を行う第4モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記発話音声の音声認識結果を出力するように、前記モデルの学習を行う学習部と
を有することを特徴とする学習装置。 - 抽出装置が実行する抽出方法であって、
入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出工程と、
前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出工程と
を含むことを特徴とする抽出方法。 - 入力された音声である入力音声から所定のキーワードを発話した音声であるキーワード音声を検出する検出手順と、
前記入力音声のうち前記キーワード音声に続く音声である後続音声から、当該キーワード音声と特徴が類似する音声を抽出する抽出手順と
をコンピュータに実行させるための抽出プログラム。 - 学習装置が実行する学習方法であって、
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得工程と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。 - 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声のうち前記キーワード音声と特徴が類似する音声を強調するためのマスクとを取得する取得手順と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記マスクを出力するように、前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。 - 学習装置が実行する学習方法であって、
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得工程と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。 - 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得手順と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。 - 学習装置が実行する学習方法であって、
所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得工程と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルと、前記後続音声に対して当該第2モデルが生成したマスクを適用した音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習工程と
を含むことを特徴とする学習方法。 - 所定のキーワードを発話した音声であるキーワード音声と、当該キーワード音声に続く音声である後続音声と、当該後続音声の音声認識結果とを取得する取得手順と、
キーワード音声の入力を受付けると、当該キーワード音声と特徴が類似する音声が強調されるように、それぞれ異なる特徴を有する音声を強調する複数の強調関数に対する重みを推定する第1モデルと、当該第1モデルにより推定された重みが適用された複数の前記強調関数を用いて前記後続音声から前記キーワード音声と特徴が類似する音声を強調した強調音声と特徴が類似する音声を強調するためのマスクを生成する第2モデルと、前記後続音声に対して当該第2モデルが生成したマスクを適用した音声の音声認識を行う第3モデルとを有するモデルに対し、前記キーワード音声と前記後続音声とを入力した場合に、前記後続音声の音声認識結果を出力するように、前記モデルの学習を行う学習手順と
をコンピュータに実行させるための学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018216881A JP6998289B2 (ja) | 2018-11-19 | 2018-11-19 | 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018216881A JP6998289B2 (ja) | 2018-11-19 | 2018-11-19 | 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020086011A true JP2020086011A (ja) | 2020-06-04 |
JP6998289B2 JP6998289B2 (ja) | 2022-01-18 |
Family
ID=70907748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018216881A Active JP6998289B2 (ja) | 2018-11-19 | 2018-11-19 | 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6998289B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05128286A (ja) * | 1991-11-05 | 1993-05-25 | Ricoh Co Ltd | ニユーラルネツトワークによるキーワードスポツテイング方式 |
JP2006504130A (ja) * | 2002-10-23 | 2006-02-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
JP2009145499A (ja) * | 2007-12-12 | 2009-07-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 |
JP2017090853A (ja) * | 2015-11-17 | 2017-05-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
-
2018
- 2018-11-19 JP JP2018216881A patent/JP6998289B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05128286A (ja) * | 1991-11-05 | 1993-05-25 | Ricoh Co Ltd | ニユーラルネツトワークによるキーワードスポツテイング方式 |
JP2006504130A (ja) * | 2002-10-23 | 2006-02-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声に基づく装置制御 |
JP2009145499A (ja) * | 2007-12-12 | 2009-07-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 |
JP2017090853A (ja) * | 2015-11-17 | 2017-05-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6998289B2 (ja) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11138977B1 (en) | Determining device groups | |
US12033632B2 (en) | Context-based device arbitration | |
US11875820B1 (en) | Context driven device arbitration | |
US11475881B2 (en) | Deep multi-channel acoustic modeling | |
JP7212718B2 (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
US11574637B1 (en) | Spoken language understanding models | |
US10878812B1 (en) | Determining devices to respond to user requests | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
JP6991041B2 (ja) | 生成装置、生成方法、および生成プログラム | |
JP2018040848A (ja) | 音響処理装置および音響処理方法 | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
US20240071408A1 (en) | Acoustic event detection | |
WO2020202862A1 (ja) | 応答生成装置及び応答生成方法 | |
JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
JP6856697B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム | |
JP2019219468A (ja) | 生成装置、生成方法及び生成プログラム | |
EP4120244A1 (en) | Techniques for audio feature detection | |
JP6998289B2 (ja) | 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム | |
WO2020208972A1 (ja) | 応答生成装置及び応答生成方法 | |
JP2019015950A (ja) | 音声認識方法、プログラム、音声認識装置、及びロボット | |
CN111862947A (zh) | 用于控制智能设备的方法、装置、电子设备和计算机存储介质 | |
US12125483B1 (en) | Determining device groups | |
US11887602B1 (en) | Audio-based device locationing | |
JP6688820B2 (ja) | 出力装置、出力方法、および出力プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200917 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210903 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6998289 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |