JP6688820B2 - 出力装置、出力方法、および出力プログラム - Google Patents
出力装置、出力方法、および出力プログラム Download PDFInfo
- Publication number
- JP6688820B2 JP6688820B2 JP2018034776A JP2018034776A JP6688820B2 JP 6688820 B2 JP6688820 B2 JP 6688820B2 JP 2018034776 A JP2018034776 A JP 2018034776A JP 2018034776 A JP2018034776 A JP 2018034776A JP 6688820 B2 JP6688820 B2 JP 6688820B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- voice
- terminal device
- output
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 97
- 230000008569 process Effects 0.000 claims description 70
- 238000012545 processing Methods 0.000 claims description 35
- 230000008859 change Effects 0.000 claims description 34
- 230000005236 sound signal Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 description 66
- 238000001514 detection method Methods 0.000 description 24
- 230000010365 information processing Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000007257 malfunction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
〔1.情報提供装置の概要について〕
まず、図1を用いて、出力装置の一例である情報提供装置が実行する出力処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する学習処理および出力処理の一例を示す図である。図1では、情報提供装置10は、以下に説明する学習処理および出力処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
ここで、音声デバイス300に各種処理を実行させるため、所定の起動音声を用いる技術が知られている。例えば、音声デバイス300は、商品名や所定の単語等、予め定められた所定のキーワード(以下、「起動音声」と記載する。)の音声信号が有する特徴をあらかじめ学習したモデルを保持する。そして、音声デバイス300は、周囲の音声を常時取得し、モデルを用いて取得した音声に起動音声が含まれているか否かを判定する。
近年、スマートスピーカーの普及に伴い、利用者が意図しない動作をスマートスピーカーが実行してしまうという問題が生じている。例えば、スマートスピーカーは、音声によって操作が可能であるため、例えば、端末装置TMが出力する音声に起動音声が含まれる場合は、起動音声に続く音声に従って、音声デバイス300が処理を実行してしまう恐れがある。また、音声デバイス300が起動音声を用いたビームフォーミングを行う場合、端末装置TMが起動音声を出力すると、端末装置TM側から発せられる音が強調される結果、利用者の音声が適切に認識されなくなる恐れがある。また、将来的に起動音声が用いられなくなった場合、このような音声デバイス300の誤作動が増加するとも考えられる。
ここで、情報提供装置10が配信音声を変更音声に変更する具体例について説明する。例えば、情報提供装置10が配信音声に含まれる起動音声を他の音声へと変更したり、配信音声のうち起動音声の部分を無音に変更した場合は、音声デバイス300が起動音声を検出することができなくなるものの、端末装置TMから出力される音声を利用者が理解できなくなる恐れがある。一方で、音声デバイス300が起動音声が有する特徴を学習したモデルを用いて周囲の音声から起動音声を検出する場合、変更後の音声が起動音声と類似する特徴を有していると、音声デバイス300が変更後の音声を起動音声として検出する恐れがある。例えば、起動音声の音量を小さくしただけでは、音声デバイス300が起動音声を検出してしまう恐れがある。
ここで、情報提供装置10は、利用者が想定しない処理を音声デバイス300に実行させることを防ぐのであれば、配信音声のうち任意の範囲の音声を変更してよい。
ここで、情報提供装置10は、アドバーサリアル音声に変更する範囲を任意の手法で特定あるいは推定してよい。例えば、情報提供装置10は、起動音声等、アドバーサリアル音声に変更する音声(以下、「変更対象音声」と記載する。)が有する特徴を学習した学習モデルを生成する。そして、情報提供装置10は、学習モデルを用いて、配信音声のうち変更対象音声が含まれる範囲を推定し、推定した範囲をアドバーサリアル音声に変更すしてもよい。
以下、図1を用いて、情報提供装置10が実行する処理の一例について説明する。まず、情報提供装置10は、学習に用いる起動音声を情報処理装置100から取得する(ステップS1)。このような場合、情報提供装置10は、起動音声が有する特徴をモデルに学習させることで(ステップS2)、起動音声が有する特徴を学習した学習モデルを生成する。
上述した例では、情報提供装置10は、配信装置200から受付けた配信音声のうち起動音声が含まれる範囲等、所定の範囲をアドバーサリアル音声に変更し、変更後の変更音声を端末装置TMへと配信した。しかしながら、実施形態は、これに限定されるものではない。
上述した説明では、情報提供装置10は、入力信号として音声信号を受付け、音声信号に含まれる音声のうち所定の範囲に含まれる音声を所定の端末装置が正しく識別できないように変更した。より具体的には、情報提供装置10は、音声デバイス300が使用するモデルであって、音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる起動音声を検出するモデルが検出できないように、音声信号に含まれる起動音声をアドバーサリアル音声に変更した。しかしながら、実施形態は、これに限定されるものではない。
上述した例では、情報提供装置10は、起動音声の検出を行うモデルの学習を行った。しかしながら、実施形態は、これに限定されるものではない。例えば、DNN等のモデルは、ある入力情報を入力した際に、その入力情報が有する特徴に基づいた出力情報を出力するように学習を行うことが可能である。このようなモデルの特性を考慮し、例えば、情報提供装置10は、配信音声を入力した際に、起動音声等の所定の音声が含まれる範囲をアドバーサリアル音声に変換した変換音声を直接出力するように、モデルの学習を行ってもよい。
以下、上記した検出処理および配信処理を実現する情報提供装置10および音声デバイス300が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置および音声デバイスの構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。また、音声デバイス300は、通信部310、記憶部320、制御部330、出力部340および観測部350を有する。
次に、図5を用いて、情報提供装置10が実行する出力処理の流れの一例について説明する。図5は、実施形態に係る情報提供装置が実行する出力処理の流れの一例を示すフローチャートである。
上記では、情報提供装置10による学習処理および出力処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する処理のバリエーションについて説明する。
情報提供装置10は、所定の条件が満たされた場合には、上述した音声の変更を実行せずともよい。例えば、TVで出力される音声と、このような音声に従って音声デバイス300が出力する音声とを連動させた広告態様が考えられる。このような広告の音声が配信音声に含まれる場合、情報提供装置10は、広告の音声をアドバーサリアル音声に変更せずとも好い。また、配信装置200は、予め起動音声をアドバーサリアル音声に変更した配信音声の配信を行ってもよい。
記憶部30に登録された各データベース31、32は、外部のストレージサーバに保持されていてもよい。また、情報提供装置10は、学習処理を実行する学習サーバ、および配信音声を変更して出力する出力サーバとが連携して動作することにより、実現されてもよい。このような場合、学習サーバには、学習部42が配置されていればよく、出力サーバには、受付部43、推定部44、変更部45および出力部46が配置されていればよい。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述した実施形態に係る情報提供装置10は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、情報提供装置10は、入力信号を受付けると、入力信号のうち所定の範囲を、所定の音声デバイス300が正しく識別できないように変更し、所定の範囲が変更された入力信号を出力する。このため、情報提供装置10は、利用者が意図しない動作を音声デバイス300が実行することを防ぐことができる。
20、310 通信部
30、320 記憶部
31 学習データデータベース
32 モデルデータベース
40、330 制御部
41 収集部
42 学習部
43 受付部
44 推定部
45 変更部
46 出力部
100 情報処理装置
200 配信装置
300 音声デバイス
321 検出モデル
331 検出部
332 実行部
340 出力部
350 観測部
Claims (15)
- 所定の端末装置に実行させる処理を示す第1信号と、当該所定の端末装置が当該第1信号を識別する際に用いる第2信号とを含む入力信号を受付ける受付部と、
前記入力信号のうち前記第1信号または前記第2信号を、所定の端末装置が正しく識別できないように変更する変更部と、
前記変更部によって前記第1信号または前記第2信号が変更された入力信号を出力する出力部と
を有することを特徴とする出力装置。 - 前記変更部は、前記端末装置が前記第2信号を正しく検出できないように変更する
ことを特徴とする請求項1に記載の出力装置。 - 前記変更部は、前記端末装置が前記第1信号が示す処理を正しく認識できないように変更する
ことを特徴とする請求項1または2に記載の出力装置。 - 前記変更部は、後続する第1信号が示す処理を前記端末装置に実行させるための第2信号が含まれる範囲を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項1〜3のうちいずれか1つに記載の出力装置。 - 前記変更部は、前記端末装置が前記入力信号の送信元の方向を推定する際に用いる第2信号が含まれる範囲を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項1〜4のうちいずれか1つに記載の出力装置。 - 前記変更部は、前記端末装置が用いるモデルが特徴を学習した信号であって、前記端末装置が検出した際に後続する第1信号の認識処理を行わせるための第2信号を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項1〜5のうちいずれか1つに記載の出力装置。 - 前記変更部は、前記端末装置に実行させる処理を示す第1信号を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項1〜6のうちいずれか1つに記載の出力装置。 - 所定の信号が有する特徴を学習した学習モデルを用いて、前記入力信号のうち前記第1信号若しくは前記第2信号が含まれる範囲を推定する推定部
を有し、
前記変更部は、前記入力信号のうち前記推定部により推定された範囲に含まれる信号を前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項1〜7のうちいずれか1つに記載の出力装置。 - 前記変更部は、前記入力信号から前記第2信号が検出された場合は、当該入力信号のうち前記第2信号から所定の範囲に含まれる信号を、前記端末装置が正しく識別できないように変更する
ことを特徴とする請求項1〜8のうちいずれか1つに記載の出力装置。 - 前記受付部は、前記入力信号として音声信号を受付け、
前記変更部は、前記音声信号に含まれる音声のうち前記端末装置に実行させる処理を示す第1音声または前記端末装置が当該第1音声を識別する際に用いる第2音声を所定の端末装置が正しく識別できないように変更する
ことを特徴とする請求項1〜9のうちいずれか1つに記載の出力装置。 - 前記受付部は、前記入力信号として音声信号を受付け、
前記変更部は、前記端末装置が使用するモデルであって、前記音声信号に含まれる音声のうち後続する音声信号の音声認識を実行させる所定の音声を検出するモデルが検出できないように、前記音声信号に含まれる所定の音声を変更する
ことを特徴とする請求項1〜10のうちいずれか1つに記載の出力装置。 - 前記変更部は、前記入力信号のうち前記第1信号または前記第2信号に対し、前記端末装置が正しく識別できなくさせる強度のノイズを合成する
ことを特徴とする請求項1〜11のうちいずれか1つに記載の出力装置。 - 前記受付部は、前記入力信号として音声信号を受付け、
前記変更部は、前記音声信号のうち前記端末装置に実行させる処理を示す第1音声または前記端末装置が当該第1音声を識別する際に用いる第2音声に対し、利用者による認識が困難な強度のノイズであって、前記端末装置が正しく識別できなくさせる強度のノイズを合成する
ことを特徴とする請求項12に記載の出力装置。 - 出力装置が実行する出力方法であって、
所定の端末装置に実行させる処理を示す第1信号と、当該所定の端末装置が当該第1信号を識別する際に用いる第2信号とを含む入力信号を受付ける受付工程と、
前記入力信号のうち前記第1信号または前記第2信号を、所定の端末装置が正しく識別できないように変更する変更工程と、
前記変更工程によって前記第1信号または前記第2信号が変更された入力信号を出力する出力工程と
を含むことを特徴とする出力方法。 - 所定の端末装置に実行させる処理を示す第1信号と、当該所定の端末装置が当該第1信号を識別する際に用いる第2信号とを含む入力信号を受付ける受付手順と、
前記入力信号のうち前記第1信号または前記第2信号を、所定の端末装置が正しく識別できないように変更する変更手順と、
前記変更手順によって前記第1信号または前記第2信号が変更された入力信号を出力する出力手順と
をコンピュータに実行させるための出力プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018034776A JP6688820B2 (ja) | 2018-02-28 | 2018-02-28 | 出力装置、出力方法、および出力プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018034776A JP6688820B2 (ja) | 2018-02-28 | 2018-02-28 | 出力装置、出力方法、および出力プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019149768A JP2019149768A (ja) | 2019-09-05 |
JP6688820B2 true JP6688820B2 (ja) | 2020-04-28 |
Family
ID=67849679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018034776A Active JP6688820B2 (ja) | 2018-02-28 | 2018-02-28 | 出力装置、出力方法、および出力プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6688820B2 (ja) |
-
2018
- 2018-02-28 JP JP2018034776A patent/JP6688820B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019149768A (ja) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7271674B2 (ja) | ネットワークマイクロフォンデバイスのノイズ分類による最適化 | |
US11741979B1 (en) | Playback of audio content on multiple devices | |
US9431021B1 (en) | Device grouping for audio based interactivity | |
US8819554B2 (en) | System and method for playing media | |
JP7212718B2 (ja) | 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム | |
JP2018190413A (ja) | ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム | |
JP2019095551A (ja) | 生成装置、生成方法、および生成プログラム | |
WO2020195821A1 (ja) | 情報処理装置、情報処理方法、情報処理プログラム | |
JP6400871B1 (ja) | 発話制御装置、発話制御方法、および発話制御プログラム | |
CN113168827A (zh) | 终端设备及其控制方法 | |
WO2022218027A1 (zh) | 音频播放方法、装置、计算机可读存储介质及电子设备 | |
JP6557376B1 (ja) | 出力制御装置、出力制御方法、および出力制御プログラム | |
JP6767322B2 (ja) | 出力制御装置、出力制御方法及び出力制御プログラム | |
WO2020202862A1 (ja) | 応答生成装置及び応答生成方法 | |
JP6688820B2 (ja) | 出力装置、出力方法、および出力プログラム | |
US20230099383A1 (en) | Power state detection via audio signal capture | |
WO2016052520A1 (ja) | 対話装置 | |
JP2020181060A (ja) | 情報処理装置、情報処理方法、情報処理プログラム、学習装置、学習方法および学習プログラム | |
WO2020208972A1 (ja) | 応答生成装置及び応答生成方法 | |
JP6998289B2 (ja) | 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム | |
WO2020149031A1 (ja) | 応答処理装置及び応答処理方法 | |
JP6516805B2 (ja) | 決定装置、決定方法、及び決定プログラム | |
JP7018850B2 (ja) | 端末装置、決定方法、決定プログラム及び決定装置 | |
JP6499343B1 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
US20220360935A1 (en) | Sound field control apparatus and method for the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191108 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20191108 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200324 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6688820 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |