JP2016109933A - 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置 - Google Patents

音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置 Download PDF

Info

Publication number
JP2016109933A
JP2016109933A JP2014248331A JP2014248331A JP2016109933A JP 2016109933 A JP2016109933 A JP 2016109933A JP 2014248331 A JP2014248331 A JP 2014248331A JP 2014248331 A JP2014248331 A JP 2014248331A JP 2016109933 A JP2016109933 A JP 2016109933A
Authority
JP
Japan
Prior art keywords
voice
data
noise
operation mode
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014248331A
Other languages
English (en)
Inventor
昌明 原田
Masaaki Harada
昌明 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2014248331A priority Critical patent/JP2016109933A/ja
Publication of JP2016109933A publication Critical patent/JP2016109933A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Selective Calling Equipment (AREA)
  • Control Of Washing Machine And Dryer (AREA)

Abstract

【課題】効果的な雑音低減により音声認識率を向上させることができる音声認識方法を提供する。【解決手段】音声認識方法は、ユーザから音声入力を受け付けて音声データを生成するステップ(S11)と、互いに異なる雑音の発生を伴う複数の第1処理を示す複数の第1動作モードに対応する複数の第1雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第1機器により行われていた第1処理を示す第1動作モードに対応する第1雑音データを取得するステップ(S14)と、取得された前記第1雑音データを用いて、前記音声データの雑音低減を行うステップ(S15)と、前記雑音低減の結果に対して音声認識を行うステップ(S16)と、を含む。【選択図】図4

Description

本発明は、音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置に関する。
従来、インターネット網や宅内ネットワークを利用して、家庭にある複数の電子機器を音声で操作したり、電子機器の状態を音声で確認するシステムがある。このシステムでは、ユーザが発する音声を正しく認識するために周辺で発生する雑音の影響を軽減する必要がある。特許文献1および特許文献2には、複数の場所に対応した環境雑音モデルを記憶し、ユーザの現在位置に対応した雑音モデルを利用して雑音をキャンセルすることで音声認識率を高める技術が開示されている。
特開2008−242067号公報 特開2008−250059号公報
しかし、同一の場所であっても発生する雑音が変化する場合があるため、音声認識のためのより効果的な雑音低減(ノイズリダクション)の技術が要求されている。
そこで、本発明は、効果的な雑音低減により音声認識率を向上させることができる音声認識方法などを提供する。
本発明の一態様に係る音声認識方法は、ユーザから音声入力を受け付けて音声データを生成するステップと、互いに異なる雑音の発生を伴う複数の第1処理を示す複数の第1動作モードに対応する複数の第1雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第1機器により行われていた第1処理を示す第1動作モードに対応する第1雑音データを取得するステップと、取得された前記第1雑音データを用いて、前記音声データの雑音低減を行うステップと、前記雑音低減の結果に対して音声認識を行うステップと、を含む。
なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明の一態様に係る音声認識方法などによれば、効果的な雑音低減により音声認識率を向上させることができる。
実施の形態1における音声認識システムの使用事例を示す図 実施の形態1における音声認識システムの機能構成を示すブロック図 実施の形態1における動作モードおよび雑音データの対応関係の一例を示す図 実施の形態1における音声認識システムのシーケンス図 実施の形態2における音声認識システムの使用事例を示す図 実施の形態2における音声認識システムの機能構成を示すブロック図 実施の形態2における音声認識システムのシーケンス図 実施の形態3における音声制御システムの機能構成を示すブロック図 実施の形態3における機器、動作モードおよび雑音データの対応関係の一例を示す図 実施の形態3における音声制御システムの音声制御に関するシーケンス図 実施の形態3における音声制御システムの雑音データ収集に関するシーケンス図 実施の形態4における音声制御システムの機能構成を示すブロック図 実施の形態4における機器、場所、動作モードおよび雑音データの対応関係の一例を示す図 実施の形態4における音声制御システムの音声制御に関するシーケンス図 実施の形態5におけるサービス提供システムの全体像を示す図 実施の形態5におけるデータセンタ運営会社の他の一例を示す図 実施の形態5におけるデータセンタ運営会社の他の一例を示す図 実施の形態5におけるサービスの類型1(自社データセンタ型)を示す図 実施の形態5におけるサービスの類型2(IaaS利用型)を示す図 実施の形態5におけるサービスの類型3(PaaS利用型)を示す図 実施の形態5におけるサービスの類型4(SaaS利用型)を示す図
(本発明の基礎となった知見)
家庭内の機器を音声で手軽に操作するサービスを提供するために、ユーザのいる場所を特定し、その場所で発生する雑音の影響を軽減して音声認識する技術が検討されている。しかし、場所が特定されたとしても、その場所で発生する雑音は時間とともに変化する可能性がある。従来の技術では、このような場所に依存しない雑音を低減することが難しい。
そこで、本発明の一態様に係る音声認識方法は、ユーザから音声入力を受け付けて音声データを生成するステップと、互いに異なる雑音の発生を伴う複数の第1処理を示す複数の第1動作モードに対応する複数の第1雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第1機器により行われていた第1処理を示す第1動作モードに対応する第1雑音データを取得するステップと、取得された前記第1雑音データを用いて、前記音声データの雑音低減を行うステップと、前記雑音低減の結果に対して音声認識を行うステップと、を含む。
これによれば、音声入力が受け付けられたときに第1機器により行われていた第1処理を示す第1動作モードに対応する第1雑音データを用いて、音声データの雑音低減を行うことができる。したがって、第1機器から発生する雑音が処理に応じて変化する場合に、第1機器が行っている第1処理に対応する雑音データを用いることができるので、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。
例えば、前記音声入力は、前記第1機器によって受け付けられてもよい。
これによれば、音声入力を受け付ける第1機器が雑音の発生を伴う処理を行う場合に、効果的に雑音低減を行うことができる。つまり、雑音の発生を伴う処理を行う機器(例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなど)において受け付けられた音声入力に基づく音声認識率を向上させることができる。
例えば、前記記憶装置は、さらに、互いに異なる雑音の発生を伴う複数の第2処理を示す複数の第2動作モードに対応する複数の第2雑音データを格納しており、前記音声認識方法は、さらに、前記音声入力が受け付けられたときに前記第1機器の周辺に位置する第2機器により行われていた第2処理を示す第2動作モードに対応する第2雑音データを前記記憶装置から取得するステップを含み、前記雑音低減では、取得された前記第1雑音データ、および、取得された前記第2雑音データが用いられてもよい。
これによれば、第1機器により行われていた第1処理に対応する第1雑音データに加えて、第1機器の周辺に位置する第2機器により行われていた第2処理に対応する第2雑音データを用いて、雑音低減を行うことができる。したがって、第2機器から発生する雑音が処理に応じて変化する場合にも、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。
例えば、前記音声認識方法は、さらに、前記第1機器の位置を示す第1位置情報を取得するステップと、前記第1位置情報と、前記第2機器を含む複数の第2機器の各々の位置を示す第2位置情報とを比較することにより、前記複数の第2機器の中から前記第1機器の周辺に位置する前記第2機器を選択するステップと、を含んでもよい。
これによれば、第1機器の第1位置情報と複数の第2機器の各々の第2位置情報とを比較することにより、複数の第2機器の中から第1機器の周辺に位置する第2機器を選択することができる。つまり、複数の第2機器の中から、音声データに雑音成分を与える第2機器を適切に選択することができる。したがって、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。
例えば、前記音声入力は、第2機器によって受け付けられ、前記第1機器は、前記第2機器の周辺に位置してもよい。
これによれば、音声入力を受け付ける第1機器の周辺に位置する第2機器が雑音の発生を伴う処理を行う場合に、効果的に雑音低減を行うことができる。つまり、雑音の発生を伴う処理を行う機器(例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなど)の周辺に位置する機器(例えば、スマートフォン、タブレットコンピュータ、当該機器に専用の音声入力装置など)において受け付けられた音声入力に基づく音声認識率を向上させることができる。
例えば、前記音声認識方法は、さらに、前記音声入力が行われていないときに音を収音して音データを生成するステップと、前記音データに基づく第1雑音データを、前記音が収音されたときに前記第1機器により行われていた第1処理を示す第1動作モードに対応付けて前記記憶装置に格納する格納ステップと、を含んでもよい。
これによれば、音声入力が行われていないときに音を収音して生成された音データに基づいて、第1動作モードに対応する雑音データを収集することができる。したがって、第1機器の設置状況(例えば設置場所、機器の姿勢など)に対応する雑音データを容易に収集することができる。このように収集された雑音データを用いることにより、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。
例えば、前記音声認識の結果に基づいて前記第1機器を制御するステップを含んでもよい。
これによれば、音声認識の結果に基づいて第1機器を制御することができる。つまり、音声認識方法を音声制御システムに応用することができる。
なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
例えば、本発明の一態様に係る音声認識システムは、音声入力装置と音声認識装置とを備える音声認識システムであって、前記音声入力装置は、ユーザから音声入力を受け付けて音声データを生成する音入力部と、前記音声データと、前記音声入力が受け付けられたときに当該音声入力装置により行われていた第1処理を示す第1動作モードとを前記音声認識装置に送信する通信部とを備え、前記音声認識装置は、前記音声入力装置から、前記音声データと前記第1動作モードとを受信する通信部と、互いに異なる雑音の発生を伴う複数の第1処理を示す複数の第1動作モードに対応する複数の第1雑音データを格納している記憶部と、受信された前記第1動作モードに対応する第1雑音データを前記記憶部から取得し、取得された前記第1雑音データを用いて、受信された前記音声データの雑音低減を行う雑音低減部と、前記雑音低減の結果に対して音声認識を行う音声認識部と、を備えてもよい。
また例えば、本発明の一態様に係る音声入力装置は、上記音声認識システムに含まれる音声入力装置であってもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、構成要素の配置位置および接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
まず、実施の形態1について、図1〜図4を参照しながら具体的に説明する。
[音声認識システムの構成]
図1は、実施の形態1における音声認識システム1の使用事例を示す図である。
音声認識システム1は、ユーザ99からの音声入力に基づいて音声認識を行うためのシステムである。音声認識システム1は、音声入力装置10と、音声認識装置20とを備える。
音声入力装置10は、ユーザ99から音声入力を受け付ける電子機器であって、互いに異なる雑音の発生を伴う複数の処理を行うことができる電子機器である。本実施の形態では、音声入力装置10は第1機器の一例である。具体的には、音声入力装置10は、例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなどである。図1では、音声入力装置10が洗濯機である場合が例として示されている。
音声認識装置20は、通信ネットワーク(例えばインターネット、ローカルエリアネットワーク)を介して音声入力装置10と接続されている。具体的には、音声認識装置20は、例えば、クラウドサーバおよびホームサーバなどである。図1では、音声認識装置20がクラウドサーバである場合が例として示されている。
[音声認識システムの機能構成]
次に、音声認識システム1の機能構成について説明する。図2は、実施の形態1における音声認識システム1の機能構成を示すブロック図である。
まず、音声入力装置10について説明する。音声入力装置10は、図2に示すように、音入力部11と、通信部12とを備える。
音入力部11は、例えばマイクロフォンである。音入力部11は、ユーザ99から音声入力を受け付けて音声データを生成する。つまり、音入力部11は、ユーザ99の音声を含む音を電気信号(音声データ)に変換する。
通信部12は、例えば通信アダプタ、通信コントローラなどである。通信部12は、音入力部11によって生成された音声データと、当該音声データに対応する音声入力が受け付けられたときに音声入力装置10により行われていた処理を示す動作モードとを音声認識装置20に送信する。
動作モードとは、機器(装置)によって行われる処理または機器の動作状態を示す情報である。つまり、動作モードは、雑音の発生を伴う処理に対応する。例えば、動作モードには、注水処理を示す注水モード、洗濯処理を示す洗濯モード、脱水処理を示す脱水モード、乾燥処理を示す乾燥モードなどがある。
次に、音声認識装置20について説明する。音声認識装置20は、図2に示すように、記憶部21と、雑音低減部22と、音声認識部23と、通信部24とを備える。
記憶部21は、例えば、ハードディスクドライブ、半導体メモリなどである。記憶部21は、音声入力装置10の複数の動作モードに対応する複数の雑音データを格納している。
雑音データとは、雑音低減に用いられるデータである。具体的には、雑音データは、対応する動作モードが示す処理によって発生する雑音の特徴を示す。より具体的には、雑音データは、雑音の発生源(例えばモータ、洗濯槽など)から音声入力装置10の内部または外部を伝わって音入力部11に到達する雑音の特徴を示す。
図3は、実施の形態1における動作モードおよび雑音データの対応関係の一例を示す図である。図3では、動作モードA〜Dに対応付けて、雑音データA〜Dがそれぞれ記憶部21に格納されている。
雑音低減部22は、例えば、プロセッサあるいは専用回路などによって実装される。雑音低減部22は、後述する通信部24によって音声入力装置10から受信された動作モードに対応する雑音データを記憶部21から取得する。言い換えると、雑音低減部22は、音声入力装置10によって音声入力が受け付けられたときに当該音声入力装置10により行われていた処理を示す動作モードに対応する雑音データを記憶部21から読み出す。
さらに、雑音低減部22は、記憶部21から取得された雑音データを用いて、音声入力装置10から受信された音声データの雑音低減を行う。つまり、雑音低減部22は、音声データが示す音(音声および雑音を含む)から雑音データが示す雑音を除去する。
音声認識部23は、例えば、プロセッサあるいは専用回路などによって実装される。音声認識部23は、雑音低減部22による雑音低減の結果に対して音声認識を行う。つまり、音声認識部23は、音声を含む音であって雑音が除去された音を分析することにより、テキストデータを生成する。
通信部24は、例えば通信アダプタ、通信コントローラなどである。通信部24は、音声入力装置10から、音声データと動作モードとを受信する。
[音声認識システムの動作]
次に、以上のように構成された音声認識システム1の動作について説明する。図4は、実施の形態1における音声認識システム1のシーケンス図である。
まず、音声入力装置10において、音入力部11は、ユーザ99から音声入力を受け付けて音声データを生成する(S11)。通信部12は、音声データと、音声入力を受け付けたときに音声入力装置10により行われていた処理を示す動作モードとを音声認識装置20に送信する(S12)。
次に、音声認識装置20において、通信部24は、音声入力装置10から、音声データおよび動作モードを受信する(S13)。雑音低減部22は、受信された動作モードに対応する雑音データを記憶部21から取得する(S14)。例えば、音声入力装置10から動作モードCを受信した場合、雑音低減部22は、図3に示す記憶部21から動作モードCに対応する雑音データCを取得する。
続いて、雑音低減部22は、取得された雑音データを用いて音声データの雑音低減を行う(S15)。例えば、雑音低減部22は、音声データから推定されるSN比に基づく係数と雑音データCとの乗算結果を音声データから減算する。なお、雑音データを用いた雑音低減の方法は、どのような方法であってもよく、特定の方法に限定されない。
音声認識部23は、雑音低減の結果に対して音声認識を行う(S16)。例えば、音声認識部23は、各母音および各子音の特徴を示す学習データと雑音低減の結果とを比較することにより音声認識を行う。なお、音声認識の方法は、どのような方法であってもよく、特定の方法に限定されない。
音声認識の結果は、例えば、音声入力装置10の制御内容を決定するために用いられる。例えば、音声認識の結果が「乾燥」を示す場合、音声認識装置20は、洗濯機(音声入力装置10)に洗濯物の乾燥を行うための処理を指示する。
また、音声認識の結果は、例えば、音声認識装置20において提供されるサービスのために用いられてもよい。例えば、音声認識装置20は、音声認識の結果を蓄積し、蓄積された音声認識の結果をインターネットを介してユーザ99に提供してもよい。
[効果]
以上のように、本実施の形態における音声認識システム1によれば、音声入力が受け付けられたときに音声入力装置により行われていた処理を示す動作モードに対応する雑音データを用いて、音声データの雑音低減を行うことができる。したがって、音声入力装置から発生する雑音が処理に応じて変化する場合に、音声入力装置が行っている処理に対応する雑音データを用いることができるので、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。
また、本実施の形態における音声認識システム1によれば、音声入力を受け付ける音声入力装置が雑音の発生を伴う処理を行う場合に、効果的に雑音低減を行うことができる。つまり、雑音の発生を伴う処理を行う機器(例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなど)において受け付けられた音声入力に基づく音声認識率を向上させることができる。
(実施の形態2)
次に、実施の形態2について、図5〜図7を参照しながら具体的に説明する。本実施の形態では、音声入力装置と異なる機器が発生した雑音を音声データから除去する点が実施の形態1と異なる。
[音声認識システムの構成]
図5は、実施の形態2における音声認識システム2の使用事例を示す図である。
音声認識システム2は、音声入力装置40と、音声認識装置50と、機器60とを備える。
音声入力装置40は、ユーザ99から音声入力を受け付ける電子機器である。本実施の形態では、音声入力装置40は第2機器の一例である。具体的には、音声入力装置40は、例えば、スマートフォン、タブレットコンピュータ、機器60に専用の音声入力装置などである。図5では、音声入力装置40がスマートフォンである場合が例として示されている。
音声認識装置50は、通信ネットワーク(例えばインターネット、ローカルエリアネットワーク)を介して音声入力装置40および機器60と接続されている。具体的には、音声認識装置50は、例えば、クラウドサーバおよびホームサーバなどである。図5では、音声認識装置50がクラウドサーバである場合が例として示されている。
機器60は、互いに異なる雑音の発生を伴う複数の処理を行うことができる電子機器である。機器60は、音声入力装置40の周辺に位置する。つまり、機器60は、音声入力装置40によってユーザ99から音声入力が受け付けられたときに、機器60から発生した雑音が音声入力装置40に到達する範囲に位置する。本実施の形態では、機器60は第1機器の一例である。具体的には、機器60は、例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなどである。図5では、機器60が洗濯機である場合が例として示されている。
[音声認識システムの機能構成]
次に、音声認識システム2の機能構成について説明する。図6は、実施の形態2における音声認識システム2の機能構成を示すブロック図である。図6において、図2と同一または類似の構成要素については、同一の符号を付し、適宜説明を省略する。
図6に示すように、音声入力装置40は、音入力部11と、通信部42とを備える。音声認識装置50は、記憶部21と、雑音低減部22と、音声認識部23と、通信部54とを備える。機器60は、通信部61を備える。
音声入力装置40の通信部42は、例えば通信アダプタ、通信コントローラなどである。通信部42は、音入力部11によって生成された音声データを音声認識装置50に送信する。
機器60の通信部61は、例えば通信アダプタ、通信コントローラなどである。通信部61は、機器60が行っている処理を示す動作モードを音声認識装置50に送信する。具体的には、通信部61は、例えば、機器60の処理が変化したときに、変化後の処理を示す動作モードを音声認識装置50に送信する。また例えば、通信部61は、音声認識装置50からの要求に応じて、現在の処理を示す動作モードを送信してもよい。
音声認識装置50の通信部54は、例えば通信アダプタ、通信コントローラなどである。通信部54は、音声入力装置40から音声データを受信し、機器60から動作モードを受信する。
[音声認識システムの動作]
次に、以上のように構成された音声認識システム2の動作について説明する。図7は、実施の形態2における音声認識システム2のシーケンス図である。図7において、図4と同一または類似の処理については、同一の符号を付し、適宜説明を省略する。
機器60の通信部61は、機器60により行われている処理を示す動作モードを送信する(S21)。音声認識装置50の通信部54は、機器60から動作モードを受信する(S22)。
音声入力装置40の通信部42は、ステップS11において生成された音声データを音声認識装置50に送信する(S23)。音声認識装置50の通信部54は、音声入力装置40から音声データを受信する(S24)。
音声認識装置50は、音声入力装置40から受信した音声データと、機器60から受信した動作モードとを用いて、実施の形態1と同様に、雑音低減および音声認識を行う(S14〜S16)。
[効果]
以上のように、本実施の形態における音声認識システム2によれば、音声入力を受け付ける音声入力装置の周辺に位置する機器が雑音の発生を伴う処理を行う場合に、効果的に雑音低減を行うことができる。つまり、雑音の発生を伴う処理を行う機器(例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなど)の周辺に位置する機器(例えば、スマートフォン、タブレットコンピュータ、当該機器に専用の音声入力装置など)において受け付けられた音声入力に基づく音声認識率を向上させることができる。
(実施の形態3)
次に、実施の形態3について、図8〜図11を参照しながら具体的に説明する。本実施の形態では、実施の形態1における音声認識システムの応用例として音声制御システムについて説明する。
[音声制御システムの機能構成]
図8は、実施の形態3における音声制御システムの機能構成を示すブロック図である。音声制御システムは、複数の機器101と、クラウドサーバ111とを備える。
まず、複数の機器101について説明する。
複数の機器101の各々は、雑音の発生を伴う少なくとも1つの処理を行うことができる電子機器である。具体的には、複数の機器101は、例えば、洗濯機、食洗機、電子レンジ、炊飯器、掃除機、エアコン、空気清浄機、プリンタなどを含む。
ここでは、機器Aおよび機器Bが複数の機器101に含まれる。以下に、複数の機器101に共通する機能を、機器Aを用いて説明する。
機器Aは、第1機器の一例である。機器Aは、音入力部1010と、操作入力部1011と、出力部1012と、通信部1013と、制御部1014とを備える。
音入力部1010は、ユーザ99から音声入力を受け付けて音声データを生成する。本実施の形態では、音入力部1010は、自機器(機器A)の制御のための音声入力を受け付ける。
さらに、音入力部1010は、ユーザ99から音声入力を受け付けていないときに音を収音して音データを生成する。つまり、音入力部1010は、機器Aが発する雑音を含む音であってユーザの音声を含まない音を、音データに変換する。
操作入力部1011は、ユーザ99から音声とは異なる入力(以下、操作入力と呼ぶ)を受け付ける。操作入力は、例えば、ユーザ99の指などを用いた入力である。操作入力部1011は、例えば、タッチスクリーン、操作ボタン、操作ダイヤルなどによって実装される。本実施の形態では、操作入力部1011は、ユーザ99から動作モードの選択および音声入力の開始指示などを受け付ける。
出力部1012は、ユーザ99に情報を出力する。出力部1012は、例えば、ディスプレイ、タッチスクリーン、LEDランプ、スピーカなどによって実装される。出力部1012は、例えば、音声入力の受け付け開始を示す情報、音声認識の結果、音声認識の結果に基づく制御内容などを出力する。
通信部1013は、例えば通信アダプタ、通信コントローラなどである。通信部1013は、音入力部1010によって生成された音声データと、音声入力が受け付けられたときに機器Aにより行われていた処理を示す動作モードとをクラウドサーバ111に送信する。また、通信部1013は、音入力部1010によって生成された音データと、当該音データに対応する音が収音されたときに機器Aにより行われていた処理を示す動作モードとをクラウドサーバ111に送信する。さらに、通信部1013は、クラウドサーバ111から制御情報を受信する。
制御部1014は、機器Aを制御するコントローラである。制御部1014は、例えば、プロセッサあるいは専用回路などによって実装される。本実施の形態では、制御部1014は、操作入力部1011によって受け付けられた操作入力、あるいは、クラウドサーバ111から受信した制御情報に基づいて機器Aを制御する。
次に、クラウドサーバ111について説明する。クラウドサーバ111は、通信部1111と、データ処理部1112と、記憶部1113と、機器制御部1114とを備える。
通信部1111は、複数の機器101から、機器ID、音声データおよび動作モードを受信する。さらに、通信部1111は、機器制御部1114から取得した制御情報を対応する機器に送信する。
データ処理部1112は、例えば、プロセッサあるいは専用回路などによって実装される。データ処理部1112は、実施の形態1における雑音低減部22および音声認識部23の機能を含む。
具体的には、データ処理部1112は、機器Aから受信された機器IDおよび動作モードに対応する雑音データを、後述する記憶部1113から取得する。そして、データ処理部1112は、取得された雑音データを用いて、機器Aから受信された音声データの雑音低減を行う。さらに、データ処理部1112は、雑音低減の結果に対して音声認識を行う。
また、データ処理部1112は、機器Aから受信された音データに基づく雑音データを、受信された動作モードを対応付けて記憶部1113に格納する。つまり、データ処理部1112は、音データに基づく雑音データを、収音されたときに機器Aにより行われていた処理を示す動作モードに対応付けて記憶部1113に格納する。
音データに基づく雑音データとは、音データから得られるデータである。例えば、音データに基づく雑音データは、音データそのものであってもよい。また例えば、音データに基づく雑音データは、音データから導出される雑音の特徴を示すデータであってもよい。
記憶部1113は、例えば、ハードディスクドライブ、半導体メモリなどである。記憶部1113は、複数の機器101の各々について、複数の動作モードに対応する複数の雑音データを格納している。図9は、実施の形態3における機器、動作モードおよび雑音データの対応関係の一例を示す図である。図9では、例えば、機器Aの動作モードAに対応付けて、雑音データAAが記憶部21に格納されている。
機器制御部1114は、音声認識の結果に基づいて機器を制御する。具体的には、機器制御部1114は、音声認識の結果に基づいて、機器Aの制御内容を決定し、決定された制御内容を示す制御情報を、通信部1111を介して機器Aに送信する。
[音声制御システムの動作]
次に、以上のように構成された音声制御システムの動作について説明する。
まず、機器Aがユーザ99から音声入力を受け付ける場合の音声制御システムの動作について、図10を用いて説明する。図10は、実施の形態3における音声制御システムの音声制御に関するシーケンス図である。
まず、ユーザ99は、操作入力部1011を介して、操作入力を行う(S101)。つまり、機器Aの操作入力部1011は、ユーザ99から、指などを用いた操作入力を受け付け、その操作入力に基づく操作指示情報を制御部1014に通知する。ここでは、ユーザ99は、処理A〜C(注水から脱水まで)を機器Aに行わせるための操作入力を行う。
それから、制御部1014は、操作指示情報に基づいて機器Aの動作モードを決定し、機器Aの制御を行う。図10では、機器Aに処理A〜C(注水から脱水まで)を順に実行させる。
具体的には、制御部1014は、まず、動作モードAを設定し、機器Aに処理A(注水)を開始させ、終了させる(S102、S103)。続いて、制御部1014は、動作モードAを動作モードBに切り替え、機器Aに処理B(洗濯)を開始させ、終了させる(S104、S105)。さらに、制御部1014は、動作モードBを動作モードCに切り替え、機器Aに処理C(脱水)を開始させる(S106)。
ここで、機器Aが処理Cを実行中に、ユーザ99は、音入力部1010を介して、音声入力を行う(S107)。つまり、機器Aの音入力部1010は、処理Cによって雑音が発生しているときに、ユーザ99から、音声入力を受け付けて音声データを生成する。したがって、この音声データには、処理C(脱水)によって発生した雑音の成分が含まれる。
機器Aの通信部1013は、生成された音声データと、機器Aを示す機器ID(機器A)と、音声入力を受け付けたときに機器Aにより行われていた処理を示す動作モード(動作モードC)とをクラウドサーバ111に送信する。
クラウドサーバ111のデータ処理部1112は、機器Aからの機器IDおよび動作モードの組合せに対応する雑音データを記憶部1113から取得する(S108)。ここでは、データ処理部1112は、機器Aおよび動作モードCの組合せに対応する雑音データACを取得する。
続いて、データ処理部1112は、取得した雑音データを用いて、機器Aから受信した音声データの雑音低減を行う(S109)。さらに、データ処理部1112は、雑音低減の結果に対して音声認識を行う(S110)。
クラウドサーバ111の機器制御部1114は、音声認識の結果に基づいて制御内容を決定する(S111)。クラウドサーバ111の通信部1111は、決定された制御内容を示す制御情報を機器Aに送信する。機器Aは、決定された制御内容に従って制御される。つまり、機器制御部1114は、音声認識の結果に基づいて機器Aを制御する。ここでは、機器制御部1114は、音声認識の結果に基づいて処理D(乾燥)の追加を決定し、処理Cの後に処理Dが実行されるように機器Aを制御する。
この後、機器Aの制御部1014は、機器Aに処理Cを終了させる(S112)。制御部1014は、処理Dの追加を示す制御情報に従って、動作モードCを動作モードDに切り替え、機器Aに処理D(乾燥)を開始させ、終了させる(S113、S114)。処理Dの終了後、出力部1012は、すべての処理の完了をユーザ99に通知する。
次に、機器Aの雑音データを収集する場合の音声制御システムの動作について、図11を用いて説明する。図11は、実施の形態3における音声制御システムの雑音データ収集に関するシーケンス図である。なお、図11において、図10と同一または類似の処理については、同一の符号を付し、適宜説明を省略する。
まず、ユーザ99は、操作入力部1011を介して操作入力を行う(S121)。つまり、機器Aの操作入力部1011は、ユーザ99から、指などを用いた操作入力を受け付け、その操作入力に基づく操作指示情報を制御部1014に通知する。ここでは、ユーザ99は、処理A〜D(注水から乾燥まで)の実行を指示するための操作入力と、雑音データの収集を指示するための操作入力とを行う。
機器Aの音入力部1010は、処理Aが実行されている間に音を収音して音データAを生成する。つまり、音入力部1010は、音声入力が行われていないときに音を収音して音データAを生成する。そして、機器Aの通信部1013は、生成された音データAと、機器Aを示す機器ID(機器A)と、音を収音したときに機器Aにより行われていた処理を示す動作モード(動作モードA)とをクラウドサーバ111に送信する。
クラウドサーバ111のデータ処理部1112は、音データAに基づく雑音データAAを、音が収音されたときに機器Aにより行われていた処理Aを示す動作モードAに対応付けて記憶部1113に格納する(S122)。
さらに、機器Aの音入力部1010は、処理Bが実行されている間に音を収音して音データBを生成する。そして、機器Aの通信部1013は、生成された音データBと、機器Aを示す機器ID(機器A)と、音を収音したときに機器Aにより行われていた処理を示す動作モード(動作モードB)とをクラウドサーバ111に送信する。
クラウドサーバ111のデータ処理部1112は、音データBに基づく雑音データABを動作モードBに対応付けて記憶部1113に格納する(S123)。
さらに、機器Aの音入力部1010は、処理Cが実行されている間に音を収音して音データCを生成する。そして、機器Aの通信部1013は、生成された音データCと、機器Aを示す機器ID(機器A)と、音を収音したときに機器Aにより行われていた処理を示す動作モード(動作モードC)とをクラウドサーバ111に送信する。
クラウドサーバ111のデータ処理部1112は、音データCに基づく雑音データACを動作モードCに対応付けて記憶部1113に格納する(S124)。
さらに、機器Aの音入力部1010は、処理Dが実行されている間に音を収音して音データDを生成する。そして、機器Aの通信部1013は、生成された音データDと、機器Aを示す機器ID(機器A)と、音を収音したときに機器Aにより行われていた処理を示す動作モード(動作モードD)とをクラウドサーバ111に送信する。
クラウドサーバ111のデータ処理部1112は、音データDに基づく雑音データADを動作モードDに対応付けて記憶部1113に格納する(S125)。
[効果]
以上のように、本実施の形態における音声制御システムによれば、音声認識の結果に基づいて機器を制御することができる。つまり、音声認識方法を音声制御システムに応用することができる。
また、本実施の形態における音声制御システムによれば、音声入力が行われていないときに音を収音して生成された音データに基づいて、動作モードに対応する雑音データを収集することができる。したがって、機器の設置状況(例えば設置場所、機器の姿勢など)に対応する雑音データを容易に収集することができる。このように収集された雑音データを用いることにより、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。
(実施の形態4)
次に、実施の形態4について、図12〜図14を参照しながら具体的に説明する。本実施の形態では、音声入力を受け付けた機器が発生する雑音に加えて、当該機器の周辺に位置する機器が発生する雑音にも基づいて雑音低減を行う点が、実施の形態3と異なる。以下に、本実施の形態における音声制御システムについて、実施の形態3における音声制御システムと異なる点を中心に説明する。
[音声制御システムの機能構成]
図12は、実施の形態4における音声制御システムの機能構成を示すブロック図である。図12において、図8と実質的に同一の構成要素については同じ符号を付し、適宜説明を省略する。
音声制御システムは、複数の機器101と、クラウドサーバ211とを備える。クラウドサーバ211は、通信部1111と、データ処理部2112と、記憶部2113と、機器制御部1114とを備える。
複数の機器101は、少なくとも機器A〜Dを含む。ここでは、機器Aは、第1機器の一例である。また、機器Bは、第2機器の一例である。また、機器B〜Dは、複数の第2機器の一例である。
データ処理部2112は、例えば、プロセッサあるいは専用回路などによって実装される。データ処理部2112は、実施の形態3におけるデータ処理部1112と同様に、機器Aから受信された機器IDおよび動作モードの組合せに対応する雑音データを記憶部2113から取得する。つまり、データ処理部2112は、音声入力が受け付けられたときに機器Aに設定されていた動作モードに対応する雑音データを記憶部2113から取得する。
さらに、本実施の形態では、データ処理部2112は、音声入力が受け付けられたときに、機器Bにより行われていた処理を示す動作モードに対応する雑音データを記憶部2113から取得する。ここで、機器Bは、機器Aの周辺に位置する。つまり、機器Bは、当該機器Bから発生した雑音が機器Aに到達する範囲に位置する。
具体的には、データ処理部2112は、機器Aの位置を示す位置情報を取得する。そして、データ処理部2112は、取得された機器Aの位置情報と、複数の機器101の各々の位置を示す位置情報とを比較することにより、複数の機器101の中から機器Aの周辺に位置する機器Bを選択する。データ処理部2112は、音声入力が受け付けられたときに、選択された機器Bにより行われていた処理を示す動作モードに対応する雑音データを記憶部2113から取得する。
さらに、データ処理部2112は、記憶部2113から取得された、機器Aの雑音データおよび機器Bの雑音データを用いて、機器Aから受信された音声データの雑音低減を行う。そして、データ処理部2112は、実施の形態3のデータ処理部1112と同様に、雑音低減の結果に対して音声認識を行う。
記憶部2113は、例えば、ハードディスクドライブ、半導体メモリなどによって実装される。記憶部2113は、実施の形態3の記憶部1113と同様に、複数の機器101の各々について、複数の動作モードに対応する複数の雑音データを格納している。さらに、本実施の形態では、記憶部2113は、複数の機器101の各々の位置を示す位置情報を格納している。
図13は、実施の形態4における機器、場所、動作モードおよび雑音データの対応関係の一例を示す図である。図13では、図9に比べて、機器の場所(位置情報)が追加されている。本実施の形態では、データ処理部2112は、この図13に示す対応関係を参照して、機器Aの位置情報と、複数の機器101の各々の位置を示す位置情報とを比較する。
[音声制御システムの動作]
次に、以上のように構成された音声制御システムの動作について説明する。ここでは、機器Aが電子レンジである場合を例として説明する。図14は、実施の形態4における音声制御システムの音声制御に関するシーケンス図である。
ユーザ99は、操作入力部1011を介して操作入力を行う(S201)。つまり、機器Aの操作入力部1011は、ユーザ99から、指などを用いた操作入力を受け付け、その操作入力に基づく操作指示情報を制御部1014に通知する。ここでは、ユーザ99は、機器A(電子レンジ)に処理C(グリル)を指示するための操作入力を行う。
機器Aの制御部1014は、操作指示情報に基づいて機器Aの制御を行う。図14では、制御部1014は、機器Aに処理Cを開始させる(S202)。
一方、機器B(食洗機)は、処理A(洗浄)を開始する(S203)。このとき、機器Bを示す機器ID(機器B)と、現在の処理(処理A)を示す動作モード(動作モードA)とがクラウドサーバ211に送信される。
ここで、機器Aが処理Cを実行中、かつ、機器Bが処理Aを実行中に、ユーザ99は、機器Aの音入力部1010を介して音声入力を行う(S204)。つまり、機器Aの音入力部1010は、機器Aの処理Cおよび機器Bの処理Aによって雑音が発生しているときに、ユーザ99から、音声入力を受け付けて音声データを生成する。したがって、この音声データには、機器Aの処理Cによる雑音成分および機器Bの処理Aによる雑音成分が含まれる。
機器Aの通信部1013は、生成された音声データと、機器Aを示す機器ID(機器A)と、音声入力を受け付けたときに機器Aにより行われていた処理を示す動作モード(動作モードC)とをクラウドサーバ111に送信する。
クラウドサーバ211のデータ処理部2112は、複数の機器101の中から機器Aの周辺に位置する機器Bを選択する(S205)。具体的には、データ処理部2112は、機器Aから受信した機器IDに対応する位置情報を記憶部2113から取得する。そして、データ処理部2112は、記憶部2113に格納された対応関係を参照することにより、取得された位置情報(キッチン)に対応する機器B(食洗機)を選択する。
次に、クラウドサーバ211のデータ処理部2112は、機器Aからの機器IDおよび動作モードの組合せに対応する雑音データと、選択された機器および動作モードの組合せに対応する雑音データとを記憶部2113から取得する(S206)。ここでは、データ処理部2112は、機器Aおよび動作モードCの組合せに対応する雑音データACと、機器Bおよび動作モードAの組合せに対応する雑音データBAとを取得する。
続いて、データ処理部2112は、取得した雑音データ(雑音データACおよび雑音データBA)を用いて、機器Aから受信した音声データの雑音低減を行う(S207)。さらに、データ処理部2112は、雑音低減の結果に対して音声認識を行う(S208)。
クラウドサーバ211の機器制御部1114は、音声認識の結果に基づいて制御内容を決定する(S209)。ここでは、機器制御部1114は、音声認識の結果に基づいて処理Cの時間の延長を決定する。
クラウドサーバ211の通信部1111は、決定された制御内容を示す制御情報を機器Aに送信する。この制御情報に基づいて機器Aが制御される。つまり、機器制御部1114は、音声認識の結果に基づいて、処理Cの時間が延長されるように機器Aを制御する。
機器Aの制御部1014は、処理Cの時間の延長を示す制御情報に従って、処理Cの時間を延長した後に処理Cを終了させる(S210)。処理Cの終了後、出力部1012は、処理Cの完了をユーザ99に通知する。
一方、機器Bでは、処理Aが終了されたときに、機器Bを示す機器ID(機器B)と、現在の動作モード(動作モードなし)とがクラウドサーバ211に送信される(S211)。
[効果]
以上のように、本実施の形態における音声制御システムによれば、機器Aにより行われていた処理に対応する雑音データに加えて、機器Aの周辺に位置する機器Bにより行われていた処理に対応する雑音データを用いて、雑音低減を行うことができる。したがって、機器Bから発生する雑音が処理に応じて変化する場合にも、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。
また、本実施の形態における音声制御システムによれば、機器Aの位置情報と複数の機器の各々の位置情報とを比較することにより、複数の機器の中から機器Aの周辺に位置する機器Bを選択することができる。つまり、複数の機器の中から、音声データに雑音成分を与える機器Bを適切に選択することができる。したがって、効果的に雑音低減を行うことができ、音声認識率を向上させることができる。
(実施の形態5)
次に、実施の形態5について、図15Aから図19を参照しながら具体的に説明する。本実施の形態では、音声制御を含むサービスを提供するサービス提供システムについて説明する。なお、図15A〜図19において、上記実施の形態3における音声制御システムと同一および類似の機能を有する構成要素については、同一の符号を付し、適宜説明を省略する。
[提供するサービスの全体像]
図15Aには、実施の形態5におけるサービス提供システムの全体像が示されている。
グループ100は、例えば企業、団体、家庭等であり、その規模を問わない。グループ100には、複数の機器101である機器A、機器Bおよびホームゲートウェイ102が存在する。複数の機器101には、インターネットと接続可能な機器(例えば、スマートフォン、PC、TV等)もあれば、それ自身ではインターネットと接続不可能な機器(例えば、照明、洗濯機、冷蔵庫等)も存在する。それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウェイ102を介してインターネットと接続可能となる機器が存在してもよい。またグループ100には複数の機器101を使用するユーザ99Aが存在する。
データセンタ運営会社110には、クラウドサーバ111が存在する。クラウドサーバ111とはインターネットを介して様々な機器と連携する仮想化サーバである。主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社110は、データ管理やクラウドサーバ111の管理、それらを行うデータセンタの運営等を行っている。データセンタ運営会社110が行っている役務については詳細を後述する。ここで、データセンタ運営会社110は、データ管理やクラウドサーバ111の運営等のみを行っている会社に限らない。例えば複数の機器101のうちの1つの機器を開発・製造している機器メーカが、併せてデータ管理やクラウドサーバ111の管理等を行っている場合は、機器メーカがデータセンタ運営会社110に該当する(図15B)。また、データセンタ運営会社110は1つの会社に限らない。例えば機器メーカおよび他の管理会社が共同もしくは分担してデータ管理やクラウドサーバ111の運営を行っている場合は、両者もしくはいずれか一方がデータセンタ運営会社110に該当するものとする(図15C)。
サービスプロバイダ120は、サーバ121を保有している。ここで言うサーバ121とは、その規模は問わず例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダがサーバ121を保有していない場合もある。
なお、上記サービスにおいてホームゲートウェイ102は必須ではない。例えば、クラウドサーバ111が全てのデータ管理を行っている場合等は、ホームゲートウェイ102は不要となる。また、家庭内のあらゆる機器がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器は存在しない場合もある。
次に、上記サービスにおける情報の流れを説明する。
まず、グループ100の機器Aまたは機器Bは、各ログ情報をデータセンタ運営会社110のクラウドサーバ111に送信する。クラウドサーバ111は機器Aまたは機器Bのログ情報を集積する(図15Aの(a))。ここで、ログ情報とは複数の機器101の、例えば運転状況や動作日時、動作モード、位置等を示す情報である。例えば、テレビの視聴履歴やレコーダーの録画予約情報、洗濯機の運転日時・洗濯物の量、冷蔵庫の開閉日時・開閉回数などであるが、これらのものに限らずあらゆる機器から取得が可能なすべての情報をいう。ログ情報は、インターネットを介して複数の機器101自体から直接クラウドサーバ111に提供される場合もある。また複数の機器101から一旦ホームゲートウェイ102にログ情報が集積され、ホームゲートウェイ102からクラウドサーバ111に提供されてもよい。
次に、データセンタ運営会社110のクラウドサーバ111は、集積したログ情報を一定の単位でサービスプロバイダ120に提供する。ここで、データセンタ運営会社が集積した情報を整理してサービスプロバイダ120に提供することのできる単位でもいいし、サービスプロバイダ120が要求した単位でもいい。一定の単位と記載したが一定でなくてもよく、状況に応じて提供する情報量が変化する場合もある。前記ログ情報は、必要に応じてサービスプロバイダ120が保有するサーバ121に保存される(図15Aの(b))。そして、サービスプロバイダ120は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。提供するユーザは、複数の機器101を使用するユーザ99Aでもよいし、外部のユーザ99Bでもよい。ユーザへのサービス提供方法は、例えば、サービスプロバイダから直接ユーザへ提供されてもよい(図15Aの(b)、(e))。また、ユーザへのサービス提供方法は、例えば、データセンタ運営会社110のクラウドサーバ111を再度経由して、ユーザに提供されてもよい(図15Aの(c)、(d))。また、データセンタ運営会社110のクラウドサーバ111がログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ120に提供してもよい。
なお、ユーザ99Aとユーザ99Bとは、別でも同一でもよい。
上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現される類型はこれに限られるものでない。
[サービスの類型1:自社データセンタ型]
図16は、サービスの類型1(自社データセンタ型)を示す。本類型は、サービスプロバイダ120がグループ100から情報を取得し、ユーザに対してサービスを提供する類型である。本類型では、サービスプロバイダ120が、データセンタ運営会社の機能を有している。即ち、サービスプロバイダが、ビッグデータの管理をするクラウドサーバ111を保有している。従って、データセンタ運営会社は存在しない。
本類型では、サービスプロバイダ120は、データセンタ903(クラウドサーバ111)を運営、管理している。また、サービスプロバイダ120は、OS902およびアプリケーション901を管理する。サービスプロバイダ120は、サービスプロバイダ120が管理するOS902およびアプリケーション901を用いてサービス904の提供を行う。
[サービスの類型2:IaaS利用型]
図17は、サービスの類型2(IaaS利用型)を示す。ここでIaaSとはインフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築および稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社がデータセンタ903(クラウドサーバ111)を運営、管理している。また、サービスプロバイダ120は、OS902およびアプリケーション901を管理する。サービスプロバイダ120は、サービスプロバイダ120が管理するOS902およびアプリケーション901を用いてサービス904の提供を行う。
[サービスの類型3:PaaS利用型]
図18は、サービスの類型3(PaaS利用型)を示す。ここでPaaSとはプラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築および稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社110は、OS902を管理し、データセンタ903(クラウドサーバ111)を運営、管理している。また、サービスプロバイダ120は、アプリケーション901を管理する。サービスプロバイダ120は、データセンタ運営会社が管理するOS902およびサービスプロバイダ120が管理するアプリケーション901を用いてサービス904の提供を行う。
[サービスの類型4:SaaS利用型]
図19は、サービスの類型4(SaaS利用型)を示す。ここでSaaSとはソフトウェア・アズ・ア・サービスの略である。例えばデータセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社・個人(利用者)がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社110は、アプリケーション901を管理し、OS902を管理し、データセンタ903(クラウドサーバ111)を運営、管理している。また、サービスプロバイダ120は、データセンタ運営会社110が管理するOS902およびアプリケーション901を用いてサービス904の提供を行う。
以上いずれの類型においても、サービスプロバイダ120がサービス提供行為を行ったものとする。また例えば、サービスプロバイダもしくはデータセンタ運営会社は、OS、アプリケーションもしくはビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。
(他の実施の形態)
以上、1つまたは複数の態様に係る音声認識システムおよび音声制御システムについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、1つまたは複数の態様の範囲内に含まれてもよい。
例えば、実施の形態2と実施の形態4とが組合せられてもよい。具体的には、実施の形態4において、機器Aの動作モードに対応する雑音データが雑音低減に用いられなくてもよい。つまり、機器Aの周辺に位置する機器Bの動作モードに対応する雑音データのみが雑音低減に用いられてもよい。
なお、上記各実施の形態において、音声認識装置またはクラウドサーバが雑音低減および音声認識を行っていたが、これに限定されない。例えば、音声認識装置またはクラウドサーバの一部の構成要素は、音声入力装置または機器Aに含まれてもよい。例えば、実施の形態1において、音声入力装置10は、記憶部21、雑音低減部22および音声認識部23を備えてもよい。つまり、音声入力装置10に音声認識装置20が含まれてもよい。この場合、音声データおよび動作モードの送信(図4のS12)および受信(図4のS13)は実行されなくてもよい。また例えば、実施の形態1において、音声入力装置10は、記憶部21および雑音低減部22を備え、音声データおよび動作モードの代わりに、雑音低減部22による雑音低減の結果を、音声認識装置20に送信してもよい。
なお、上記実施の形態1において、動作モードは、音声データと一緒に送信されていたが、これに限定されない。動作モードは、音声データとは異なるタイミングに送信されてもよい。例えば、音声入力装置10は、処理を変更するときに動作モードを音声認識装置20に送信してもよい。つまり、音声認識装置20は、音声入力の有無に関わらず、音声入力装置10における現在の動作モードを取得してもよい。
なお、上記実施の形態2の図7において、機器60による動作モードの送信(S21)は、音声入力装置40による音声データの送信(S23)の後に行われてもよい。つまり、動作モードの送信(S21)および受信(S22)は、雑音データの取得(S14)の前に行われれば、どのようなタイミングで行われてもよい。
また、上記実施の形態2の図7において、動作モードは、機器60から音声認識装置50に送信されていたが、音声入力装置40から音声データと一緒に送信されてもよい。この場合、音声入力装置40は、機器60から動作モードを受信し、受信した動作モードを音声データとともに音声認識装置50に送信すればよい。また、図7において、音声データは、音声入力装置40から音声認識装置50に送信されていたが、機器60から動作モードと一緒に送信されてもよい。この場合、機器60は、音声入力装置40から音声データを受信し、受信した音声データを動作モードとともに送信すればよい。
なお、上記実施の形態3において、機器Aは、ユーザから、雑音データの収集を指示するための操作入力を受け付けていたが、これに限定されない。例えば、機器Aは、ユーザからの指示に関わらず、雑音データの収集のための処理を行うか否かを自動的に決定してもよい。
具体的には、以下のように雑音データの収集のための処理を行うか否かが決定されてもよい。
例えば、機器Aは、雑音データのための音データをクラウドサーバ111に既に送信したか否かを判定し、音データがまだ送信されていない場合に、雑音データの収集のための処理を行うと決定してもよい。この場合、機器Aは、雑音データのための音データをクラウドサーバ111に既に送信したか否かを示す情報を動作モードごとに保持してもよい。
また例えば、機器Aは、クラウドサーバ111からの指示に基づいて、雑音データの収集のための処理を行うか否かを決定してもよい。具体的には、機器Aは、まず、処理を開始する際に、当該処理を示す動作モードをクラウドサーバ111に送信する。続いて、クラウドサーバ111は、機器Aから受信した動作モードに対応する雑音データが記憶部1113に格納されているか否かを判定する。ここで、雑音データが記憶部1113に格納されていない場合、クラウドサーバ111は、雑音データの収集のための処理の実行を機器Aに指示する。
なお、上記実施の形態3および4において、複数の機器101の各々が音入力部を備えていたが、これに限定されない。つまり、複数の機器101のうちの少なくとも1つが音入力部を備えればよい。この場合、音入力部を備えない機器が発生する雑音は、音入力部を備える機器によって収集されればよい。
なお、上記実施の形態4において、機器の位置情報は、クラウドサーバの記憶部に格納されていたが、これに限定されない。例えば、機器Aが移動する場合、クラウドサーバは、音声データとともに機器Aの位置情報を機器Aから取得してもよい。また、機器Bが移動する場合、クラウドサーバは、機器Aから音声データを受信した後に、機器Bから機器Bの位置情報を取得してもよい。
なお、上記実施の形態4において、機器Aの周辺に位置する機器Bの雑音データが雑音低減に用いられたが、1つの機器に限定されない。つまり、2以上の機器が機器Aの周辺に位置する場合、当該2以上の機器の雑音データが雑音低減に用いられてもよい。
なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の音声認識方法などを実現するソフトウェアは、次のようなプログラムである。
すなわち、このプログラムは、コンピュータに、ユーザから音声入力を受け付けて音声データを生成するステップと、互いに異なる雑音の発生を伴う複数の第1処理を示す複数の第1動作モードに対応する複数の第1雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第1機器により行われていた第1処理を示す第1動作モードに対応する第1雑音データを取得するステップと、取得された前記第1雑音データを用いて、前記音声データの雑音低減を行うステップと、前記雑音低減の結果に対して音声認識を行うステップと、を実行させる。
本発明の一態様に係る音声認識システムおよび音声制御システムは、機器の動作モードに応じた雑音低減を行うシステムとして有用である。
1、2 音声認識システム
10、40 音声入力装置
11、1010 音入力部
12、24、42、54、61、1013、1111 通信部
20、50 音声認識装置
21、1113、2113 記憶部
22 雑音低減部
23 音声認識部
60 機器
99、99A、99B ユーザ
100 グループ
101 複数の機器
102 ホームゲートウェイ
110 データセンタ運営会社
111、211 クラウドサーバ
120 サービスプロバイダ
121 サーバ
901 アプリケーション
902 OS
903 データセンタ
904 サービス
1011 操作入力部
1012 出力部
1014 制御部
1112、2112 データ処理部
1114 機器制御部

Claims (10)

  1. ユーザから音声入力を受け付けて音声データを生成するステップと、
    互いに異なる雑音の発生を伴う複数の第1処理を示す複数の第1動作モードに対応する複数の第1雑音データを格納している記憶装置から、前記音声入力が受け付けられたときに第1機器により行われていた第1処理を示す第1動作モードに対応する第1雑音データを取得するステップと、
    取得された前記第1雑音データを用いて、前記音声データの雑音低減を行うステップと、
    前記雑音低減の結果に対して音声認識を行うステップと、を含む
    音声認識方法。
  2. 前記音声入力は、前記第1機器によって受け付けられる、
    請求項1に記載の音声認識方法。
  3. 前記記憶装置は、さらに、互いに異なる雑音の発生を伴う複数の第2処理を示す複数の第2動作モードに対応する複数の第2雑音データを格納しており、
    前記音声認識方法は、さらに、
    前記音声入力が受け付けられたときに前記第1機器の周辺に位置する第2機器により行われていた第2処理を示す第2動作モードに対応する第2雑音データを前記記憶装置から取得するステップを含み、
    前記雑音低減では、取得された前記第1雑音データ、および、取得された前記第2雑音データが用いられる、
    請求項2に記載の音声認識方法。
  4. 前記音声認識方法は、さらに、
    前記第1機器の位置を示す第1位置情報を取得するステップと、
    前記第1位置情報と、前記第2機器を含む複数の第2機器の各々の位置を示す第2位置情報とを比較することにより、前記複数の第2機器の中から前記第1機器の周辺に位置する前記第2機器を選択するステップと、を含む
    請求項3に記載の音声認識方法。
  5. 前記音声入力は、第2機器によって受け付けられ、
    前記第1機器は、前記第2機器の周辺に位置する、
    請求項1に記載の音声認識方法。
  6. 前記音声認識方法は、さらに、
    前記音声入力が行われていないときに音を収音して音データを生成するステップと、
    前記音データに基づく第1雑音データを、前記音が収音されたときに前記第1機器により行われていた第1処理を示す第1動作モードに対応付けて前記記憶装置に格納する格納ステップと、を含む
    請求項1〜5のいずれか1項に記載の音声認識方法。
  7. 前記音声認識方法は、さらに、
    前記音声認識の結果に基づいて前記第1機器を制御するステップを含む
    請求項1〜6のいずれか1項に記載の音声認識方法。
  8. 請求項1に記載の音声認識方法をコンピュータに実行させるためのプログラム。
  9. 音声入力装置と音声認識装置とを備える音声認識システムであって、
    前記音声入力装置は、
    ユーザから音声入力を受け付けて音声データを生成する音入力部と、
    前記音声データと、前記音声入力が受け付けられたときに当該音声入力装置により行われていた第1処理を示す第1動作モードとを前記音声認識装置に送信する通信部とを備え、
    前記音声認識装置は、
    前記音声入力装置から、前記音声データと前記第1動作モードとを受信する通信部と、
    互いに異なる雑音の発生を伴う複数の第1処理を示す複数の第1動作モードに対応する複数の第1雑音データを格納している記憶部と、
    受信された前記第1動作モードに対応する第1雑音データを前記記憶部から取得し、取得された前記第1雑音データを用いて、受信された前記音声データの雑音低減を行う雑音低減部と、
    前記雑音低減の結果に対して音声認識を行う音声認識部と、を備える
    音声認識システム。
  10. 請求項9に記載の音声認識システムに含まれる音声入力装置。
JP2014248331A 2014-12-08 2014-12-08 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置 Pending JP2016109933A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014248331A JP2016109933A (ja) 2014-12-08 2014-12-08 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014248331A JP2016109933A (ja) 2014-12-08 2014-12-08 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置

Publications (1)

Publication Number Publication Date
JP2016109933A true JP2016109933A (ja) 2016-06-20

Family

ID=56124211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014248331A Pending JP2016109933A (ja) 2014-12-08 2014-12-08 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置

Country Status (1)

Country Link
JP (1) JP2016109933A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106895552A (zh) * 2017-02-14 2017-06-27 珠海格力电器股份有限公司 空调的控制方法、装置及系统
JP2020064197A (ja) * 2018-10-18 2020-04-23 コニカミノルタ株式会社 画像形成装置、音声認識装置、及びプログラム
JP2020080052A (ja) * 2018-11-13 2020-05-28 コニカミノルタ株式会社 システム、画像形成装置、方法およびプログラム
JP2022527527A (ja) * 2019-09-23 2022-06-02 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106895552A (zh) * 2017-02-14 2017-06-27 珠海格力电器股份有限公司 空调的控制方法、装置及系统
JP2020064197A (ja) * 2018-10-18 2020-04-23 コニカミノルタ株式会社 画像形成装置、音声認識装置、及びプログラム
US20200128142A1 (en) * 2018-10-18 2020-04-23 Konica Minolta, Inc. Image forming apparatus, voice recognizing device, and non-transitory recording medium storing computer readable program
CN111081232A (zh) * 2018-10-18 2020-04-28 柯尼卡美能达株式会社 图像形成装置、语音识别装置以及计算机可读记录介质
JP2020080052A (ja) * 2018-11-13 2020-05-28 コニカミノルタ株式会社 システム、画像形成装置、方法およびプログラム
JP7206827B2 (ja) 2018-11-13 2023-01-18 コニカミノルタ株式会社 システム、画像形成装置、方法およびプログラム
JP2022527527A (ja) * 2019-09-23 2022-06-02 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム
JP7301154B2 (ja) 2019-09-23 2023-06-30 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声データの処理方法並びにその、装置、電子機器及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
US11942085B1 (en) Naming devices via voice commands
JP6567737B2 (ja) 音声対話制御方法
US10127906B1 (en) Naming devices via voice commands
US10680906B2 (en) Information management method, control system, and method for controlling display device
KR101958902B1 (ko) 전자기기들의 그룹 제어 방법 및 그를 위한 전자기기 관리 시스템
EP3588966A2 (en) Display apparatus and method of controlling a display apparatus in a voice recognition system
JP2016109933A (ja) 音声認識方法ならびに音声認識システムおよびそれに含まれる音声入力装置
JP2017506772A (ja) インテリジェントデバイスのシーンモードのカスタマイズ方法及び装置
JPWO2014049948A1 (ja) 情報通知装置および情報表示方法
CN110235087A (zh) 一种实现语音控制的方法和终端
WO2015032249A1 (zh) 多媒体播放设备网络初始化的方法、系统、设备与终端
WO2016117737A1 (ko) 클라우드 기반의 사물인터넷을 이용한 홈 디바이스 정보 수집처리 시스템 및 그 수집처리 방법
WO2017049475A1 (zh) 一种信息处理方法以及智能手环
JP2014186184A (ja) 音声入力選択装置及び音声入力選択方法
WO2015011861A1 (ja) 情報管理方法
JP2023073359A (ja) 情報出力方法、情報出力装置及びプログラム
US20160124403A1 (en) Method and server of customizing scenario mode for smart devices
CN110782884A (zh) 远场拾音噪声处理方法、装置、设备及存储介质
US20110154285A1 (en) Integrated management apparatus and method for embedded software development tools
US10083603B2 (en) Electronic apparatus and method for automatically matching remote control signal
EP3972263A1 (en) System and method to control a media client using a message service
JP2019068320A (ja) 家電システム
CN109859756B (zh) 设备控制方法、系统、装置、边缘计算设备和存储介质
US20160077822A1 (en) Electronic device and information updating control module thereof
JP6683031B2 (ja) 制御プログラム、制御方法および端末装置