JP6567727B2

JP6567727B2 - 受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム

Info

Publication number: JP6567727B2
Application number: JP2018091853A
Authority: JP
Inventors: ミョンスシン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2017-05-12
Filing date: 2018-05-11
Publication date: 2019-08-28
Anticipated expiration: 2038-05-11
Also published as: US10872617B2; KR20180124564A; JP2018194832A; US20200075036A1; WO2018208026A1

Description

以下の説明は、受信した音声入力の入力音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法およびシステム、ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムとその記録媒体に関する。

ホームネットワークサービスの人工知能スピーカのように音声を基盤として動作するインタフェースは、ユーザの音声入力を受信した後、音声入力にしたがって返答音声を合成して提供したり、音声入力に対応するコンテンツのオーディオを出力したりする。例えば、特許文献１は、ホームメディアデバイスおよびこれを利用したホームネットワークシステムと方法に関する技術であって、ホームネットワークサービスにおいて移動通信網の他にＷｉ-Ｆｉのような第２通信網を利用してホームネットワークサービスを提供することが可能であり、ホーム内の複数のマルチメディア機器を、ユーザのボタン操作なく音声命令に基づいてマルチコントロールすることができる技術について開示している。

しかし、このような従来技術では、予め設定されている音量で音が出力されることにより、予め設定されている音量が大きすぎる場合は、ユーザまたはユーザの周辺にいる人が大きな音に驚いてしまうという状況が発生しかねない。逆に、予め設定されている音量が小さすぎる場合には、ユーザが返答音声やコンテンツのオーディオを正確に聞き取ることができないとう状況も発生し得る。さらに、従来技術では、ユーザが現在設定されている音量で出力される音を聞いた後、出力された音の音量を基準としてしか音量を調節することができないという問題もある。

韓国公開特許第１０−２０１１−０１３９７９７号

ユーザから受信した音声入力の入力音量にしたがって出力される音の出力音量を調節することにより、ユーザは、ユーザ命令と同時に出力される音の出力音量を調節することができる、ユーザ命令処理方法およびシステム、ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。

ユーザ命令処理方法において、ユーザから音声入力を受信する段階、前記受信した音声入力の入力音量を測定する段階、および前記受信した音声入力に対応して出力するための音の出力音量を、前記測定された入力音量にしたがって調節する段階を含むことを特徴とする、ユーザ命令処理方法を提供する。

前記ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体を提供する。

前記ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムを提供する。

ユーザ命令処理システムであって、コンピュータで読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、ユーザから音声入力を受信し、前記受信した音声入力の入力音量を測定し、前記受信した音声入力に対応して出力するための音の出力音量を、前記測定された入力音量にしたがって調節することを特徴とする、ユーザ命令処理システムを提供する。

ユーザから受信した音声入力の入力音量にしたがって出力される音の出力音量を調節することにより、ユーザは、ユーザ命令と同時に出力される音の出力音量を調節することができる。

本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の他の例を示した図である。本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。本発明の一実施形態における、入力音量にしたがって出力音量を調節する例を示した図である。本発明の一実施形態における、入力音量にしたがって出力音量を調節する例を示した図である。本発明の一実施形態における、電子機器が実行することのできるユーザ命令処理方法の例を示したフローチャートである。本発明の一実施形態における、予め設定されたキーワードの入力音量にしたがって音の出力音量を調節する例を示した図である。本発明の一実施形態における、予め設定されたキーワードの入力音量にしたがって音の出力音量を調節する例を示した図である。本発明の一実施形態における、出力される音に対応する視覚情報を追加で提供するユーザ命令処理方法の例を示したフローチャートである。本発明の一実施形態における、キーワードの発話時間に基づいて出力される音の出力音量を調節する例を示した図である。本発明の一実施形態における、周辺騒音の騒音音量に基づいて出力される音の出力音量を調節するユーザ命令処理方法の例を示したフローチャートである。

以下、実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態に係るユーザ命令処理システムは、音声を基盤として動作するインタフェースを提供する電子機器によって実現されてよい。ユーザ命令は、ユーザから受信される音声入力を少なくとも含んでよく、電子機器は、このような音声入力を直接に、または別のインタフェースコネクトを介して連結する外部プラットフォームで認識および分析してユーザ命令を処理してよい。このとき、電子機器は、出力するための音、一例として、入力音声に対する返答音声および／または入力音声の応答として提供されるコンテンツのオーディオ（以下、「オーディオコンテンツ」）の出力音量を、入力音声の入力音量にしたがって調節してよい。本発明の実施形態に係るユーザ命令処理方法は、上述した電子機器で実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動するコンピュータプログラムの制御にしたがって本発明の一実施形態に係るユーザ命令処理方法を実行してよい。上述したコンピュータプログラムは、コンピュータによって実現される電子機器と結合してユーザ命令処理方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納されてよい。

図１は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図１の実施形態では、スマートホーム（ｓｍａｒｔｈｏｍｅ）やホームネットワークサービスのように宅内の機器を連結して制御する技術において、音声を基盤として動作するインタフェースを提供する電子機器１００がユーザ１１０の発話によって受信した音声入力「電気を消して」を認識および分析し、宅内で電子機器１００と内部ネットワークを介して連係する宅内照明機器１２０のライト電源を制御する例を示している。

例えば、宅内の機器は、上述した宅内照明機器１２０の他にも、ＴＶ、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、周辺機器、エアコン、冷蔵庫、ロボット掃除機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器などのように、オンライン上で連結して制御可能な多様な機器を含んでよい。また、内部ネットワークは、イーサネット（Ｅｔｈｅｒｎｅｔ）（登録商標）、ＨｏｍｅＰＮＡ、ＩＥＥＥ１３９４のような有線ネットワーク技術、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ）（登録商標）、ＵＷＢ（ｕｌｔｒａＷｉｄｅＢａｎｄ）、ジグビー（ＺｉｇＢｅｅ）（登録商標）、Ｗｉｒｅｌｅｓｓ１３９４、ＨｏｍｅＲＦのような無線ネットワーク技術などが活用されてよい。

電子機器１００は、宅内の機器のうちの１つであってよい。例えば、電子機器１００は、宅内に備えられた人工知能スピーカやロボット清掃機などのような機器のうちの１つであってよい。また、電子機器１００は、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、携帯電話、ノート型パンコン、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットＰＣなどのようなユーザ１１０のモバイル機器であってもよい。このように、電子機器１００は、ユーザ１１０の音声入力を受信し、宅内の機器を制御するために宅内の機器と連結可能な機能を備えた機器であれば、特に制限されることはない。

図２は、本発明の一実施形態における、音声基盤のインタフェースを活用したサービス環境の例を示した図である。図２は、音声を基盤として動作するインタフェースを提供する電子機器１００が、ユーザ１１０の発話によって受信した音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ２１０から今日の天気に関する情報を取得し、取得した情報を音声で出力する例を示している。

例えば、外部ネットワークは、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。

図２の実施形態でも、電子機器１００は、宅内の機器のうちの１つであっても、ユーザ１１０のモバイル機器のうちの１つであってもよく、ユーザ１１０の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ２１０に接続して外部サーバ２１０が提供するサービスやコンテンツをユーザ１１０に提供するための機能を備えた機器であれば、特別に制限されることはない。

このように、本発明の実施形態に係る電子機器１００は、音声基盤のインタフェースにより、ユーザ１１０の発話によって受信される音声入力を少なくとも含むユーザ命令を処理することのできる機器であれば、特に制限されることはない。例えば、電子機器１００は、ユーザの音声入力を直接に認識および分析し、音声入力に適した動作を実行することによってユーザ命令を処理してもよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器１００と連係する外部のプラットフォームで実行してもよい。

図３は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図３は、電子機器３１０、クラウド人工知能プラットフォーム３２０、およびコンテンツ・サービス３３０を示している。

一例として、電子機器３１０は、宅内に備えられた機器を意味してよく、少なくとも上述したような電子機器１００を含んでよい。このような電子機器３１０や電子機器３１０にインストールおよび駆動されるアプリケーション（以下、アプリ）は、インタフェースコネクト３４０を介してクラウド人工知能プラットフォーム３２０と連係してよい。ここで、インタフェースコネクト３４０は、電子機器３１０や電子機器３１０にインストールおよび駆動されるアプリの開発のためのＳＤＫ（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）および／または開発文書を開発者に提供してよい。また、インタフェースコネクト３４０は、電子機器３１０や電子機器３１０にインストールおよび駆動されるアプリが、クラウド人工知能プラットフォーム３２０が提供する機能を活用することのできるＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍＩｎｔｅｒｆａｃｅ）を提供してよい。具体的な例として、開発者が、インタフェースコネクト３４０が提供するＳＤＫ（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ）および／または開発文書を利用して開発した機器やアプリは、インタフェースコネクト３４０が提供するＡＰＩを利用してクラウド人工知能プラットフォーム３２０が提供する機能を活用することが可能になる。

ここで、クラウド人工知能プラットフォーム３２０は、音声基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム３２０は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール３２１、受信した映像や動画を分析して処理するためのビジョン処理モジュール３２２、受信した音声にしたがって適した音声を出力するために適切な対話を決定するための対話処理モジュール３２３、受信した音声に適した機能を推薦するための推薦モジュール３２４、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳（ＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：ＮＭＴ）３２５などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。

例えば、図１および図２の実施形態において、電子機器１００が、ユーザ１１０の音声入力を、インタフェースコネクト３４０から提供されるＡＰＩを利用してクラウド人工知能プラットフォーム３２０に送信したとする。この場合、クラウド人工知能プラットフォーム３２０は、受信した音声入力を、上述したモジュール３２１〜３２５を活用して認識および分析してよく、受信した音声入力にしたがって適切な返答音声を合成して提供したり、適切な動作を推薦したりしてよい。

また、拡張キット３５０は、第３者コンテンツ開発者または会社が、クラウド人工知能プラットフォーム３２０を基盤として新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図２の実施形態において、電子機器１００は、受信したユーザ１１０の音声入力を外部サーバ２１０に送信し、外部サーバ２１０は、拡張キット３５０から提供されるＡＰＩに基づいてクラウド人工知能プラットフォーム３２０に音声入力を送信したとする。この場合、上述と同じように、クラウド人工知能プラットフォーム３２０は、受信した音声入力を認識および分析した後、適切な返答音声を合成して提供したり、音声入力によって処理されなければならない機能に関する推薦情報を外部サーバ２１０に提供したりしてよい。一例として、図２において、外部サーバ２１０は、音声入力「今日の天気」をクラウド人工知能プラットフォーム３２０に送信し、クラウド人工知能プラットフォーム３２０から、音声入力「今日の天気」の認識によって抽出されたキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ２１０は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成し、クラウド人工知能プラットフォーム３２０に生成されたテキスト情報を再び送信してよい。このとき、クラウド人工知能プラットフォーム３２０は、テキスト情報を音声で合成して外部サーバ２１０に提供してよい。外部サーバ２１０は、合成された音声を電子機器１００に送信してよく、電子機器１００は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ１１０から受信された音声入力「今日の天気」が処理されてよい。

図４は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図４の電子機器４１０は、上述した電子機器１００に対応してよく、サーバ４２０は、上述した外部サーバ２１０やクラウド人工知能プラットフォーム３２０を実現する１つのコンピュータ装置に対応してよい。

電子機器４１０とサーバ４２０は、メモリ４１１、４２１、プロセッサ４１２、４２２、通信モジュール４１３、４２３、および入力／出力インタフェース４１４、４２４を含んでよい。メモリ４１１、４２１は、コンピュータで読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永久大容量記憶装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含んでよい。ここで、ＲＯＭとディスクドライブのような永久大容量記憶装置は、メモリ４１１、４２１とは区分される別の永久記憶装置として電子機器４１０やサーバ４２０に含まれてもよい。また、メモリ４１１、４２１には、オペレーティングシステムと、少なくとも１つのプログラムコード（一例として、電気機器４１０にインストールされ、特定サービスの提供のために電子機器４１０で駆動するアプリケーションなどのためのコード）が格納されてよい。このようなソフトウェア構成要素は、メモリ４１１、４２１とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ−ＲＯＭドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール４１３、４２３を通じてメモリ４１１、４２１にロードされてもよい。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配信するファイル配信システムがネットワーク４３０を介して提供するファイルによってインストールされるコンピュータプログラム（一例として、上述したアプリケーション）に基づいて電子機器４１０のメモリ４１１にロードされてよい。

プロセッサ４１２、４２２は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ４１１、４２１または通信モジュール４１３、４２３によって、プロセッサ４１２、４２２に提供されてよい。例えば、プロセッサ４１２、４２２は、メモリ４１１、４２１のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信モジュール４１３、４２３は、ネットワーク４３０を介して電子機器４１０とサーバ４２０とが互いに通信するための機能を提供してもよいし、電子機器４１０および／またはサーバ４２０が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器４１０のプロセッサ４１２がメモリ４１１のような記録装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール４１３の制御にしたがってネットワーク４３０を介してサーバ４２０に伝達されてよい。これとは逆に、サーバ４２０のプロセッサ４２２の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール４２３とネットワーク４３０を経て電子機器４１０の通信モジュール４１３を通じて電子機器４１０に受信されてもよい。例えば、通信モジュール４１３を通じて受信したサーバ４２０の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ４１２やメモリ４１１に伝達されてよく、コンテンツやファイルなどは、電子機器４１０がさらに含むことのできる格納媒体（上述した永久記憶装置）に格納されてよい。

入力／出力インタフェース４１４は、入力／出力装置４１５とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボードまたはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース４１４は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置４１５は、電子機器４１０と１つの装置で構成されてもよい。また、サーバ４２０の入力／出力インタフェース４２４は、サーバ４２０と連結するか、サーバ４２０が含むことのできる入力または出力のための装置（図示せず）とのインタフェースのための手段であってもよい。

また、他の実施形態において、電子機器４１０およびサーバ４２０は、図４の構成要素よりも少ないか多い構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器４１０は、上述した入力／出力装置４１５のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器４１０がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力／出力ポート、振動のための振動器などのような多様な構成要素が電子機器４１０にさらに含まれるように実現されてよい。

本実施形態において、電子機器４１０は、ユーザの音声入力を受信するためのマイクを入力／出力装置４１５として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力／出力装置４１５としてさらに含んでよい。

このとき、電子機器４１０は、ユーザの音声入力の入力音量にしたがい、音声入力に対応して出力される音の出力音量を調節してよい。このとき、出力音量は、入力音量に比例してよい。例えば、ユーザが電子機器４１０をコールする声が大きいほど、ユーザ命令に対応して出力される音の出力音量が相対的に大きくなるように調節されてよい。これとは逆に、ユーザが電子機器４１０をコールする声が小さいほど、ユーザ命令に対応して出力される音の出力音量が相対的に小さくなるように調節されてよい。具体的な例として、出力される音の出力音量は、音声入力の入力音量と同等に調節されてよい。ユーザが小声やささやくような声で電子機器４１０をコールすると、電子機器４１０も小声やささやくような音声で応答するようになる。

図５および図６は、本発明の一実施形態における、入力音量にしたがって出力音量を調節する例を示した図である。図５および図６では、音量を文字の大きさで表現した例であって、ユーザ１１０の音声入力の入力音量にしたがい、電子機器４１０で出力される音の出力音量が自動的に調節される例を示している。図５では、図６に比べて相対的に大きい音量（大きな文字によって大きな音量を表現）にしたがい、電子機器４１０から相対的に大きな音量の音が出力される例を、図６では、図５に比べて相対的に小さな音量（小さな文字によって小さな音量を表現）の音声にしたがい、電子機器４１０から相対的に小さな音量の音が出力される例を、比較して示している。

図７は、本発明の一実施形態における、電子機器が実行することのできるユーザ命令処理方法の例を示したフローチャートである。本発明の実施形態に係るユーザ命令処理システムは、上述した電子機器４１０のようなコンピュータ装置の形態で実現されてよい。このような電子機器４１０は、図７のユーザ命令処理方法が含む段階７１０〜７３０を実行してよい。このとき、プロセッサ４１２は、メモリ４１１が含むオペレーティングシステムのコードや、少なくとも１つのプログラムのコードによる制御命令を実行するように実現されてよい。ここで、プロセッサ４１２は、電子機器４１０に格納されたコードが提供する制御命令にしたがって電子機器４１０が図７の段階７１０〜７３０を実行するように電子機器４１０を制御してよい。

段階７１０で、電子機器４１０は、ユーザから音声入力を受信してよい。例えば、電子機器４１０は、電子機器４１０が含むマイクのような音声入力装置でユーザの発話による音声入力を受信してよい。

段階７２０で、電子機器４１０は、受信した音声入力の入力音量を測定してよい。音量の測定は、音の大きさを数値化することが可能な方法であれば、制限されることなく活用されてよい。例えば、電子機器４２０は、受信した音声入力から音に関連する音声電流を測定し、これによって得られるＶＵ単位の値として入力音量を測定してよい。

段階７３０で、電子機器４１０は、受信した音声入力に対応して出力するための音の出力音量を、測定された入力音量にしたがって調節してよい。例えば、電子機器４１０は、測定された入力音量に比例するように、出力される音の出力音量を調節してよい。音声入力に対応して出力するための音は、音声入力に対応する返答音声および／またはオーディオコンテンツを含んでよい。

したがって、ユーザは、予め設定されていた出力音量が分からなくても、ユーザ自身がユーザ命令のために発話する音声の大きさを調節することにより、出力音量を直観的に調節することが可能となる。

他の実施形態として、電子機器４１０は、段階７２０で、ユーザの音声入力が含むすべての音声に対する入力音量を測定するのではなく、音声入力が含むキーワードのうち、電子機器４１０をウェイクアップ（ｗａｋｅ−ｕｐ）させるために予め設定されたキーワードの入力音量を測定してよい。

図８および図９は、本発明の一実施形態における、予め設定されたキーワードの入力音量にしたがって音の出力音量を調節する例を示した図である。図８および図９でも、入力音量と出力音量を、吹き出しに含まれた文字の大きさで表示した例を示している。電子機器４１０は、通常はスリープ状態で動作してよく、ユーザから電子機器４１０をウェイクアップさせるために予め設定されたキーワードが入力された場合には、ウェイクアップ状態にモードが変更されながら、該当のキーワードと共に入力されるユーザの音声入力をユーザ命令として認識してよい。図８および図９では、予め設定されたキーワードとして「スピーカ」を活用する例について示しており、キーワード「スピーカ」に対して測定された入力音量にしたがい、出力される音の出力音量を調節する例を示している。

図８では、予め設定されたキーワード「スピーカ」が、実際のユーザ命令「今日の天気」よりも相対的に大きな音量である例を示している。このとき、電子機器４１０から出力される音「今日の天気は・・・」の出力音量は、「スピーカ」に該当する入力音量にしたがって調節され、実際のユーザ命令「今日の天気」に対する入力音量よりも相対的に大きい音量で出力される例を示している。

これとは逆に、図９では、予め設定されたキーワード「スピーカ」が、実際のユーザ命令「今日の天気」よりも相対的に小さな音量である例を示している。このとき、電子機器４１０から出力される音「今日の天気は・・・」の出力音量は、実際のユーザ命令「今日の天気」に対する入力音量よりも相対的に小さい音量で出力される例を示している。

このように、本実施形態によると、ユーザが入力した音声全体ではなく、特定のキーワードのような一部分に対する入力音量にしたがい、ユーザが直観的に出力される音の出力音量を調節することが可能となる。

図１０は、本発明の一実施形態における、出力される音に対応する視覚情報を追加で提供するユーザ命令処理方法の例を示したフローチャートである。図１０の段階１０１０および１０２０は、図７の段階７３０以後に実行されてよい。

段階１０１０で、電子機器４１０は、測定された入力音量が予め設定された第１閾値以下である場合、または測定された入力音量が第１閾値以下でありながら音に対して要求される出力正確度が予め設定された第２閾値以上である場合、音に対応する視覚情報を、電子機器４１０と連係する他の機器のディスプレイから出力するための制御情報を生成してよい。

例えば、測定された入力音量が小さ過ぎる場合には、ユーザは、測定された入力音量にしたがって調節された出力音量の音を正確に聞き取ることができない可能性が発生する。また、出力される音が一定以上の長さを有するか、相対的に重要な情報である場合のように、高い出力正確度が要求される状況も存在し得る。したがって、電子機器４１０は、測定された入力音量が予め設定された第１閾値以下である場合や、測定された入力音量が第１閾値以下でありながら出力される音に対して要求される出力正確度が予め設定された第２閾値以上である場合、出力される音に対応する視覚情報を、ディスプレイを備えた他の機器のサポートにしたがって出力してよい。このために、電子機器４１０は、上述した特定条件に基づき、音に対応する視覚情報を、電子機器４１０ではなく、電子機器４１０と連係する他の機器から出力するための制御情報を生成してよい。

段階１０２０で、電子機器４１０は、生成された制御情報を送信してよい。このとき、生成された制御情報は、電子機器４１０から他の機器に直接伝達されても、図２を参照しながら説明した外部サーバ２１０を経て他の機器に伝達されてもよい。一例として、制御情報は、ユーザのスマートフォンに伝達されてよく、制御情報に基づいてスマートフォンが備えるディスプレイに視覚情報が表示されてよい。このような制御情報の送信は、２つの機器間に信号を直接送信するための方法またはサーバの中継を経て２つの機器間に信号を送信するための方法のように周知の方法によって実行可能であることは、当業者であれば容易に理解することができるであろう。

また他の実施形態として、電子機器４１０は、特定キーワードの発話時間に基づき、出力される音の出力音量を調節してよい。例えば、音声入力が音の出力音量を調節するためのキーワードを含む場合、このようなキーワードの発話時間に比例するように音の出力音量を増加または減少させてよい。

図１１は、本発明の一実施形態における、キーワードの発話時間に基づいて出力される音の出力音量を調節する例を示した図である。図１１では、音声入力「ボリュームを上げて」から、音の出力音量を調節するためのキーワード「上げて」の発話時間に基づいて出力音量を増加させる例を示している。例えば、ユーザが、キーワード「上げて」を１秒間で発話したり、キーワード「上げて」を３秒間で発話したりするように、特定キーワードの発話時間を調節することがある。このとき、出力音量は、発話時間が長くなるほどその変化幅を大きくしてよい。言い換えれば、ユーザがキーワード「上げて」を１秒間で発話する場合よりも、３秒間で発話する場合の方が、出力音量の増加幅を大きくしてよい。これとは逆に、出力の音量の減少幅においても、「音を下げて」や「ボリュームを低くして」などのような音声入力のキーワードに対する発話時間に基づいて調節してよい。

また他の実施形態として、電子機器４１０は、周辺騒音の騒音音量を追加のパラメータとして活用することで、出力される音の出力音量を調節してもよい。

図１２は、本発明の一実施形態における、周辺騒音の騒音音量に基づいて出力される音の出力音量を調節する、ユーザ命令処理方法の例を示したフローチャートである。図１２の段階１２１０および１２２０は、図７の段階７２０以後に、そして段階７３０の代わりに実行されてよい。

段階１２１０で、電子機器４１０は、音声入力が含む周辺騒音の騒音音量または音を出力しようとする時点の周辺騒音の騒音音量を測定してよい。

段階１２２０で、電子機器４１０は、受信した音声入力に対応して出力するための音の出力音量を、測定された入力音量および測定された騒音音量にしたがって調節してよい。

例えば、電子機器４１０は、測定された入力音量にしたがって出力される音の出力音量を調節するが、周辺騒音の騒音音量にもしたがって出力される音の出力音量を追加でさらに調節してよい。より具体的な例として、電子機器４１０は、ユーザの発話時の騒音音量や音を出力する時点の騒音音量が大きいほど、調節された出力音量が大きくなるように調節してよい。

また他の実施形態として、電子機器４１０は、測定された入力音量にしたがって音の出力音量を調節する機能が、特定の時間帯に活性化されるように制御してもよい。図７の段階は、現在時刻が電子機器４１０に設定された時間情報に対応する場合にだけ実行されてよい。例えば、真夜中や朝方のように音の出力音量に敏感になる時間帯に、出力音量の調節のための機能が活性化されるように設定されてよい。

以上のように、本発明の実施形態によると、ユーザから受信した音声入力の入力音量にしたがって出力される音の出力音量を調節することにより、ユーザは、ユーザ命令と同時に出力される音の出力音量を調節することができる。また、ユーザから受信した音声入力の入力音量および／または出力される音に対して要求される出力正確度に基づいてユーザが音を正確に聞き取ることができない状況が発生する可能性を考慮し、音に対応する視覚情報を、他の機器のディスプレイから出力することができる。また、出力される音の出力音量を調節するためのキーワードの発話時間にしたがって音の出力音量を調節することができ、音声基盤のインタフェースを提供する電子機器をウェイクアップさせるために予め設定されたキーワードの入力音量にしがたい、出力される音の出力音量を調節することができる。さらに、周辺騒音をさらに活用することで出力される音の出力音量を調節することができ、入力音量にしたがって出力音量を調節するための機能を予め設定された時間に活性化させることができる。

上述したシステムまたは装置は、ハードウェア構成要素、ソフトウェア構成要素、またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）および前記ＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。前記コンピュータで読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独でまたは組み合わせて含んでよい。媒体は、コンピュータによって実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために臨時で格納するものであってもよい。また、媒体は、単一または複数個のハードウェアが結合した形態の多様な記録手段または格納手段であってよいが、あるコンピュータシステムに直接接続する媒体に限定されてはならず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含んでプログラム命令語が格納されるように構成されたものであってよい。また、他の媒体の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給ないし流通するサイト、サーバなどで管理する記録媒体ないし格納媒体が挙げられてもよい。プログラム命令の例には、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

本発明の実施形態は、更に以下の課題を解決する。

ユーザから受信した音声入力の入力音量および／または出力される音に対して要求される出力正確度に基づいてユーザが音を正確に聞き取ることができない状況が発生する可能性を考慮し、音に対応する視覚情報を他の機器のディスプレイから出力することができる、ユーザ命令処理方法およびシステム、ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。

出力される音の出力音量を調節するためのキーワードの発話時間にしたがって音の出力音量を調節することができる、ユーザ命令処理方法およびシステム、ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。

音声基盤のインタフェースを提供する電子機器をウェイクアップさせるために予め設定されたキーワードの入力音量にしたがって出力される音の出力音量を調節することができる、ユーザ命令処理方法およびシステム、ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。

周辺騒音をさらに活用することで出力される音の出力音量を調節することができる、ユーザ命令処理方法およびシステム、ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。

入力音量にしたがって出力音量を調節するための機能を予め設定された時間に活性化させることができる、ユーザ命令処理方法およびシステム、ユーザ命令処理方法をコンピュータに実行させるコンピュータプログラムとその記録媒体を提供する。

本発明の実施形態は、更に以下の効果を達成する。

ユーザから受信した音声入力の入力音量および／または出力される音に対して要求される出力正確度に基づいてユーザが音を正確に聞き取ることができない状況が発生する可能性を考慮し、音に対応する視覚情報を他の機器のディスプレイから出力することができる。

出力される音の出力音量を調節するためのキーワードの発話時間にしたがって音の出力音量を調節することができる。

音声基盤のインタフェースを提供する電子機器をウェイクアップさせるために予め設定されたキーワードの入力音量にしたがって出力される音の出力音量を調節することができる。

周辺騒音をさらに活用することで出力される音の出力音量を調節することができる。
入力音量にしたがって出力音量を調節するための機能を、予め設定された時間に活性化させることができる。

１００：電子機器
１１０：ユーザ
２１０：外部サーバ

Claims

ユーザ命令処理方法であって、
ユーザから音声入力を受信する段階、
前記受信した音声入力の入力音量を測定する段階、
前記受信した音声入力に対応して出力するための音の出力音量を、前記測定された入力音量にしたがって調節する第１調整段階、および
前記音声入力が前記音の出力音量を調節するためのキーワードを含む場合、前記キーワードの発話時間に基づいて前記音の出力音量を調節する第２調整段階
を含むことを特徴とする、ユーザ命令処理方法。
前記第１調整段階は、
前記測定された入力音量に比例するように前記音の出力音量を調節することを特徴とする、請求項１に記載のユーザ命令処理方法。
前記測定された入力音量が予め設定された第１閾値以下である場合、または前記測定された入力音量が前記第１閾値以下でありながら前記音に対して要求される出力正確度が予め設定された第２閾値以上である場合、前記音に対応する視覚情報を、前記出力音量を調節する電子機器と連係する他の機器のディスプレイから出力するための制御情報を生成する段階、および
前記生成された制御情報を送信する段階
をさらに含むことを特徴とする、請求項１に記載のユーザ命令処理方法。
前記出力する段階は、
前記発話時間に比例するように前記音の出力音量を増加または減少させることを特徴とする、請求項１乃至３のいずれか一項に記載のユーザ命令処理方法。
前記音は、前記音声入力の応答として出力するための返答音声およびオーディオコンテンツのうちの少なくとも１つを含むことを特徴とする、請求項１に記載のユーザ命令処理方法。
前記受信された音声入力の入力音量を測定する段階は、
前記音声入力が含むキーワードのうち、前記出力音量を調節する電子機器をウェイクアップさせるために予め設定されたキーワードの入力音量を測定することを特徴とする、請求項１に記載のユーザ命令処理方法。
前記音声入力が含む周辺騒音の騒音音量または前記音を出力しようとする時点の周辺騒音の騒音音量を測定する段階
をさらに含み、
前記第１調整段階は、
前記測定された騒音音量をさらに利用して前記音の出力音量を調節することを特徴とする、請求項１に記載のユーザ命令処理方法。
時間情報を設定する段階
をさらに含み、
前記第１調整段階は、
現在時刻が前記設定された時間情報に対応する場合、前記音の出力音量を前記測定された入力音量にしたがって調節することを特徴とする、請求項１に記載のユーザ命令処理方法。
請求項１〜８のうちのいずれか一項に記載の方法をコンピュータに実行させるコンピュータプログラム。
請求項１〜８のうちのいずれか一項に記載の方法をコンピュータに実行させるコンピュータプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体。
ユーザ命令処理システムであって、
コンピュータで読み取り可能な命令を実行するように実現される少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
ユーザから音声入力を受信し、
前記受信した音声入力の入力音量を測定し、
前記受信した音声入力に対応して出力するための音の出力音量を、前記測定された入力音量にしたがって調節し、
前記音声入力が前記音の出力音量を調節するためのキーワードを含む場合、前記キーワードの発話時間に基づいて前記音の出力音量を調節すること
を特徴とする、ユーザ命令処理システム。
前記少なくとも１つのプロセッサは、
前記測定された入力音量が予め設定された第１閾値以下である場合、または前記測定された入力音量が前記第１閾値以下でありながら前記音に対して要求される出力正確度が予め設定された第２閾値以上である場合、前記音に対応する視覚情報を、前記ユーザ命令処理システムを実現する電子機器と連係する他の機器のディスプレイから出力するための制御情報を生成し、
前記生成された制御情報を送信すること
を特徴とする、請求項１１に記載のユーザ命令処理システム。
前記少なくとも１つのプロセッサは、前記受信した音声入力の入力音量を測定するために、
前記音声入力が含むキーワードのうち、前記ユーザ命令処理システムを実現する電子機器をウェイクアップさせるために予め設定されたキーワードの入力音量を測定すること
を特徴とする、請求項１１に記載のユーザ命令処理システム。
前記少なくとも１つのプロセッサは、
前記音声入力が含む周辺騒音の騒音音量または前記音を出力しようとする時点の周辺騒音の騒音音量を測定し、
前記測定された騒音音量をさらに利用して前記音の出力音量を調節すること
を特徴とする、請求項１１に記載のユーザ命令処理システム。
前記少なくとも１つのプロセッサは、
時間情報を設定し、
現在時刻が前記設定された時間情報に対応する場合、前記音の出力音量を前記測定された入力音量にしたがって調節すること
を特徴とする、請求項１１に記載のユーザ命令処理システム。