JP2022045262A

JP2022045262A - 音声処理システム、音声処理方法、及び音声処理プログラム

Info

Publication number: JP2022045262A
Application number: JP2020150854A
Authority: JP
Inventors: 大輔山下; Daisuke Yamashita; 一雄巻島; Kazuo Makishima
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-18
Also published as: US20220075592A1; CN114155847A

Abstract

【課題】音声コマンドによる操作の利便性を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供する。【解決手段】音声処理システムは、ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示処理部と、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示部と、前記ユーザの音声を受信する音声受信部と、前記音声受信部より受信される前記音声に基づいて前記操作対象アプリケーションに対する第１コマンドを特定するコマンド特定部と、前記操作対象アプリケーションに対して前記コマンド特定部により特定される前記第１コマンドを実行するコマンド実行部と、を備える。【選択図】図５

Description

本発明は、音声処理システム、音声処理方法、及び音声処理プログラムに関する。

近年、ユーザの音声を認識して当該音声に対応する所定のコマンドを実行可能な音声処理システムが知られている。例えば、音声処理システムは、所定のアプリケーションにより資料が表示装置に表示されている場合において、ユーザが当該資料のページを捲る（進める）指示の音声を発話した場合に、当該音声に応じて当該資料のページを捲るコマンドを実行させる。

前記音声処理システムにおいて、従来、音声認識に失敗した場合に、音声認識可能な音声コマンドを一覧表示する技術が提案されている（例えば特許文献１参照）。

特許第５２３４１６０号公報

しかし、従来の技術では、ユーザが音声認識可能な音声コマンドを音声認識の前段階で把握することが困難である。また、ユーザは、表示装置に表示された操作画面において、前記音声コマンドにより操作可能な部分を把握することが困難である。このように、従来の音声処理システムでは、音声コマンドによる操作の利便性が悪い問題が生じる。

本発明の目的は、音声コマンドによる操作の利便性を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供することにある。

本発明の一の態様に係る音声処理システムは、ユーザの音声に基づいて所定のコマンドを実行する音声処理システムであって、前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示処理部と、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示部と、前記ユーザの音声を受信する音声受信部と、前記音声受信部より受信される前記音声に基づいて前記操作対象アプリケーションに対する第１コマンドを特定するコマンド特定部と、前記操作対象アプリケーションに対して前記コマンド特定部により特定される前記第１コマンドを実行するコマンド実行部と、を備える。

本発明の他の態様に係る音声処理方法は、ユーザの音声に基づいて所定のコマンドを実行する音声処理方法であって、前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示ステップと、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示ステップと、前記ユーザの音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記音声に基づいて前記操作対象アプリケーションに対する第１コマンドを特定するコマンド特定ステップと、前記操作対象アプリケーションに対して前記コマンド特定ステップにより特定される前記第１コマンドを実行するコマンド実行ステップと、を一又は複数のプロセッサが実行する方法である。

本発明の他の態様に係る音声処理プログラムは、ユーザの音声に基づいて所定のコマンドを実行する音声処理プログラムであって、前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示ステップと、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示ステップと、前記ユーザの音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記音声に基づいて前記操作対象アプリケーションに対する第１コマンドを特定するコマンド特定ステップと、前記操作対象アプリケーションに対して前記コマンド特定ステップにより特定される前記第１コマンドを実行するコマンド実行ステップと、を一又は複数のプロセッサにより実行させるためのプログラムである。

本発明によれば、音声コマンドによる操作の利便性を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムが提供される。

図１は、本発明の実施形態に係る音声処理システムの構成を示す機能ブロック図である。図２は、本発明の実施形態に係る音声処理システムに用いられるコマンド情報の一例を示す図である。図３は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。図４は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。図５は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。図６は、本発明の実施形態に係る音声処理システムにおける音声処理の手順の一例を説明するためのフローチャートである。図７は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。図８は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。図９は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。図１０は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。図１１は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。図１２は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

［音声処理システム１００］
図１は、本発明の実施形態に係る音声処理システムの概略構成を示す図である。音声処理システム１００は、音声処理装置１と、クラウドサーバ２と、表示装置３とを含んでいる。音声処理装置１は、スピーカ１３及びマイク１４を備えたマイクスピーカ装置であり、例えばＡＩスピーカ、スマートスピーカなどである。音声処理装置１と、クラウドサーバ２と、表示装置３とは、ネットワークＮ１を介して互いに接続されている。ネットワークＮ１は、インターネット、ＬＡＮ、ＷＡＮ、又は公衆電話回線などの通信網である。クラウドサーバ２は、例えば１台又は複数台のデータサーバ（仮想サーバ）で構築される。なお、クラウドサーバ２は、１台の物理サーバに置き換えられてもよい。音声処理システム１００は、ユーザの音声に基づいて所定のコマンドを実行することが可能である。

［音声処理装置１］
図１に示すように、音声処理装置１は、制御部１１、記憶部１２、スピーカ１３、マイク１４、及び通信インターフェース１５などを備える。音声処理装置１は、例えば卓上に配置され、ユーザの音声をマイク１４を介して取得したり、当該ユーザに対してスピーカ１３から音声を出力したりする。

通信インターフェース１５は、音声処理装置１を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えばクラウドサーバ２、表示装置３）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。なお、通信インターフェース１５は、テレビ会議システム（後述）を実現可能な通信インターフェースであってもよい。

記憶部１２は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。記憶部１２には、制御部１１に後述の音声処理（図６参照）を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、クラウドサーバ２から配信されて記憶される。また前記音声処理プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置１が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部１２に記憶されてもよい。

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより音声処理装置１を制御する。

具体的に、制御部１１は、音声受信部１１１、音声判定部１１２、音声送信部１１３などの各種の処理部を含む。なお、制御部１１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部１１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記音声処理プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。

音声受信部１１１は、音声処理装置１を利用するユーザが発話した音声を受信する。音声受信部１１１は、本発明の音声受信部の一例である。ユーザは、例えば、音声処理装置１が音声コマンドの受け付けを開始するための特定ワード（起動ワード、ウェイクアップワードともいう。）の音声、音声処理装置１に指示する各種音声コマンドの音声（コマンド音声）などを発話する。音声受信部１１１は、ユーザが発話した各種音声を受信する。

音声判定部１１２は、音声受信部１１１より受信された前記音声に基づいて、当該音声に前記特定ワードが含まれるか否かを判定する。例えば、音声判定部１１２は、音声受信部１１１より受信された前記音声を音声認識してテキストデータに変換する。そして、音声判定部１１２は、テキストデータの冒頭に前記特定ワードが含まれるか否かを判定する。

音声送信部１１３は、音声判定部１１２による判定結果に基づいて、音声受信部１１１より受信される前記音声の送信処理を実行する。具体的には、音声判定部１１２により、音声受信部１１１により受信された前記音声に前記特定ワードが含まれると判定された場合に、音声送信部１１３は、前記音声に含まれ、前記特定ワードに続くキーワード（コマンド用キーワード）のテキストデータを、クラウドサーバ２に送信する。一方、音声判定部１１２により、音声受信部１１１により受信された前記音声に前記特定ワードが含まれないと判定された場合には、音声送信部１１３は、当該音声をクラウドサーバ２に送信しない。これにより、前記特定ワードが発話された場合に前記コマンド用キーワードがクラウドサーバ２に送信されるため、前記特定ワードを含まない通常の会話の音声がクラウドサーバ２に誤って送信されることを回避することができる。

［クラウドサーバ２］
図１に示すように、クラウドサーバ２は、制御部２１、記憶部２２、通信インターフェース２３などを備える。

通信インターフェース２３は、クラウドサーバ２を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えば音声処理装置１、表示装置３）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

記憶部２２は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。記憶部２２には、制御部２１に後述の音声処理（図６参照）を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、クラウドサーバ２が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部２２に記憶されてもよい。また記憶部２２には、音声処理装置１から受信する前記コマンド用キーワードのテキストデータなどが記憶される。

また、記憶部２２には、コマンド情報Ｄ１が記憶される。図２には、コマンド情報Ｄ１の一例を示している。コマンド情報Ｄ１には、操作対象アプリケーション、音声コマンド、効果などの情報が互いに関連付けられて登録される。前記操作対象アプリケーションは、ユーザが表示装置３において操作を行うアプリケーションである。前記操作対象アプリケーションは、クラウドサーバ２において動作し、表示装置３に対する操作を受け付けてもよいし、表示装置３にインストールされて動作してもよい。本実施形態では、前記操作対象アプリケーションとして、ユーザの音声に応じた音声コマンドを実行する音声処理を開始、終了する「音声アプリケーション」と、各種資料をスライド形式で表示、編集可能な「ＰｏｗｅｒＰｏｉｎｔ」（登録商標）と、タッチペンなどによりタッチパネルに書き込み可能な「Ｐｅｎｓｏｆｔ」とが登録されている。

前記音声コマンドは、音声処理システム１００において実行可能なコマンドであり、前記操作対象アプリケーションごとに登録されている。前記音声コマンドは、前記コマンド用キーワードに対応する。前記効果は、前記音声コマンドにより実行される動作内容を示す情報である。例えば、表示装置３に「ＰｏｗｅｒＰｏｉｎｔ」により資料の第１ページが表示されている場合に、ユーザが「Ｍｏｖｅｔｏｎｅｘｔｐａｇｅ」の音声コマンド（コマンド用キーワード）を発話すると、音声処理システム１００が当該音声コマンドを実行することにより、表示装置３に前記資料の第２ページが表示される。

なお、他の実施形態として、コマンド情報Ｄ１の情報の一部又は全部が、音声処理装置１及び表示装置３のいずれかに記憶されてもよいし、これら複数の装置に分散して記憶されてもよい。また、他の実施形態として、前記情報が音声処理システム１００からアクセス可能なサーバに記憶されてもよい。この場合、音声処理システム１００は、前記サーバから前記情報を取得して、後述の音声処理（図６参照）などの各処理を実行してもよい。

制御部２１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部２１は、前記ＲＯＭ又は記憶部２２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することによりクラウドサーバ２を制御する。

図１に示すように、制御部２１は、音声受信部２１１、コマンド特定部２１２、コマンド処理部２１３などの各種の処理部を含む。なお、制御部２１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部２１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。

音声受信部２１１は、音声処理装置１から送信される音声コマンドに対応する前記コマンド用キーワードを受信する。前記コマンド用キーワードは、音声処理装置１が受信する音声のテキストデータの冒頭に含まれる特定ワードに続くワード（テキストデータ）である。具体的には、音声処理装置１が、前記特定ワードを検出して前記コマンド用キーワードをクラウドサーバ２に送信すると、クラウドサーバ２が当該コマンド用キーワードを受信する。

コマンド特定部２１２は、音声受信部２１１により受信された前記コマンド用キーワードに基づいて音声コマンドを特定する。コマンド特定部２１２は、本発明のコマンド特定部２１２の一例である。例えば、コマンド特定部２１２は、コマンド情報Ｄ１（図２参照）を参照して、前記コマンド用キーワードに対応する音声コマンドを特定する。ユーザが前記操作対象アプリケーションに対して所定の音声コマンドに対応する前記コマンド用キーワードを発話した場合、コマンド特定部２１２は、前記コマンド用キーワードに基づいて前記操作対象アプリケーションに対する音声コマンド（本発明の第１コマンドに相当）を特定する。コマンド特定部２１２は、本発明のコマンド特定部の一例である。

本実施形態では、コマンド情報Ｄ１に、予め複数の前記音声コマンドが登録されており、コマンド情報Ｄ１の中から前記コマンド用キーワードに一致する前記音声コマンドを特定する構成としているが、音声コマンドの特定方法はこれに限定されない。例えば、コマンド特定部２１２は、前記コマンド用キーワードに含まれる所定の用語、前記コマンド用キーワード全体の文節、構文などに基づいて、ユーザの指示内容の意味を解釈して前記音声コマンドを特定してもよい。例えば、コマンド特定部２１２は、形態素解析、構文解析、意味解析、機械学習などの公知の手法を用いて前記コマンド用キーワードから前記音声コマンドを特定してもよい。

コマンド処理部２１３は、コマンド特定部２１２により特定される前記音声コマンドの情報を、表示装置３に対応するコマンド記憶領域（キュー）に記憶する。例えば、記憶部２２には、表示装置３に対応する一又は複数のコマンド記憶領域が含まれる。ここでは、記憶部２２に、表示装置３に対応するキューＫ１が含まれる。なお、音声処理システム１００に複数の表示装置３が含まれる場合には、記憶部２２に表示装置３ごとのキューが記憶されてもよい。

例えば、コマンド処理部２１３は、コマンド特定部２１２により特定された音声コマンド「Ｍｏｖｅｔｏｎｅｘｔｐａｇｅ」の情報を、表示装置３に対応するキューＫ１に記憶する。

キューＫ１に記憶されたデータ（音声コマンド）は、キューＫ１に対応する表示装置３により取り出され、表示装置３が前記音声コマンドを実行する。

［表示装置３］
図２に示すように、表示装置３は、制御部３１、記憶部３２、操作部３３、表示部３４、通信インターフェース３５などを備える。

操作部３３は、表示装置３のユーザの操作を受け付けるマウス、キーボード、又はタッチパネルなどである。表示部３４は、各種の情報を表示する液晶ディスプレイ又は有機ＥＬディスプレイなどの表示パネルである。操作部３３及び表示部３４は、一体に形成されたユーザインターフェースであってもよい。

通信インターフェース３５は、表示装置３を有線又は無線でネットワークＮ１に接続し、ネットワークＮ１を介して他の機器（例えば音声処理装置１、クラウドサーバ２）との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

記憶部３２は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。記憶部３２には、制御部３１に後述の音声処理（図６参照）を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、表示装置３が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部３２に記憶されてもよい。

制御部３１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサである。前記ＲＯＭは、前記ＣＰＵに各種の処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムを予め記憶する。前記ＲＡＭは、各種の情報を記憶し、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部３１は、前記ＲＯＭ又は記憶部３２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより表示装置３を制御する。

具体的には、制御部３１は、操作受付部３１１、表示処理部３１２、コマンド取得部３１３、コマンド実行部３１４、支援情報提示部３１５などの各種の処理部を含む。なお、制御部３１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部３１に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。

操作受付部３１１は、ユーザの各種操作を受け付ける。具体的には、操作受付部３１１は、ユーザの操作部３３に対する操作を受け付ける。例えば、操作受付部３１１は、所定のアプリケーション（操作対象アプリケーションなど）を起動させる操作、前記操作対象アプリケーションにより動作する操作画面に対する操作、所定のファイルを開く操作などを受け付ける。また、操作受付部３１１は、ユーザから後述の操作支援情報の提示を要求する操作を受け付ける。

表示処理部３１２は、各種情報を表示部３４に表示させる。例えば、表示処理部３１２は、ユーザの操作対象である前記操作対象アプリケーションの操作画面を表示部３４に表示させる。図３及び図４には、表示部３４に表示される前記操作画面の一例を示している。図３に示す例では、「音声アプリケーション」の操作対象アプリケーションＡＰ１の操作画面と、「ＰｏｗｅｒＰｏｉｎｔ」の操作対象アプリケーションＡＰ２の操作画面とが表示されている。また、図４に示す例では、操作対象アプリケーションＡＰ１の操作画面と、操作対象アプリケーションＡＰ２の操作画面と、「Ｐｅｎｓｏｆｔ」の操作対象アプリケーションＡＰ３の操作画面とが表示されている。

また、操作対象アプリケーションＡＰ１の操作画面には、表示可能な複数のファイルＦ１の一覧が表示されている。ユーザは、前記一覧から所望のファイルを音声などにより指定することができる。また、操作対象アプリケーションＡＰ１の操作画面には、前記操作支援情報の提示を要求するための操作ボタンＢ１が表示されている。ユーザは、前記操作支援情報の提示を要求する場合に、操作ボタンＢ１を指、タッチペン、マウスなどにより選択（押下）する。

コマンド取得部３１３は、クラウドサーバ２のコマンド記憶領域（キューＫ１）に記憶された音声コマンドを取得する。具体的には、コマンド取得部３１３は、表示装置３に対応するキューＫ１を監視し、キューＫ１に音声コマンドが記憶されると当該音声コマンドを取得する。例えば、コマンド取得部３１３は、操作ボタンＢ１が押下された場合にキューＫ１に定期的（例えば５秒ごと）に問い合わせを行って音声コマンドを取得する。なお、クラウドサーバ２のコマンド処理部２１３が、前記音声コマンドに関するデータを、表示装置３に送信し、コマンド取得部３１３が当該音声コマンドを取得してもよい。

コマンド実行部３１４は、前記操作対象アプリケーションに対してクラウドサーバ２のコマンド特定部２１２により特定された前記音声コマンドを実行する。コマンド実行部３１４は、本発明のコマンド実行部の一例である。具体的には、コマンド実行部３１４は、コマンド取得部３１３により取得される前記音声コマンドを実行する。例えば、コマンド実行部３１４は、コマンド取得部３１３がキューＫ１から取得した音声コマンドを実行する。

例えば、表示装置３の表示部３４に「ＰｏｗｅｒＰｏｉｎｔ」により資料の第１ページが表示されている場合に、ユーザが「Ｍｏｖｅｔｏｎｅｘｔｐａｇｅ」の音声コマンド（コマンド用キーワード）を発話すると、コマンド実行部３１４は、コマンド取得部３１３がキューＫ１から取得した当該音声コマンドを実行する。これにより、表示装置３の表示部３４に、前記資料の第２ページが表示される。

ここで、図３及び図４に示す各操作画面において、ユーザはいずれの前記操作対象アプリケーションの操作画面を音声コマンドにより操作可能であるか、また前記操作画面を操作可能な音声コマンドは何か、などを一見して把握することが困難である。

そこで、支援情報提示部３１５は、前記操作画面を操作するユーザに対して、ユーザ操作を支援する情報（操作支援情報）を提示する。具体的には、支援情報提示部３１５は、前記操作対象アプリケーションに対する前記操作支援情報を前記操作画面に対応付けて提示する。また、支援情報提示部３１５は、操作受付部３１１がユーザから前記操作支援情報の提示を要求する操作を受け付けた場合に、前記操作支援情報を提示してもよい。例えば、ユーザが図４に示す操作画面の操作ボタンＢ１を押下した場合に、支援情報提示部３１５が前記操作支援情報を提示してもよい。また例えば、ユーザが音声処理を開始する音声を発話し、クラウドサーバ２の音声受信部２１１が当該音声を受信した場合に、支援情報提示部３１５が、前記操作支援情報を提示してもよい。支援情報提示部３１５は、本発明の支援情報提示部の一例である。

図５には、前記操作支援情報を含む前記操作画面の一例を示している。なお、図５は、図４の操作画面に対応する前記操作支援情報を示している。支援情報提示部３１５は、前記操作対象アプリケーションに対する一又は複数のコマンドに対応する前記操作支援情報を前記操作画面に対応付けて提示する。例えば図５に示すように、支援情報提示部３１５は、「音声アプリケーション」の操作対象アプリケーションＡＰ１に対する音声コマンドに対応する操作支援情報Ｈ１を、操作対象アプリケーションＡＰ１の操作画面に対応付けて提示する。また、支援情報提示部３１５は、「ＰｏｗｅｒＰｏｉｎｔ」の操作対象アプリケーションＡＰ２に対する音声コマンドに対応する操作支援情報Ｈ２を、操作対象アプリケーションＡＰ２の操作画面に対応付けて提示する。また、支援情報提示部３１５は「Ｐｅｎｓｏｆｔ」の操作対象アプリケーションＡＰ３に対する音声コマンドに対応する操作支援情報Ｈ３を、操作対象アプリケーションＡＰ３の操作画面に対応付けて提示する。なお、操作支援情報Ｈ１、Ｈ２、Ｈ３のそれぞれは、吹き出しオブジェクト画像と前記音声コマンドのテキスト情報とにより構成される。支援情報提示部３１５は、各操作支援情報Ｈ１を、少なくとも一部が操作対象アプリケーションＡＰ１の操作画面に重なるように表示させ、各操作支援情報Ｈ２を、少なくとも一部が操作対象アプリケーションＡＰ２の操作画面に重なるように表示させ、各操作支援情報Ｈ３を、少なくとも一部が操作対象アプリケーションＡＰ３の操作画面に重なるように表示させる。また、前記操作画面に対して複数の前記操作支援情報が存在する場合、支援情報提示部３１５は、複数の前記操作支援情報を並べて表示させる。

なお、ユーザが操作ボタンＢ１を再度押下すると、支援情報提示部３１５は、全ての操作支援情報を消去（非表示）してもよい。

この構成によれば、例えば、ユーザは、操作対象アプリケーションＡＰ１、ＡＰ２、ＡＰ３の各操作画面を操作可能であることを一見して把握することでき、また各操作画面において実行可能な音声コマンドの種類（内容）を一見して把握することができる。

［音声処理］
以下、図６を参照しつつ、音声処理装置１の制御部１１、クラウドサーバ２の制御部２１、及び表示装置３の制御部３１によって実行される音声処理の手順の一例について説明する。

なお、本発明は、前記音声処理に含まれる一又は複数のステップを実行する音声処理方法の発明として捉えることができる。また、ここで説明する前記音声処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部１１、２１、３１によって前記音声処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、１又は複数のプロセッサによって前記音声処理における各ステップが分散して実行されてもよい。

ここでは、例えば、表示装置３の表示部３４に図４に示す各操作画面が表示されており、ユーザが各操作対象アプリケーションの操作画面を音声により操作可能な状態であるものとする。

ステップＳ１１において、制御部３１は、表示装置３においてユーザが操作可能な前記操作対象アプリケーションが存在するか否かを判定する。前記操作対象アプリケーションが存在する場合（Ｓ１１：Ｙｅｓ）、処理はステップＳ１２に移行する。一方、前記操作対象アプリケーションが存在しない場合（Ｓ１１：Ｎｏ）、処理はステップＳ１４に移行する。例えば、図４に示すように、表示装置３に少なくとも一つの前記操作対象アプリケーションの操作画面が表示された場合に、制御部３１は、前記操作対象アプリケーションが存在すると判定する。

ステップＳ１２において、表示装置３の制御部３１は、ユーザから前記操作支援情報の提示を要求する操作を受け付けたか否かを判定する。ユーザから前記操作支援情報の提示を要求する操作を受け付けた場合（Ｓ１２：Ｙｅｓ）、処理はステップＳ１３に移行する。一方、ユーザから前記操作支援情報の提示を要求する操作を受け付けない場合（Ｓ１２：Ｎｏ）、処理はステップＳ１４に移行する。例えば、図４に示す操作画面においてユーザが操作ボタンＢ１を押下した場合に、制御部３１は、ユーザから前記操作支援情報の提示を要求する操作を受け付けたと判定する。なお、操作ボタンＢ１は、いずれかの前記操作対象アプリケーションの操作画面内に表示されてもよいし、前記操作対象アプリケーションの操作画面外に表示されてもよい。

ステップＳ１３において、制御部３１は、前記操作画面を操作するユーザに対して、ユーザ操作を支援する情報（操作支援情報）を提示する。具体的には、制御部３１は、前記操作対象アプリケーションに対する前記操作支援情報を前記操作画面に対応付けて提示する。

例えば図５に示すように、制御部３１は、「音声アプリケーション」の操作対象アプリケーションＡＰ１に対する音声コマンドに対応する操作支援情報Ｈ１を、操作対象アプリケーションＡＰ１の操作画面に対応付けて提示し、「ＰｏｗｅｒＰｏｉｎｔ」の操作対象アプリケーションＡＰ２に対する音声コマンドに対応する操作支援情報Ｈ２を、操作対象アプリケーションＡＰ２の操作画面に対応付けて提示し、「Ｐｅｎｓｏｆｔ」の操作対象アプリケーションＡＰ３に対する音声コマンドに対応する操作支援情報Ｈ３を、操作対象アプリケーションＡＰ３の操作画面に対応付けて提示する。ステップＳ１３は、本発明の支援情報提示ステップの一例である。

ステップＳ１４において、音声処理装置１の制御部１１は、ユーザの音声を受信したか否かを判定する。制御部１１が前記ユーザの音声を受信した場合（Ｓ１４：Ｙｅｓ）、処理はステップＳ１５に移行する。一方、制御部１１が前記ユーザの音声を受信しない場合（Ｓ１４：Ｎｏ）、処理はステップＳ１１に戻る。ステップＳ１４は、本発明の音声受信ステップの一例である。

ステップＳ１５において、制御部１１は、受信した前記音声に基づいて、当該音声に前記特定ワードが含まれるか否かを判定する。例えば、制御部１１は、受信した前記音声を音声認識してテキストデータに変換し、当該テキストデータの冒頭に前記特定ワードが含まれるか否かを判定する。前記音声に前記特定ワードが含まれる場合（Ｓ１５：Ｙｅｓ）、処理はステップＳ１６に移行する。前記音声に前記特定ワードが含まれない場合（Ｓ１５：Ｎｏ）、処理はステップＳ１１に戻る。

ステップＳ１６において、制御部１１は、前記音声に含まれ、前記特定ワードに続くキーワード（コマンド用キーワード）のテキストデータを、クラウドサーバ２に送信する。

次にステップＳ１７において、クラウドサーバ２の制御部２１は、音声処理装置１から送信される前記コマンド用キーワードを受信して、前記コマンド用キーワードに基づいて音声コマンドを特定する。例えば、制御部２１は、図２に示すコマンド情報Ｄ１を参照して、前記コマンド用キーワードに対応する音声コマンドを特定する。ステップＳ１７は、本発明のコマンド特定ステップの一例である。

次にステップＳ１８において、制御部１１は、特定した前記音声コマンドの情報を、表示装置３に対応するキューＫ１に記憶する。

次にステップＳ１９において、表示装置３の制御部３１は、前記操作対象アプリケーションに対して特定された前記音声コマンドを実行する。具体的には、制御部３１は、表示装置３に対応するキューＫ１から音声コマンドを取得して、当該音声コマンドを実行する。ステップＳ１９は、本発明のコマンド実行ステップの一例である。以上のようにして、音声処理システム１００は、前記音声処理を実行する。

上述のように、本実施形態に係る音声処理システム１００は、ユーザの操作対象である操作対象アプリケーションの操作画面を表示させ、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する。また、音声処理システム１００は、前記ユーザの音声を受信し、前記音声に基づいて前記操作対象アプリケーションに対する第１コマンドを特定し、前記操作対象アプリケーションに対して前記第１コマンドを実行する。これにより、ユーザはいずれの操作画面を音声コマンドにより操作可能であるか、操作画面を操作可能な音声コマンドは何か、などを一見して把握することが可能となる。よって、音声コマンドによる操作の利便性を向上させることが可能となる。

本発明は上述の実施形態に限定されない。本発明の他の実施形態について以下に説明する。

ここで、表示装置３に同一の操作対象アプリケーションに対応する複数の操作画面が表示されている場合には、ユーザがいずれの操作画面に対して音声コマンドにより操作可能であるか、また操作画面を操作可能な音声コマンドは何か、などを一見して把握することが困難になる。例えば、図７に示すように、表示装置３に「ＰｏｗｅｒＰｏｉｎｔ」の操作対象アプリケーションＡＰ２の操作画面が２つ表示されている場合に、ユーザはいずれの操作画面に対して音声コマンドにより操作可能であるか、また操作画面を操作可能な音声コマンドは何か、などを一見して把握することが困難になる。

そこで、他の実施形態に係る音声処理システム１００では、表示装置３に同一の操作対象アプリケーションに対応する複数の操作画面が表示されている場合に、表示装置３の制御部３１（支援情報提示部３１５）は、複数の前記操作画面を識別可能な画面識別情報を、それぞれの前記操作画面に対応付けて提示する。前記画面識別情報は、本発明の操作支援情報の一例である。例えば図８に示すように、制御部３１は、一方の操作画面に赤枠の画面識別情報Ｈ２１（図８では便宜上「太線」で示す。）を表示させ、他方の操作画面に青枠の画面識別情報Ｈ３１（図８では便宜上「点線」で示す。）を表示させる。これにより、例えばユーザは、２つの操作画面のうち音声コマンドを実行させたい操作画面を、画面識別情報により識別することができ、また当該画面識別情報により指定することができる。例えば、ユーザが「Ｍｏｖｅｔｏｎｅｘｔｐａｇｅｂｙｒｅｄ」の音声コマンド（コマンド用キーワード）を発話することにより、図中上側の操作画面が指定され、かつ当該操作画面に対する前記音声コマンドが特定されることにより、当該操作画面に表示された資料のページが次ページに捲られる。

なお、制御部３１は、ユーザが例えば操作ボタンＢ１を押下した場合に、画面識別情報Ｈ２１、Ｈ３１を表示させる。

また、制御部３１は、ユーザが例えば操作ボタンＢ１を押下した場合に、図９に示すように、画面識別情報Ｈ２１、Ｈ３１に加えて、吹き出しオブジェクト画像と前記音声コマンドのテキスト情報とにより構成される操作支援情報Ｈ１、Ｈ２、Ｈ３を表示させてもよい。

また、前記画面識別情報は、色に対応する識別情報に限定されず、図１０及び図１１に示すように、番号に対応する識別情報であってもよい。この場合、例えばユーザは、「Ｍｏｖｅｔｏｎｅｘｔｐａｇｅｂｙｔｗｏ」の音声コマンド（コマンド用キーワード）を発話した場合に、図中下側の操作画面が指定され、かつ当該操作画面に対する前記音声コマンドが特定される。また、前記画面識別情報は、操作画面の位置（上側、下側、左側、右側など）、外枠の線種、線幅に対応する識別情報であってもよい。

また、他の実施形態として、表示装置３の制御部３１（支援情報提示部３１５）は、一又は複数の音声コマンドのうちコマンド実行部３１４が現時点で実行可能な音声コマンドに対応するテキスト情報（操作支援情報）を識別可能に操作画面に対応付けて提示してもよい。例えば、図１２に示す例では、「ＰｏｗｅｒＰｏｉｎｔ」の操作対象アプリケーションＡＰ２の操作画面に資料の最終ページが表示されている場合には、次ページが存在しないため、コマンド実行部３１４は「Ｍｏｖｅｔｏｎｅｘｔｐａｇｅ」の音声コマンドを実行することができない。また、支援情報提示部３１５は、「Ｍｏｖｅｔｏｎｅｘｔｐａｇｅ」の音声コマンドに対応する操作支援情報Ｈ２を削除（非表示）し、現時点で実行可能な音声コマンドに対応する操作支援情報Ｈ２のみを提示する。

また、図１２において、「Ｅｘｃｅｌ」の操作対象アプリケーションＡＰ３の操作画面において実行可能な音声コマンドが存在しない場合には、支援情報提示部３１５は、操作対象アプリケーションＡＰ３の操作画面に対する音声コマンドを受け付けないことを示す操作支援情報Ｈ３３を提示してもよい。

また、他の実施形態として、表示装置３の制御部３１（支援情報提示部３１５）は、一又は複数の音声コマンドのうち、使用頻度が所定頻度以上である音声コマンドに対応する操作支援情報のみを識別可能に操作画面に対応付けて提示してもよい。また、支援情報提示部３１５は、一又は複数の音声コマンドのうち、使用頻度が高い順に上位の所定数（例えば５個）の音声コマンドに対応する操作支援情報のみを識別可能に操作画面に対応付けて提示してもよい。

また、他の実施形態として、表示装置３の制御部３１（支援情報提示部３１５）は、図５に示す複数の操作支援情報において、ユーザが次に操作可能な音声コマンド、ユーザが次に操作不可能な音声コマンド、ユーザが操作する可能性のある音声コマンドなどに対応する操作支援情報を識別可能に操作画面に対応付けて提示してもよい。例えば、支援情報提示部３１５は、「ＰｏｗｅｒＰｏｉｎｔ」の操作対象アプリケーションＡＰ２の操作画面において、次に操作可能な「Ｍｏｖｅｔｏｎｅｘｔｐａｇｅ」の音声コマンドに対応する操作支援情報Ｈ２を点滅表示させ、次に操作不可能な「Ｍｏｖｅｔｏｐｒｅｖｉｏｕｓｐａｇｅ」の音声コマンドに対応する操作支援情報Ｈ２をグレーアウト表示させる。このように、ユーザに次の操作内容の候補を提案してもよい。

また、他の実施形態として、表示装置３の制御部３１（支援情報提示部３１５）は、前記操作支援情報を、操作対象位置に対応付けて表示させてもよい。例えば、操作対象アプリケーションＡＰ２の操作画面にページを進める操作ボタン（オブジェクト画像）が表示される場合に、支援情報提示部３１５は、前記操作支援情報の吹き出しオブジェクト画像の一部（吹き出し部）が、当該操作ボタンに重なるように表示させる。これにより、ユーザは、操作したい内容に応じたコマンド用キーワード（コマンド音声）を容易に把握することができる。

本発明の音声処理システムは、テレビ会議システムに適用することができる。例えば、音声処理システム１００は、第１会議室に配置される第１音声処理装置１及び第１表示装置３と、第２会議室に配置される第２音声処理装置１及び第２表示装置３とを含んで構成される。第１音声処理装置１及び第１表示装置３と、第２音声処理装置１及び第２表示装置３と、クラウドサーバ２とが、ネットワークＮ１を介して互いに接続されることにより、第１会議室及び第２会議室におけるテレビ会議が実現される。前記テレビ会議において、例えば、第１表示装置３の表示処理部３１２は、「ＰｏｗｅｒＰｏｉｎｔ」の操作対象アプリケーションＡＰ２の操作画面を２つ表示させる（図８等参照）。また、第２表示装置３の表示処理部３１２は、第１表示装置３と同様の操作画面、すなわち「ＰｏｗｅｒＰｏｉｎｔ」の操作対象アプリケーションＡＰ２の操作画面を２つ表示させる。この場合に、第１表示装置３の支援情報提示部３１５は、第１表示装置３において、前記２つの操作画面を識別可能な画面識別情報Ｈ２１、Ｈ３１をそれぞれの操作画面に対応付けて表示させる。同様に、第２表示装置３の支援情報提示部３１５は、第２表示装置３において、前記２つの操作画面を識別可能な画面識別情報Ｈ２１、Ｈ３１をそれぞれの操作画面に対応付けて表示させる。このように、テレビ会議システムを構成する複数の表示装置３のそれぞれは、上述した制御部３１による各処理を実行する。これにより、テレビ会議に参加する各ユーザの音声コマンドによる操作の利便性を向上させることが可能となる。

尚、本発明の音声処理システムは、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。

１：音声処理装置
２：クラウドサーバ
３：表示装置
１００：音声処理システム
１１１：音声受信部
１１２：音声判定部
１１３：音声送信部
２１１：音声受信部
２１２：コマンド特定部
２１３：コマンド処理部
３１１：操作受付部
３１２：表示処理部
３１３：コマンド取得部
３１４：コマンド実行部
３１５：支援情報提示部
ＡＰ１：操作対象アプリケーション
ＡＰ２：操作対象アプリケーション
ＡＰ３：操作対象アプリケーション
Ｂ１：操作ボタン
Ｈ１：操作支援情報
Ｈ２：操作支援情報
Ｈ３：操作支援情報

Claims

ユーザの音声に基づいて所定のコマンドを実行する音声処理システムであって、
前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示処理部と、
前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示部と、
前記ユーザの音声を受信する音声受信部と、
前記音声受信部より受信される前記音声に基づいて前記操作対象アプリケーションに対する第１コマンドを特定するコマンド特定部と、
前記操作対象アプリケーションに対して前記コマンド特定部により特定される前記第１コマンドを実行するコマンド実行部と、
を備える音声処理システム。
前記支援情報提示部は、前記操作対象アプリケーションに対する一又は複数のコマンドに対応する前記操作支援情報を前記操作画面に対応付けて提示し、
前記コマンド特定部は、前記一又は複数のコマンドのうち、前記音声受信部より受信される前記音声に基づいて前記第１コマンドを特定し、
前記コマンド実行部は、前記コマンド特定部により特定される前記第１コマンドを実行する、
請求項１に記載の音声処理システム。
前記支援情報提示部は、前記一又は複数のコマンドのそれぞれに対応する一又は複数の特定ワードのテキスト情報を、前記操作画面に対応付けて提示する、
請求項２に記載の音声処理システム。
前記支援情報提示部は、前記一又は複数のコマンドのうち前記コマンド実行部が現時点で実行可能なコマンドに対応する前記テキスト情報を識別可能に前記操作画面に対応付けて提示する、
請求項３に記載の音声処理システム。
前記支援情報提示部は、前記一又は複数のコマンドのうち前記コマンド実行部が現時点で実行可能なコマンドに対応する前記テキスト情報のみを前記操作画面に対応付けて提示する、
請求項４に記載の音声処理システム。
前記表示処理部が、同一の前記操作対象アプリケーションに対応する複数の前記操作画面を表示させる場合において、
前記支援情報提示部は、複数の前記操作画面を識別可能な画面識別情報を、それぞれの前記操作画面に対応付けて提示する、
請求項２から請求項５のいずれか１項に記載の音声処理システム。
前記表示処理部は、同一の前記操作対象アプリケーションに対応する複数の前記操作画面を、ネットワークを介して互いに通信可能に接続された第１表示装置及び第２表示装置のそれぞれに表示させ、
前記支援情報提示部は、前記第１表示装置及び前記第２表示装置のそれぞれにおいて、複数の前記操作画面を識別可能な画面識別情報を、それぞれの前記操作画面に対応付けて提示する、
請求項２から請求項５のいずれか１項に記載の音声処理システム。
前記ユーザの所定の操作を受け付ける操作受付部をさらに備え、
前記支援情報提示部は、前記操作受付部が前記ユーザから前記操作支援情報の提示を要求する操作を受け付けた場合に、前記操作支援情報を提示する、
請求項２から請求項７のいずれか１項に記載の音声処理システム。
前記支援情報提示部は、前記音声受信部より前記ユーザの音声が受信された場合に、前記操作支援情報を提示する、
請求項２から請求項７のいずれか１項に記載の音声処理システム。
ユーザの音声に基づいて所定のコマンドを実行する音声処理方法であって、
前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示ステップと、
前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示ステップと、
前記ユーザの音声を受信する音声受信ステップと、
前記音声受信ステップより受信される前記音声に基づいて前記操作対象アプリケーションに対する第１コマンドを特定するコマンド特定ステップと、
前記操作対象アプリケーションに対して前記コマンド特定ステップにより特定される前記第１コマンドを実行するコマンド実行ステップと、
一又は複数のプロセッサが実行する音声処理方法。
ユーザの音声に基づいて所定のコマンドを実行する音声処理プログラムであって、
前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示ステップと、
前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示ステップと、
前記ユーザの音声を受信する音声受信ステップと、
前記音声受信ステップより受信される前記音声に基づいて前記操作対象アプリケーションに対する第１コマンドを特定するコマンド特定ステップと、
前記操作対象アプリケーションに対して前記コマンド特定ステップにより特定される前記第１コマンドを実行するコマンド実行ステップと、
を一又は複数のプロセッサにより実行させるための音声処理プログラム。