JP2022045262A - 音声処理システム、音声処理方法、及び音声処理プログラム - Google Patents

音声処理システム、音声処理方法、及び音声処理プログラム Download PDF

Info

Publication number
JP2022045262A
JP2022045262A JP2020150854A JP2020150854A JP2022045262A JP 2022045262 A JP2022045262 A JP 2022045262A JP 2020150854 A JP2020150854 A JP 2020150854A JP 2020150854 A JP2020150854 A JP 2020150854A JP 2022045262 A JP2022045262 A JP 2022045262A
Authority
JP
Japan
Prior art keywords
voice
command
unit
support information
target application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020150854A
Other languages
English (en)
Inventor
大輔 山下
Daisuke Yamashita
一雄 巻島
Kazuo Makishima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2020150854A priority Critical patent/JP2022045262A/ja
Priority to CN202110977193.6A priority patent/CN114155847A/zh
Priority to US17/462,502 priority patent/US20220075592A1/en
Publication of JP2022045262A publication Critical patent/JP2022045262A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

【課題】音声コマンドによる操作の利便性を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供する。【解決手段】音声処理システムは、ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示処理部と、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示部と、前記ユーザの音声を受信する音声受信部と、前記音声受信部より受信される前記音声に基づいて前記操作対象アプリケーションに対する第1コマンドを特定するコマンド特定部と、前記操作対象アプリケーションに対して前記コマンド特定部により特定される前記第1コマンドを実行するコマンド実行部と、を備える。【選択図】図5

Description

本発明は、音声処理システム、音声処理方法、及び音声処理プログラムに関する。
近年、ユーザの音声を認識して当該音声に対応する所定のコマンドを実行可能な音声処理システムが知られている。例えば、音声処理システムは、所定のアプリケーションにより資料が表示装置に表示されている場合において、ユーザが当該資料のページを捲る(進める)指示の音声を発話した場合に、当該音声に応じて当該資料のページを捲るコマンドを実行させる。
前記音声処理システムにおいて、従来、音声認識に失敗した場合に、音声認識可能な音声コマンドを一覧表示する技術が提案されている(例えば特許文献1参照)。
特許第5234160号公報
しかし、従来の技術では、ユーザが音声認識可能な音声コマンドを音声認識の前段階で把握することが困難である。また、ユーザは、表示装置に表示された操作画面において、前記音声コマンドにより操作可能な部分を把握することが困難である。このように、従来の音声処理システムでは、音声コマンドによる操作の利便性が悪い問題が生じる。
本発明の目的は、音声コマンドによる操作の利便性を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供することにある。
本発明の一の態様に係る音声処理システムは、ユーザの音声に基づいて所定のコマンドを実行する音声処理システムであって、前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示処理部と、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示部と、前記ユーザの音声を受信する音声受信部と、前記音声受信部より受信される前記音声に基づいて前記操作対象アプリケーションに対する第1コマンドを特定するコマンド特定部と、前記操作対象アプリケーションに対して前記コマンド特定部により特定される前記第1コマンドを実行するコマンド実行部と、を備える。
本発明の他の態様に係る音声処理方法は、ユーザの音声に基づいて所定のコマンドを実行する音声処理方法であって、前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示ステップと、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示ステップと、前記ユーザの音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記音声に基づいて前記操作対象アプリケーションに対する第1コマンドを特定するコマンド特定ステップと、前記操作対象アプリケーションに対して前記コマンド特定ステップにより特定される前記第1コマンドを実行するコマンド実行ステップと、を一又は複数のプロセッサが実行する方法である。
本発明の他の態様に係る音声処理プログラムは、ユーザの音声に基づいて所定のコマンドを実行する音声処理プログラムであって、前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示ステップと、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示ステップと、前記ユーザの音声を受信する音声受信ステップと、前記音声受信ステップより受信される前記音声に基づいて前記操作対象アプリケーションに対する第1コマンドを特定するコマンド特定ステップと、前記操作対象アプリケーションに対して前記コマンド特定ステップにより特定される前記第1コマンドを実行するコマンド実行ステップと、を一又は複数のプロセッサにより実行させるためのプログラムである。
本発明によれば、音声コマンドによる操作の利便性を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムが提供される。
図1は、本発明の実施形態に係る音声処理システムの構成を示す機能ブロック図である。 図2は、本発明の実施形態に係る音声処理システムに用いられるコマンド情報の一例を示す図である。 図3は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。 図4は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。 図5は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。 図6は、本発明の実施形態に係る音声処理システムにおける音声処理の手順の一例を説明するためのフローチャートである。 図7は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。 図8は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。 図9は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。 図10は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。 図11は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。 図12は、本発明の実施形態に係る音声処理システムにおいて表示装置に表示される表示画面の一例を示す図である。
以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。
[音声処理システム100]
図1は、本発明の実施形態に係る音声処理システムの概略構成を示す図である。音声処理システム100は、音声処理装置1と、クラウドサーバ2と、表示装置3とを含んでいる。音声処理装置1は、スピーカ13及びマイク14を備えたマイクスピーカ装置であり、例えばAIスピーカ、スマートスピーカなどである。音声処理装置1と、クラウドサーバ2と、表示装置3とは、ネットワークN1を介して互いに接続されている。ネットワークN1は、インターネット、LAN、WAN、又は公衆電話回線などの通信網である。クラウドサーバ2は、例えば1台又は複数台のデータサーバ(仮想サーバ)で構築される。なお、クラウドサーバ2は、1台の物理サーバに置き換えられてもよい。音声処理システム100は、ユーザの音声に基づいて所定のコマンドを実行することが可能である。
[音声処理装置1]
図1に示すように、音声処理装置1は、制御部11、記憶部12、スピーカ13、マイク14、及び通信インターフェース15などを備える。音声処理装置1は、例えば卓上に配置され、ユーザの音声をマイク14を介して取得したり、当該ユーザに対してスピーカ13から音声を出力したりする。
通信インターフェース15は、音声処理装置1を有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えばクラウドサーバ2、表示装置3)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。なお、通信インターフェース15は、テレビ会議システム(後述)を実現可能な通信インターフェースであってもよい。
記憶部12は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。記憶部12には、制御部11に後述の音声処理(図6参照)を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、クラウドサーバ2から配信されて記憶される。また前記音声処理プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置1が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部12に記憶されてもよい。
制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより音声処理装置1を制御する。
具体的に、制御部11は、音声受信部111、音声判定部112、音声送信部113などの各種の処理部を含む。なお、制御部11は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部11に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記音声処理プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。
音声受信部111は、音声処理装置1を利用するユーザが発話した音声を受信する。音声受信部111は、本発明の音声受信部の一例である。ユーザは、例えば、音声処理装置1が音声コマンドの受け付けを開始するための特定ワード(起動ワード、ウェイクアップワードともいう。)の音声、音声処理装置1に指示する各種音声コマンドの音声(コマンド音声)などを発話する。音声受信部111は、ユーザが発話した各種音声を受信する。
音声判定部112は、音声受信部111より受信された前記音声に基づいて、当該音声に前記特定ワードが含まれるか否かを判定する。例えば、音声判定部112は、音声受信部111より受信された前記音声を音声認識してテキストデータに変換する。そして、音声判定部112は、テキストデータの冒頭に前記特定ワードが含まれるか否かを判定する。
音声送信部113は、音声判定部112による判定結果に基づいて、音声受信部111より受信される前記音声の送信処理を実行する。具体的には、音声判定部112により、音声受信部111により受信された前記音声に前記特定ワードが含まれると判定された場合に、音声送信部113は、前記音声に含まれ、前記特定ワードに続くキーワード(コマンド用キーワード)のテキストデータを、クラウドサーバ2に送信する。一方、音声判定部112により、音声受信部111により受信された前記音声に前記特定ワードが含まれないと判定された場合には、音声送信部113は、当該音声をクラウドサーバ2に送信しない。これにより、前記特定ワードが発話された場合に前記コマンド用キーワードがクラウドサーバ2に送信されるため、前記特定ワードを含まない通常の会話の音声がクラウドサーバ2に誤って送信されることを回避することができる。
[クラウドサーバ2]
図1に示すように、クラウドサーバ2は、制御部21、記憶部22、通信インターフェース23などを備える。
通信インターフェース23は、クラウドサーバ2を有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えば音声処理装置1、表示装置3)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
記憶部22は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。記憶部22には、制御部21に後述の音声処理(図6参照)を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、クラウドサーバ2が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部22に記憶されてもよい。また記憶部22には、音声処理装置1から受信する前記コマンド用キーワードのテキストデータなどが記憶される。
また、記憶部22には、コマンド情報D1が記憶される。図2には、コマンド情報D1の一例を示している。コマンド情報D1には、操作対象アプリケーション、音声コマンド、効果などの情報が互いに関連付けられて登録される。前記操作対象アプリケーションは、ユーザが表示装置3において操作を行うアプリケーションである。前記操作対象アプリケーションは、クラウドサーバ2において動作し、表示装置3に対する操作を受け付けてもよいし、表示装置3にインストールされて動作してもよい。本実施形態では、前記操作対象アプリケーションとして、ユーザの音声に応じた音声コマンドを実行する音声処理を開始、終了する「音声アプリケーション」と、各種資料をスライド形式で表示、編集可能な「Power Point」(登録商標)と、タッチペンなどによりタッチパネルに書き込み可能な「Pensoft」とが登録されている。
前記音声コマンドは、音声処理システム100において実行可能なコマンドであり、前記操作対象アプリケーションごとに登録されている。前記音声コマンドは、前記コマンド用キーワードに対応する。前記効果は、前記音声コマンドにより実行される動作内容を示す情報である。例えば、表示装置3に「Power Point」により資料の第1ページが表示されている場合に、ユーザが「Move to next page」の音声コマンド(コマンド用キーワード)を発話すると、音声処理システム100が当該音声コマンドを実行することにより、表示装置3に前記資料の第2ページが表示される。
なお、他の実施形態として、コマンド情報D1の情報の一部又は全部が、音声処理装置1及び表示装置3のいずれかに記憶されてもよいし、これら複数の装置に分散して記憶されてもよい。また、他の実施形態として、前記情報が音声処理システム100からアクセス可能なサーバに記憶されてもよい。この場合、音声処理システム100は、前記サーバから前記情報を取得して、後述の音声処理(図6参照)などの各処理を実行してもよい。
制御部21は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部21は、前記ROM又は記憶部22に予め記憶された各種の制御プログラムを前記CPUで実行することによりクラウドサーバ2を制御する。
図1に示すように、制御部21は、音声受信部211、コマンド特定部212、コマンド処理部213などの各種の処理部を含む。なお、制御部21は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部21に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。
音声受信部211は、音声処理装置1から送信される音声コマンドに対応する前記コマンド用キーワードを受信する。前記コマンド用キーワードは、音声処理装置1が受信する音声のテキストデータの冒頭に含まれる特定ワードに続くワード(テキストデータ)である。具体的には、音声処理装置1が、前記特定ワードを検出して前記コマンド用キーワードをクラウドサーバ2に送信すると、クラウドサーバ2が当該コマンド用キーワードを受信する。
コマンド特定部212は、音声受信部211により受信された前記コマンド用キーワードに基づいて音声コマンドを特定する。コマンド特定部212は、本発明のコマンド特定部212の一例である。例えば、コマンド特定部212は、コマンド情報D1(図2参照)を参照して、前記コマンド用キーワードに対応する音声コマンドを特定する。ユーザが前記操作対象アプリケーションに対して所定の音声コマンドに対応する前記コマンド用キーワードを発話した場合、コマンド特定部212は、前記コマンド用キーワードに基づいて前記操作対象アプリケーションに対する音声コマンド(本発明の第1コマンドに相当)を特定する。コマンド特定部212は、本発明のコマンド特定部の一例である。
本実施形態では、コマンド情報D1に、予め複数の前記音声コマンドが登録されており、コマンド情報D1の中から前記コマンド用キーワードに一致する前記音声コマンドを特定する構成としているが、音声コマンドの特定方法はこれに限定されない。例えば、コマンド特定部212は、前記コマンド用キーワードに含まれる所定の用語、前記コマンド用キーワード全体の文節、構文などに基づいて、ユーザの指示内容の意味を解釈して前記音声コマンドを特定してもよい。例えば、コマンド特定部212は、形態素解析、構文解析、意味解析、機械学習などの公知の手法を用いて前記コマンド用キーワードから前記音声コマンドを特定してもよい。
コマンド処理部213は、コマンド特定部212により特定される前記音声コマンドの情報を、表示装置3に対応するコマンド記憶領域(キュー)に記憶する。例えば、記憶部22には、表示装置3に対応する一又は複数のコマンド記憶領域が含まれる。ここでは、記憶部22に、表示装置3に対応するキューK1が含まれる。なお、音声処理システム100に複数の表示装置3が含まれる場合には、記憶部22に表示装置3ごとのキューが記憶されてもよい。
例えば、コマンド処理部213は、コマンド特定部212により特定された音声コマンド「Move to next page」の情報を、表示装置3に対応するキューK1に記憶する。
キューK1に記憶されたデータ(音声コマンド)は、キューK1に対応する表示装置3により取り出され、表示装置3が前記音声コマンドを実行する。
[表示装置3]
図2に示すように、表示装置3は、制御部31、記憶部32、操作部33、表示部34、通信インターフェース35などを備える。
操作部33は、表示装置3のユーザの操作を受け付けるマウス、キーボード、又はタッチパネルなどである。表示部34は、各種の情報を表示する液晶ディスプレイ又は有機ELディスプレイなどの表示パネルである。操作部33及び表示部34は、一体に形成されたユーザインターフェースであってもよい。
通信インターフェース35は、表示装置3を有線又は無線でネットワークN1に接続し、ネットワークN1を介して他の機器(例えば音声処理装置1、クラウドサーバ2)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。
記憶部32は、各種の情報を記憶するフラッシュメモリーなどの不揮発性の記憶部である。記憶部32には、制御部31に後述の音声処理(図6参照)を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、CD又はDVDなどのコンピュータ読取可能な記録媒体に非一時的に記録され、表示装置3が備えるCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部32に記憶されてもよい。
制御部31は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部31は、前記ROM又は記憶部32に予め記憶された各種の制御プログラムを前記CPUで実行することにより表示装置3を制御する。
具体的には、制御部31は、操作受付部311、表示処理部312、コマンド取得部313、コマンド実行部314、支援情報提示部315などの各種の処理部を含む。なお、制御部31は、前記CPUで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部31に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサを前記各種の処理部として機能させるためのプログラムであってもよい。
操作受付部311は、ユーザの各種操作を受け付ける。具体的には、操作受付部311は、ユーザの操作部33に対する操作を受け付ける。例えば、操作受付部311は、所定のアプリケーション(操作対象アプリケーションなど)を起動させる操作、前記操作対象アプリケーションにより動作する操作画面に対する操作、所定のファイルを開く操作などを受け付ける。また、操作受付部311は、ユーザから後述の操作支援情報の提示を要求する操作を受け付ける。
表示処理部312は、各種情報を表示部34に表示させる。例えば、表示処理部312は、ユーザの操作対象である前記操作対象アプリケーションの操作画面を表示部34に表示させる。図3及び図4には、表示部34に表示される前記操作画面の一例を示している。図3に示す例では、「音声アプリケーション」の操作対象アプリケーションAP1の操作画面と、「Power Point」の操作対象アプリケーションAP2の操作画面とが表示されている。また、図4に示す例では、操作対象アプリケーションAP1の操作画面と、操作対象アプリケーションAP2の操作画面と、「Pensoft」の操作対象アプリケーションAP3の操作画面とが表示されている。
また、操作対象アプリケーションAP1の操作画面には、表示可能な複数のファイルF1の一覧が表示されている。ユーザは、前記一覧から所望のファイルを音声などにより指定することができる。また、操作対象アプリケーションAP1の操作画面には、前記操作支援情報の提示を要求するための操作ボタンB1が表示されている。ユーザは、前記操作支援情報の提示を要求する場合に、操作ボタンB1を指、タッチペン、マウスなどにより選択(押下)する。
コマンド取得部313は、クラウドサーバ2のコマンド記憶領域(キューK1)に記憶された音声コマンドを取得する。具体的には、コマンド取得部313は、表示装置3に対応するキューK1を監視し、キューK1に音声コマンドが記憶されると当該音声コマンドを取得する。例えば、コマンド取得部313は、操作ボタンB1が押下された場合にキューK1に定期的(例えば5秒ごと)に問い合わせを行って音声コマンドを取得する。なお、クラウドサーバ2のコマンド処理部213が、前記音声コマンドに関するデータを、表示装置3に送信し、コマンド取得部313が当該音声コマンドを取得してもよい。
コマンド実行部314は、前記操作対象アプリケーションに対してクラウドサーバ2のコマンド特定部212により特定された前記音声コマンドを実行する。コマンド実行部314は、本発明のコマンド実行部の一例である。具体的には、コマンド実行部314は、コマンド取得部313により取得される前記音声コマンドを実行する。例えば、コマンド実行部314は、コマンド取得部313がキューK1から取得した音声コマンドを実行する。
例えば、表示装置3の表示部34に「Power Point」により資料の第1ページが表示されている場合に、ユーザが「Move to next page」の音声コマンド(コマンド用キーワード)を発話すると、コマンド実行部314は、コマンド取得部313がキューK1から取得した当該音声コマンドを実行する。これにより、表示装置3の表示部34に、前記資料の第2ページが表示される。
ここで、図3及び図4に示す各操作画面において、ユーザはいずれの前記操作対象アプリケーションの操作画面を音声コマンドにより操作可能であるか、また前記操作画面を操作可能な音声コマンドは何か、などを一見して把握することが困難である。
そこで、支援情報提示部315は、前記操作画面を操作するユーザに対して、ユーザ操作を支援する情報(操作支援情報)を提示する。具体的には、支援情報提示部315は、前記操作対象アプリケーションに対する前記操作支援情報を前記操作画面に対応付けて提示する。また、支援情報提示部315は、操作受付部311がユーザから前記操作支援情報の提示を要求する操作を受け付けた場合に、前記操作支援情報を提示してもよい。例えば、ユーザが図4に示す操作画面の操作ボタンB1を押下した場合に、支援情報提示部315が前記操作支援情報を提示してもよい。また例えば、ユーザが音声処理を開始する音声を発話し、クラウドサーバ2の音声受信部211が当該音声を受信した場合に、支援情報提示部315が、前記操作支援情報を提示してもよい。支援情報提示部315は、本発明の支援情報提示部の一例である。
図5には、前記操作支援情報を含む前記操作画面の一例を示している。なお、図5は、図4の操作画面に対応する前記操作支援情報を示している。支援情報提示部315は、前記操作対象アプリケーションに対する一又は複数のコマンドに対応する前記操作支援情報を前記操作画面に対応付けて提示する。例えば図5に示すように、支援情報提示部315は、「音声アプリケーション」の操作対象アプリケーションAP1に対する音声コマンドに対応する操作支援情報H1を、操作対象アプリケーションAP1の操作画面に対応付けて提示する。また、支援情報提示部315は、「Power Point」の操作対象アプリケーションAP2に対する音声コマンドに対応する操作支援情報H2を、操作対象アプリケーションAP2の操作画面に対応付けて提示する。また、支援情報提示部315は「Pensoft」の操作対象アプリケーションAP3に対する音声コマンドに対応する操作支援情報H3を、操作対象アプリケーションAP3の操作画面に対応付けて提示する。なお、操作支援情報H1、H2、H3のそれぞれは、吹き出しオブジェクト画像と前記音声コマンドのテキスト情報とにより構成される。支援情報提示部315は、各操作支援情報H1を、少なくとも一部が操作対象アプリケーションAP1の操作画面に重なるように表示させ、各操作支援情報H2を、少なくとも一部が操作対象アプリケーションAP2の操作画面に重なるように表示させ、各操作支援情報H3を、少なくとも一部が操作対象アプリケーションAP3の操作画面に重なるように表示させる。また、前記操作画面に対して複数の前記操作支援情報が存在する場合、支援情報提示部315は、複数の前記操作支援情報を並べて表示させる。
なお、ユーザが操作ボタンB1を再度押下すると、支援情報提示部315は、全ての操作支援情報を消去(非表示)してもよい。
この構成によれば、例えば、ユーザは、操作対象アプリケーションAP1、AP2、AP3の各操作画面を操作可能であることを一見して把握することでき、また各操作画面において実行可能な音声コマンドの種類(内容)を一見して把握することができる。
[音声処理]
以下、図6を参照しつつ、音声処理装置1の制御部11、クラウドサーバ2の制御部21、及び表示装置3の制御部31によって実行される音声処理の手順の一例について説明する。
なお、本発明は、前記音声処理に含まれる一又は複数のステップを実行する音声処理方法の発明として捉えることができる。また、ここで説明する前記音声処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部11、21、31によって前記音声処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、1又は複数のプロセッサによって前記音声処理における各ステップが分散して実行されてもよい。
ここでは、例えば、表示装置3の表示部34に図4に示す各操作画面が表示されており、ユーザが各操作対象アプリケーションの操作画面を音声により操作可能な状態であるものとする。
ステップS11において、制御部31は、表示装置3においてユーザが操作可能な前記操作対象アプリケーションが存在するか否かを判定する。前記操作対象アプリケーションが存在する場合(S11:Yes)、処理はステップS12に移行する。一方、前記操作対象アプリケーションが存在しない場合(S11:No)、処理はステップS14に移行する。例えば、図4に示すように、表示装置3に少なくとも一つの前記操作対象アプリケーションの操作画面が表示された場合に、制御部31は、前記操作対象アプリケーションが存在すると判定する。
ステップS12において、表示装置3の制御部31は、ユーザから前記操作支援情報の提示を要求する操作を受け付けたか否かを判定する。ユーザから前記操作支援情報の提示を要求する操作を受け付けた場合(S12:Yes)、処理はステップS13に移行する。一方、ユーザから前記操作支援情報の提示を要求する操作を受け付けない場合(S12:No)、処理はステップS14に移行する。例えば、図4に示す操作画面においてユーザが操作ボタンB1を押下した場合に、制御部31は、ユーザから前記操作支援情報の提示を要求する操作を受け付けたと判定する。なお、操作ボタンB1は、いずれかの前記操作対象アプリケーションの操作画面内に表示されてもよいし、前記操作対象アプリケーションの操作画面外に表示されてもよい。
ステップS13において、制御部31は、前記操作画面を操作するユーザに対して、ユーザ操作を支援する情報(操作支援情報)を提示する。具体的には、制御部31は、前記操作対象アプリケーションに対する前記操作支援情報を前記操作画面に対応付けて提示する。
例えば図5に示すように、制御部31は、「音声アプリケーション」の操作対象アプリケーションAP1に対する音声コマンドに対応する操作支援情報H1を、操作対象アプリケーションAP1の操作画面に対応付けて提示し、「Power Point」の操作対象アプリケーションAP2に対する音声コマンドに対応する操作支援情報H2を、操作対象アプリケーションAP2の操作画面に対応付けて提示し、「Pensoft」の操作対象アプリケーションAP3に対する音声コマンドに対応する操作支援情報H3を、操作対象アプリケーションAP3の操作画面に対応付けて提示する。ステップS13は、本発明の支援情報提示ステップの一例である。
ステップS14において、音声処理装置1の制御部11は、ユーザの音声を受信したか否かを判定する。制御部11が前記ユーザの音声を受信した場合(S14:Yes)、処理はステップS15に移行する。一方、制御部11が前記ユーザの音声を受信しない場合(S14:No)、処理はステップS11に戻る。ステップS14は、本発明の音声受信ステップの一例である。
ステップS15において、制御部11は、受信した前記音声に基づいて、当該音声に前記特定ワードが含まれるか否かを判定する。例えば、制御部11は、受信した前記音声を音声認識してテキストデータに変換し、当該テキストデータの冒頭に前記特定ワードが含まれるか否かを判定する。前記音声に前記特定ワードが含まれる場合(S15:Yes)、処理はステップS16に移行する。前記音声に前記特定ワードが含まれない場合(S15:No)、処理はステップS11に戻る。
ステップS16において、制御部11は、前記音声に含まれ、前記特定ワードに続くキーワード(コマンド用キーワード)のテキストデータを、クラウドサーバ2に送信する。
次にステップS17において、クラウドサーバ2の制御部21は、音声処理装置1から送信される前記コマンド用キーワードを受信して、前記コマンド用キーワードに基づいて音声コマンドを特定する。例えば、制御部21は、図2に示すコマンド情報D1を参照して、前記コマンド用キーワードに対応する音声コマンドを特定する。ステップS17は、本発明のコマンド特定ステップの一例である。
次にステップS18において、制御部11は、特定した前記音声コマンドの情報を、表示装置3に対応するキューK1に記憶する。
次にステップS19において、表示装置3の制御部31は、前記操作対象アプリケーションに対して特定された前記音声コマンドを実行する。具体的には、制御部31は、表示装置3に対応するキューK1から音声コマンドを取得して、当該音声コマンドを実行する。ステップS19は、本発明のコマンド実行ステップの一例である。以上のようにして、音声処理システム100は、前記音声処理を実行する。
上述のように、本実施形態に係る音声処理システム100は、ユーザの操作対象である操作対象アプリケーションの操作画面を表示させ、前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する。また、音声処理システム100は、前記ユーザの音声を受信し、前記音声に基づいて前記操作対象アプリケーションに対する第1コマンドを特定し、前記操作対象アプリケーションに対して前記第1コマンドを実行する。これにより、ユーザはいずれの操作画面を音声コマンドにより操作可能であるか、操作画面を操作可能な音声コマンドは何か、などを一見して把握することが可能となる。よって、音声コマンドによる操作の利便性を向上させることが可能となる。
本発明は上述の実施形態に限定されない。本発明の他の実施形態について以下に説明する。
ここで、表示装置3に同一の操作対象アプリケーションに対応する複数の操作画面が表示されている場合には、ユーザがいずれの操作画面に対して音声コマンドにより操作可能であるか、また操作画面を操作可能な音声コマンドは何か、などを一見して把握することが困難になる。例えば、図7に示すように、表示装置3に「Power Point」の操作対象アプリケーションAP2の操作画面が2つ表示されている場合に、ユーザはいずれの操作画面に対して音声コマンドにより操作可能であるか、また操作画面を操作可能な音声コマンドは何か、などを一見して把握することが困難になる。
そこで、他の実施形態に係る音声処理システム100では、表示装置3に同一の操作対象アプリケーションに対応する複数の操作画面が表示されている場合に、表示装置3の制御部31(支援情報提示部315)は、複数の前記操作画面を識別可能な画面識別情報を、それぞれの前記操作画面に対応付けて提示する。前記画面識別情報は、本発明の操作支援情報の一例である。例えば図8に示すように、制御部31は、一方の操作画面に赤枠の画面識別情報H21(図8では便宜上「太線」で示す。)を表示させ、他方の操作画面に青枠の画面識別情報H31(図8では便宜上「点線」で示す。)を表示させる。これにより、例えばユーザは、2つの操作画面のうち音声コマンドを実行させたい操作画面を、画面識別情報により識別することができ、また当該画面識別情報により指定することができる。例えば、ユーザが「Move to next page by red」の音声コマンド(コマンド用キーワード)を発話することにより、図中上側の操作画面が指定され、かつ当該操作画面に対する前記音声コマンドが特定されることにより、当該操作画面に表示された資料のページが次ページに捲られる。
なお、制御部31は、ユーザが例えば操作ボタンB1を押下した場合に、画面識別情報H21、H31を表示させる。
また、制御部31は、ユーザが例えば操作ボタンB1を押下した場合に、図9に示すように、画面識別情報H21、H31に加えて、吹き出しオブジェクト画像と前記音声コマンドのテキスト情報とにより構成される操作支援情報H1、H2、H3を表示させてもよい。
また、前記画面識別情報は、色に対応する識別情報に限定されず、図10及び図11に示すように、番号に対応する識別情報であってもよい。この場合、例えばユーザは、「Move to next page by two」の音声コマンド(コマンド用キーワード)を発話した場合に、図中下側の操作画面が指定され、かつ当該操作画面に対する前記音声コマンドが特定される。また、前記画面識別情報は、操作画面の位置(上側、下側、左側、右側など)、外枠の線種、線幅に対応する識別情報であってもよい。
また、他の実施形態として、表示装置3の制御部31(支援情報提示部315)は、一又は複数の音声コマンドのうちコマンド実行部314が現時点で実行可能な音声コマンドに対応するテキスト情報(操作支援情報)を識別可能に操作画面に対応付けて提示してもよい。例えば、図12に示す例では、「Power Point」の操作対象アプリケーションAP2の操作画面に資料の最終ページが表示されている場合には、次ページが存在しないため、コマンド実行部314は「Move to next page」の音声コマンドを実行することができない。また、支援情報提示部315は、「Move to next page」の音声コマンドに対応する操作支援情報H2を削除(非表示)し、現時点で実行可能な音声コマンドに対応する操作支援情報H2のみを提示する。
また、図12において、「Excel」の操作対象アプリケーションAP3の操作画面において実行可能な音声コマンドが存在しない場合には、支援情報提示部315は、操作対象アプリケーションAP3の操作画面に対する音声コマンドを受け付けないことを示す操作支援情報H33を提示してもよい。
また、他の実施形態として、表示装置3の制御部31(支援情報提示部315)は、一又は複数の音声コマンドのうち、使用頻度が所定頻度以上である音声コマンドに対応する操作支援情報のみを識別可能に操作画面に対応付けて提示してもよい。また、支援情報提示部315は、一又は複数の音声コマンドのうち、使用頻度が高い順に上位の所定数(例えば5個)の音声コマンドに対応する操作支援情報のみを識別可能に操作画面に対応付けて提示してもよい。
また、他の実施形態として、表示装置3の制御部31(支援情報提示部315)は、図5に示す複数の操作支援情報において、ユーザが次に操作可能な音声コマンド、ユーザが次に操作不可能な音声コマンド、ユーザが操作する可能性のある音声コマンドなどに対応する操作支援情報を識別可能に操作画面に対応付けて提示してもよい。例えば、支援情報提示部315は、「Power Point」の操作対象アプリケーションAP2の操作画面において、次に操作可能な「Move to next page」の音声コマンドに対応する操作支援情報H2を点滅表示させ、次に操作不可能な「Move to previous page」の音声コマンドに対応する操作支援情報H2をグレーアウト表示させる。このように、ユーザに次の操作内容の候補を提案してもよい。
また、他の実施形態として、表示装置3の制御部31(支援情報提示部315)は、前記操作支援情報を、操作対象位置に対応付けて表示させてもよい。例えば、操作対象アプリケーションAP2の操作画面にページを進める操作ボタン(オブジェクト画像)が表示される場合に、支援情報提示部315は、前記操作支援情報の吹き出しオブジェクト画像の一部(吹き出し部)が、当該操作ボタンに重なるように表示させる。これにより、ユーザは、操作したい内容に応じたコマンド用キーワード(コマンド音声)を容易に把握することができる。
本発明の音声処理システムは、テレビ会議システムに適用することができる。例えば、音声処理システム100は、第1会議室に配置される第1音声処理装置1及び第1表示装置3と、第2会議室に配置される第2音声処理装置1及び第2表示装置3とを含んで構成される。第1音声処理装置1及び第1表示装置3と、第2音声処理装置1及び第2表示装置3と、クラウドサーバ2とが、ネットワークN1を介して互いに接続されることにより、第1会議室及び第2会議室におけるテレビ会議が実現される。前記テレビ会議において、例えば、第1表示装置3の表示処理部312は、「Power Point」の操作対象アプリケーションAP2の操作画面を2つ表示させる(図8等参照)。また、第2表示装置3の表示処理部312は、第1表示装置3と同様の操作画面、すなわち「Power Point」の操作対象アプリケーションAP2の操作画面を2つ表示させる。この場合に、第1表示装置3の支援情報提示部315は、第1表示装置3において、前記2つの操作画面を識別可能な画面識別情報H21、H31をそれぞれの操作画面に対応付けて表示させる。同様に、第2表示装置3の支援情報提示部315は、第2表示装置3において、前記2つの操作画面を識別可能な画面識別情報H21、H31をそれぞれの操作画面に対応付けて表示させる。このように、テレビ会議システムを構成する複数の表示装置3のそれぞれは、上述した制御部31による各処理を実行する。これにより、テレビ会議に参加する各ユーザの音声コマンドによる操作の利便性を向上させることが可能となる。
尚、本発明の音声処理システムは、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。
1 :音声処理装置
2 :クラウドサーバ
3 :表示装置
100 :音声処理システム
111 :音声受信部
112 :音声判定部
113 :音声送信部
211 :音声受信部
212 :コマンド特定部
213 :コマンド処理部
311 :操作受付部
312 :表示処理部
313 :コマンド取得部
314 :コマンド実行部
315 :支援情報提示部
AP1 :操作対象アプリケーション
AP2 :操作対象アプリケーション
AP3 :操作対象アプリケーション
B1 :操作ボタン
H1 :操作支援情報
H2 :操作支援情報
H3 :操作支援情報

Claims (11)

  1. ユーザの音声に基づいて所定のコマンドを実行する音声処理システムであって、
    前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示処理部と、
    前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示部と、
    前記ユーザの音声を受信する音声受信部と、
    前記音声受信部より受信される前記音声に基づいて前記操作対象アプリケーションに対する第1コマンドを特定するコマンド特定部と、
    前記操作対象アプリケーションに対して前記コマンド特定部により特定される前記第1コマンドを実行するコマンド実行部と、
    を備える音声処理システム。
  2. 前記支援情報提示部は、前記操作対象アプリケーションに対する一又は複数のコマンドに対応する前記操作支援情報を前記操作画面に対応付けて提示し、
    前記コマンド特定部は、前記一又は複数のコマンドのうち、前記音声受信部より受信される前記音声に基づいて前記第1コマンドを特定し、
    前記コマンド実行部は、前記コマンド特定部により特定される前記第1コマンドを実行する、
    請求項1に記載の音声処理システム。
  3. 前記支援情報提示部は、前記一又は複数のコマンドのそれぞれに対応する一又は複数の特定ワードのテキスト情報を、前記操作画面に対応付けて提示する、
    請求項2に記載の音声処理システム。
  4. 前記支援情報提示部は、前記一又は複数のコマンドのうち前記コマンド実行部が現時点で実行可能なコマンドに対応する前記テキスト情報を識別可能に前記操作画面に対応付けて提示する、
    請求項3に記載の音声処理システム。
  5. 前記支援情報提示部は、前記一又は複数のコマンドのうち前記コマンド実行部が現時点で実行可能なコマンドに対応する前記テキスト情報のみを前記操作画面に対応付けて提示する、
    請求項4に記載の音声処理システム。
  6. 前記表示処理部が、同一の前記操作対象アプリケーションに対応する複数の前記操作画面を表示させる場合において、
    前記支援情報提示部は、複数の前記操作画面を識別可能な画面識別情報を、それぞれの前記操作画面に対応付けて提示する、
    請求項2から請求項5のいずれか1項に記載の音声処理システム。
  7. 前記表示処理部は、同一の前記操作対象アプリケーションに対応する複数の前記操作画面を、ネットワークを介して互いに通信可能に接続された第1表示装置及び第2表示装置のそれぞれに表示させ、
    前記支援情報提示部は、前記第1表示装置及び前記第2表示装置のそれぞれにおいて、複数の前記操作画面を識別可能な画面識別情報を、それぞれの前記操作画面に対応付けて提示する、
    請求項2から請求項5のいずれか1項に記載の音声処理システム。
  8. 前記ユーザの所定の操作を受け付ける操作受付部をさらに備え、
    前記支援情報提示部は、前記操作受付部が前記ユーザから前記操作支援情報の提示を要求する操作を受け付けた場合に、前記操作支援情報を提示する、
    請求項2から請求項7のいずれか1項に記載の音声処理システム。
  9. 前記支援情報提示部は、前記音声受信部より前記ユーザの音声が受信された場合に、前記操作支援情報を提示する、
    請求項2から請求項7のいずれか1項に記載の音声処理システム。
  10. ユーザの音声に基づいて所定のコマンドを実行する音声処理方法であって、
    前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示ステップと、
    前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示ステップと、
    前記ユーザの音声を受信する音声受信ステップと、
    前記音声受信ステップより受信される前記音声に基づいて前記操作対象アプリケーションに対する第1コマンドを特定するコマンド特定ステップと、
    前記操作対象アプリケーションに対して前記コマンド特定ステップにより特定される前記第1コマンドを実行するコマンド実行ステップと、
    一又は複数のプロセッサが実行する音声処理方法。
  11. ユーザの音声に基づいて所定のコマンドを実行する音声処理プログラムであって、
    前記ユーザの操作対象である操作対象アプリケーションの操作画面を表示させる表示ステップと、
    前記操作対象アプリケーションに対する操作支援情報を前記操作画面に対応付けて提示する支援情報提示ステップと、
    前記ユーザの音声を受信する音声受信ステップと、
    前記音声受信ステップより受信される前記音声に基づいて前記操作対象アプリケーションに対する第1コマンドを特定するコマンド特定ステップと、
    前記操作対象アプリケーションに対して前記コマンド特定ステップにより特定される前記第1コマンドを実行するコマンド実行ステップと、
    を一又は複数のプロセッサにより実行させるための音声処理プログラム。
JP2020150854A 2020-09-08 2020-09-08 音声処理システム、音声処理方法、及び音声処理プログラム Pending JP2022045262A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020150854A JP2022045262A (ja) 2020-09-08 2020-09-08 音声処理システム、音声処理方法、及び音声処理プログラム
CN202110977193.6A CN114155847A (zh) 2020-09-08 2021-08-24 声音处理系统以及声音处理方法
US17/462,502 US20220075592A1 (en) 2020-09-08 2021-08-31 Voice processing system, voice processing method and recording medium recording voice processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020150854A JP2022045262A (ja) 2020-09-08 2020-09-08 音声処理システム、音声処理方法、及び音声処理プログラム

Publications (1)

Publication Number Publication Date
JP2022045262A true JP2022045262A (ja) 2022-03-18

Family

ID=80460683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020150854A Pending JP2022045262A (ja) 2020-09-08 2020-09-08 音声処理システム、音声処理方法、及び音声処理プログラム

Country Status (3)

Country Link
US (1) US20220075592A1 (ja)
JP (1) JP2022045262A (ja)
CN (1) CN114155847A (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149528A (ja) * 1992-10-30 1994-05-27 Oki Electric Ind Co Ltd ウィンドウ管理方法
JPH07200235A (ja) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd マルチウィンドウ表示制御装置
JPH09200352A (ja) * 1996-01-18 1997-07-31 Canon Inc テレビ会議システム
US20050114140A1 (en) * 2003-11-26 2005-05-26 Brackett Charles C. Method and apparatus for contextual voice cues
US20120110456A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Integrated voice command modal user interface
JP2013143151A (ja) * 2012-01-11 2013-07-22 Samsung Electronics Co Ltd 音声認識を使用してユーザ機能を行う方法及び装置
JP2016508271A (ja) * 2013-01-04 2016-03-17 コピン コーポレーション 制御可能なヘッドセットコンピュータディスプレイ
JP2016519351A (ja) * 2013-03-15 2016-06-30 グーグル インコーポレイテッド ユーザ通知及び制御のためのタブレベルでの音声管理
JP2017033291A (ja) * 2015-07-31 2017-02-09 キヤノン株式会社 情報処理装置及びその制御方法、情報処理システム、コンピュータプログラム
JP2020047020A (ja) * 2018-09-20 2020-03-26 Dynabook株式会社 電子機器、音声認識方法及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5897618A (en) * 1997-03-10 1999-04-27 International Business Machines Corporation Data processing system and method for switching between programs having a same title using a voice command
US6906741B2 (en) * 2002-01-29 2005-06-14 Palm, Inc. System for and method of conferencing with a handheld computer using multiple media types
US20040260438A1 (en) * 2003-06-17 2004-12-23 Chernetsky Victor V. Synchronous voice user interface/graphical user interface
US10013976B2 (en) * 2010-09-20 2018-07-03 Kopin Corporation Context sensitive overlays in voice controlled headset computer displays
US20140372892A1 (en) * 2013-06-18 2014-12-18 Microsoft Corporation On-demand interface registration with a voice control system
US11132174B2 (en) * 2019-03-15 2021-09-28 Adobe Inc. Facilitating discovery of verbal commands using multimodal interfaces

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149528A (ja) * 1992-10-30 1994-05-27 Oki Electric Ind Co Ltd ウィンドウ管理方法
JPH07200235A (ja) * 1993-12-28 1995-08-04 Matsushita Electric Ind Co Ltd マルチウィンドウ表示制御装置
JPH09200352A (ja) * 1996-01-18 1997-07-31 Canon Inc テレビ会議システム
US20050114140A1 (en) * 2003-11-26 2005-05-26 Brackett Charles C. Method and apparatus for contextual voice cues
US20120110456A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Integrated voice command modal user interface
JP2013143151A (ja) * 2012-01-11 2013-07-22 Samsung Electronics Co Ltd 音声認識を使用してユーザ機能を行う方法及び装置
JP2016508271A (ja) * 2013-01-04 2016-03-17 コピン コーポレーション 制御可能なヘッドセットコンピュータディスプレイ
JP2016519351A (ja) * 2013-03-15 2016-06-30 グーグル インコーポレイテッド ユーザ通知及び制御のためのタブレベルでの音声管理
JP2017033291A (ja) * 2015-07-31 2017-02-09 キヤノン株式会社 情報処理装置及びその制御方法、情報処理システム、コンピュータプログラム
JP2020047020A (ja) * 2018-09-20 2020-03-26 Dynabook株式会社 電子機器、音声認識方法及びプログラム

Also Published As

Publication number Publication date
US20220075592A1 (en) 2022-03-10
CN114155847A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
US10218939B2 (en) Methods and systems for employing virtual support representatives in connection with mutli-pane video communications
US20180232203A1 (en) Method for user training of information dialogue system
EP3214542A1 (en) Voice control of interactive whiteboard appliances
JP5653392B2 (ja) 音声翻訳装置、方法およびプログラム
US20160328205A1 (en) Method and Apparatus for Voice Operation of Mobile Applications Having Unnamed View Elements
JP4942970B2 (ja) 音声認識における動詞誤りの回復
US8600763B2 (en) System-initiated speech interaction
US9691381B2 (en) Voice command recognition method and related electronic device and computer-readable medium
US20130033649A1 (en) Method for controlling electronic apparatus based on motion recognition, and electronic apparatus applying the same
US20130035942A1 (en) Electronic apparatus and method for providing user interface thereof
US9335965B2 (en) System and method for excerpt creation by designating a text segment using speech
JP2002169588A (ja) テキスト表示装置、テキスト表示制御方法、記憶媒体、プログラム伝送装置及び応対支援方法
JP2013143151A (ja) 音声認識を使用してユーザ機能を行う方法及び装置
JP2016502302A (ja) 音声によるバックグラウンド制御方法、移動体端末、及び非一時的なコンピュータ読み取り可能な記憶媒体
EP3602330B1 (en) Automatically generating documents
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
US11922929B2 (en) Presentation support system
JP7200533B2 (ja) 情報処理装置およびプログラム
US10810273B2 (en) Auto identification and mapping of functional attributes from visual representation
JP2022045262A (ja) 音声処理システム、音声処理方法、及び音声処理プログラム
US20130179165A1 (en) Dynamic presentation aid
KR20140111574A (ko) 오디오 명령에 따른 동작을 수행하는 장치 및 방법
US20210287672A1 (en) Voice processing system, voice processing method, and storage medium storing voice processing program
JP2009258914A (ja) 情報処理装置及びプログラム、情報処理システム
US7970617B2 (en) Image processing apparatus and image processing method with speech registration

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240416