JP2020140473A - 情報処理装置、音声認識方法、及び音声認識プログラム - Google Patents

情報処理装置、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JP2020140473A
JP2020140473A JP2019035809A JP2019035809A JP2020140473A JP 2020140473 A JP2020140473 A JP 2020140473A JP 2019035809 A JP2019035809 A JP 2019035809A JP 2019035809 A JP2019035809 A JP 2019035809A JP 2020140473 A JP2020140473 A JP 2020140473A
Authority
JP
Japan
Prior art keywords
voice
event
command
information processing
occurred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019035809A
Other languages
English (en)
Inventor
▲強▼ 要
Tsutomu Kaname
▲強▼ 要
良太 野村
Ryota Nomura
良太 野村
磊 馬
Lei Ma
磊 馬
泰史 塚本
Yasushi Tsukamoto
泰史 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Priority to JP2019035809A priority Critical patent/JP2020140473A/ja
Publication of JP2020140473A publication Critical patent/JP2020140473A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】情報処理装置に対する音声指示を円滑に行うことのできる情報処理装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。【解決手段】情報処理装置1は、所定のイベントが発生したか否かを判定する判定部31と、イベントが発生したと判定された場合に、音声の入力を受け付ける音声受付部32と、イベント毎に予め設定されたコマンドリストの中から、発生したと判定されたイベントに対応するコマンドリストを選択するリスト選択部33と、音声受付部32において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、コマンドに対応する処理を実行する実行部34とを備える。【選択図】図3

Description

本発明は、情報処理装置、音声認識方法、及び音声認識プログラムに関するものである。
Alexa(登録商標)やSiri(登録商標)等の音声アシスタントを搭載した情報処理装置においては、ユーザの発した所定の音声をトリガとして音声アシスタントを起動し、音声認識を開始している。例えば、Alexa(登録商標)においては、音声「Alexa」をトリガとしている。
米国特許出願公開第2014/0222436号明細書 米国特許出願公開第2018/0025725号明細書 米国特許出願公開第2013/0304479号明細書
このように、所定の音声をトリガとする場合には、ユーザは、音声により情報処理装置を操作する際に逐一所定の音声を発しなければならない。すなわち、音声による操作を開始する際にひと手間を要し、処理に係る円滑性が損なわれてしまっていた。
本発明は、このような事情に鑑みてなされたものであって、情報処理装置に対する音声指示を円滑に行うことのできる情報処理装置、音声認識方法、及び音声認識プログラムを提供することを目的とする。
本発明の第一態様は、所定のイベントが発生したか否かを判定する判定部と、前記イベントが発生したと判定された場合に、音声の入力を受け付ける音声受付部と、前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択部と、前記音声受付部において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行部と、を備えた情報処理装置である。
本発明の第二態様は、所定のイベントが発生したか否かを判定する判定工程と、前記イベントが発生したと判定された場合に、音声の入力を受け付ける音声受付工程と、前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択工程と、前記音声受付工程において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行工程と、をコンピュータが実行する音声認識方法である。
本発明の第三態様は、所定のイベントが発生したか否かを判定する判定処理と、前記イベントが発生したと判定された場合に、音声の入力を受け付ける音声受付処理と、前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択処理と、前記音声受付処理において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行処理と、をコンピュータに実行させるための音声認識プログラムである。
本発明によれば、情報処理装置に対する音声指示を円滑に行うことができるという効果を奏する。
本発明の一実施形態に係る情報処理装置の概略外観図である。 本発明の一実施形態に係る情報処理装置のハードウェア構成について示した図である。 本発明の一実施形態に係る情報処理装置が備える機能の一例を示した機能ブロック図である。 本発明の一実施形態に係る情報処理装置におけるコマンドリストの例を示す図である。 本発明の一実施形態に係る情報処理装置におけるイベントとコマンドリストとの対応を例示した図である。 本発明の一実施形態に係る情報処理装置における音声認識処理のフローチャートを示した図である。 本発明の一実施形態に係る情報処理装置における音声認識処理のフローチャートを示した図である。 本発明の一実施形態に係る情報処理装置における音声認識処理のフローチャートを示した図である。 本発明の一実施形態に係る情報処理装置における音声処理のフローチャートを示した図である。 本発明の一実施形態に係る情報処理装置における音声認識処理の具体例フローチャートを示した図である。 本発明の一実施形態に係る情報処理装置が備える機能の一例を示した機能ブロック図である。 本発明の一実施形態に係る情報処理装置における音声処理のフローチャートを示した図である。
以下に、本発明に係る情報処理装置、音声認識方法、及び音声認識プログラムの一実施形態について、図面を参照して説明する。本実施形態では、情報処理装置1として、ノートPCを例示した場合について説明する。情報処理装置1としては、ノートPCに限られず、例えば、デスクトップ型PC、タブレット、折り畳み式タブレット、スマートフォン等の情報処理端末等であってもよい。
図1は、本発明の一実施形態に係る情報処理装置1の概略外観図である。
情報処理装置1は、図1に示すように、一例として、いずれも略直方体である本体側筐体2及びディスプレイ側筐体3を備える。
本体側筐体2は、入力部4を備える。入力部4は、使用者が入力操作を行うための使用者インターフェースであり、文字、コマンド等を入力する各種キーより構成されるキーボードや、画面上のカーソルを移動させたり、各種メニューを選択するタッチパッド等を備えている。
ディスプレイ側筐体3は、画像を表示する表示部5を備える。本実施形態において、表示部5は、LCD(Liquid Crystal Display)を例示するが、LCDに限らず有機EL(Electroluminescence)ディスプレイ等の他の表示機器、又はタッチパネルとされてもよい。LCDは、入力される表示データをビデオ信号に変換し、変換したビデオ信号に応じた各種情報を表示画面に表示する。
また、ディスプレイ側筐体3は、画像を取得するためのカメラ7及び光源8を備える。カメラ7は、ディスプレイ側筐体3においてLCDの表示面側でその上方の略中央に配置され、前方の被写体(例えば、利用者の顔)を撮像可能とされている。光源8はディスプレイ側筐体3においてLCDの表示面側でその上方の略中央に配置され、前方の被写体に対して、カメラ7の撮影に係る補助光を発する。
本体側筐体2及びディスプレイ側筐体3は、それぞれの端部で左右の一対の連結部6によって連結されている。連結部6は、ヒンジであり、本体側筐体2及びディスプレイ側筐体3を開閉自在に支持している。
図2は、本発明の一実施形態に係る情報処理装置1の概略構成を示す機能ブロック図である。情報処理装置1は、例えば、CPU(Central Processing Unit)21と、メインメモリ22と、記憶部23と、表示部5と、入力部4と、通信部26と、カメラ7と、光源8とを備えている。これら各部は直接的にまたはバス28を介して間接的に相互に接続されており互いに連携して各種処理を実行する。
CPU21は、例えば、バス28を介して接続された記憶部23に格納されたOS(Operating System)により情報処理装置1全体の制御を行うとともに、記憶部23に格納された各種プログラムを実行することにより各種処理を実行する。
メインメモリ22は、キャッシュメモリ、RAM(Random Access Memory)等の書き込み可能なメモリで構成される。メインメモリ22は、CPU21の実行プログラムの読み出し、実行プログラムによる処理データの書き込み等を行う作業領域として利用される。
記憶部23は、例えば、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等であり、例えば、Windows(登録商標)、iOS(登録商標)、Android(登録商標)等の情報処理装置1全体の制御を行うためのOS、周辺機器類をハードウェア操作するための各種ドライバ、特定業務に向けられたアプリケーション、及び各種データやファイル等を格納する。また、記憶部23には、各種処理を実現するためのプログラムや、各種処理を実現するために必要とされる各種データが格納されている。
表示部5は、例えば、LCDであり、CPU21の制御に従って表示を行う。
入力部4は、例えば、キーボード、マウス等であり、使用者が入力操作を行うのに使用される。
通信部26は、ネットワークに接続して他の情報処理装置1と通信を行い情報の送受信を行うためのインターフェースである。
カメラ(撮像部)7は、レンズやレンズ駆動部、イメージセンサを有している。レンズは、被写体からの光を取り込み、イメージセンサに被写体像を結像させる。イメージセンサは、レンズにより取り込まれた光を信号電荷に変換し、被写体像を撮像する。イメージセンサでは、例えば、赤(R)、緑(G)、青(B)の信号値をベイヤー配列に対応する順序で取り込むことによりアナログ画像信号を生成し、得られた画像信号をアナログ方式からデジタル方式へ変換し、ISPへ出力する。ISPは、イメージセンサからの画像信号の信号処理(画像処理)を実施する。ISPは、例えば、カメラ7(イメージセンサ)から入力されたRAW画像(カメラ画像)について、自動露出調整、自動ホワイトバランス調整、マトリクス処理、輪郭強調、輝度圧縮、ガンマ処理等の各種処理を行う。
光源8は、カメラ7による撮影に係る補助光を発し、CPU21によって制御される。
図3は、情報処理装置1が備える機能の一例を示した機能ブロック図である。図3に示すように、情報処理装置1は、判定部31と、音声受付部32と、リスト選択部33と、実行部34とを主な構成として備えている。本実施形態では、これら各部によって実現される後述の各種処理は、例えば、CPU21において実行される。
判定部31は、所定のイベントが発生したか否かを判定する。所定のイベントは、所定のシステムイベント及び所定のユーザオペレーションの少なくともいずれか一方である。本実施形態では、判定部31は、所定のイベントとしてシステムイベント及びユーザオペレーションの両方を用いる場合について説明するが、いずれか一方を用いる場合についても同様に適用できる。
システムイベントとは、システム側において自動的に発生したイベントであり、予め設定されているものである。例えば、システムイベントは、メールを受信したことや、アップデート通知を受信したこと、ウイルススキャン通知を受信したことなどである。なお、システムイベントは、システム側において自動的に発生したイベントであれば上記例示に限定されず、さまざまなイベントを予め設定することが可能である。
ユーザオペレーションとは、ユーザの操作に起因して発生したイベントであり、予め設定されているものである。例えば、ユーザオペレーションは、ファイルが選択されたことや、特定のアプリケーションが起動されたことなどである。なお、ユーザオペレーションは、ユーザの操作に起因して発生したイベントであれば上記例示に限定されず、さまざまなイベントを予め設定することが可能である。
判定部31では、予め設定されたシステムイベントまたは予め設定されたユーザオペレーションがイベントとして発生したか否かを判定する。例えば、システムイベントとしてメールを受信したことが設定されている場合には、判定部31は、メールが受信された場合に所定のイベントが発生したと判定する。イベントが発生したか否かは、後述する実行部34へ出力される。
音声受付部32は、イベントが発生したと判定された場合に、音声の入力を受け付ける。具体的には、音声受付部32は、所定のイベントが発生したと判定された場合に、所定の有効時間が経過するまで音声の入力を受け付ける。音声は、例えば情報処理装置1に設けられた集音部(マイク)によって取得されたユーザの音声データである。有効時間とは、イベントに対してユーザの音声指示が入力可能なように予め設定された時間である。有効時間は、例えば、予め設定したイベントにおいて推定される最も長い音声指示が入力可能なように設定される。イベントの発生に応じて音声の入力を受け付けるため、イベント発生前においては集音機能をオフしておくこともでき、省電力化や、プライバシーを保護することが可能となる。
イベントが発生したと判定された場合、音声受付部32は、音声の入力を受け付けるための準備を行う。具体的には、音声受付部32は、情報処理装置1に音声指示を行うユーザが存在するか否かを判定する。ユーザが存在するか否かとは、情報処理装置1に対して音声指示を可能な位置(具体的には、情報処理装置1の前)にユーザがいるか否かである。該判定は、例えば、情報処理装置1が備えるカメラ7によって、情報処理装置1の前にユーザがいるか否かが判定される。なお、情報処理装置1に対して音声指示を可能な位置にユーザがいるか否かを判定することができれば、上記判定方法に限定されない。ユーザが存在するか否かを判定することによって、より確実に音声の入力を受け付けることが可能となる。
また、音声受付部32は、マイクがオン状態(アンミュート状態)となっているか否かを判定する。オン状態とは、マイクにより集音可能な状態である。そして、マイクがオン状態となっていない場合(ミュート状態)には、マイクをオン状態に切り替える。このように、音声を受け付ける前の準備として、マイクを確実にオン状態とできるため、より確実に音声の入力を受け付けることが可能となる。
そして、音声受付部32では、情報処理装置1に音声指示を行うユーザが存在していると判定され、マイクがオン状態となっている場合に、音声の受け付けを開始する。なお、音声受付部32は、イベントが発生したと判定された場合に、直ちに音声の受け付けを開始することとしてもよいし、ユーザの存在の確認及びマイクのオン状態の確認のいずれかを行い、その後音声の受け付けを開始することとしてもよい。
音声受付部32では、音声の受付を開始する場合に、所定の有効時間に設定されたタイムアウトカウンタを開始する。すなわち、有効時間が経過するまで(タイムアップするまで)音声の入力を受け付ける。音声受付部32は、マイクがオン状態となっていない場合には、有効時間の間だけマイクをオン状態に切り替える。受け付けた音声は、APIにより自然言語処理(Natural Language Processing)を行い、テキストコマンド化する。テキストコマンド化とは、音声データをアプリケーションによる処理の実行が可能なように形成された文字列として表現することである。すなわち、有効時間内において受け付けた音声は、情報処置装置において処理可能なように、テキストコマンド化される。
音声がテキストコマンド化されると、後述する実行部34に出力される。
なお、音声受付部32は、所定のイベントに応じて有効時間を設定することとしてもよい。具体的には、音声受付部32は、予め設定されたイベント毎に有効時間が予め設定されており、発生したイベントに応じて有効時間を設定する。有効時間は、発生後において音声指示に時間を要すると推定されるイベントほど、長く設定されていることが好ましい。例えば、メールを受信したとのイベントに対して有効時間T1が設定されており、システムのアップデート通知を受信したとのイベントに対して有効時間T2が設定されており、アップデート通知を受信したとのイベントの方がユーザによる音声指示に時間を要すると推定される場合には、T2>T1と設定される。このように、イベントに応じて音声を受け付ける有効時間の長さを設定することとすることで、有効時間を最適化することができる。有効時間を最適化することができるため、音声の受け付けにかかる処理負担を軽減することが可能となる。
リスト選択部33は、イベント毎に予め設定されたコマンドリストの中から、発生したと判定されたイベントに対応するコマンドリストを選択する。コマンドリストは、イベントに対応して予め設けられており、少なくとも1つのコマンドが含まれている。コマンドとは、イベント毎に設けられており、ユーザが音声により操作可能な処理に対応したコマンドである。すなわち、コマンドリストには、イベントに対してユーザが音声により操作可能な処理に対応したコマンドが予め設定されている。リスト選択部33では、発生したイベントに対応して適切に処理が実行できるように、発生したイベントに対応するコマンドリストを選択する。選択されたコマンドリストは、後述する実行部34において使用される。
図4は、コマンドリストの例を示すイメージ図である。図4では、「メールを受信した」ことをイベントとして、対応するコマンドをリスト化している。コマンドは、イベントに対して予め想定される音声指示に対応している。このため、図4の例においては、「メールをチェックして」、「無視して」、「XXXに電話をかけて」、及び「XXXへメッセージを送って」がコマンドとして設定されている。
図5は、イベントとコマンドリストとの対応を例示した図である。図5では、3種類のイベントが設定されている場合を例示している。具体的には、イベントE1「アップデート通知を受信した」こと、イベントE2「ウイルススキャン通知を受信した」こと、イベントE3「メールを受信した」ことの3種類である。それぞれのイベントに対応して、コマンドリストが設定されている。
具体的には、イベントE1に対応したコマンドリストL1には、「PCを再起動して」と、「終了して」と、「あとで再通知して」とがコマンドとして設定されている。イベントE2に対応したコマンドリストL2には、「必要な領域をスキャンして」と、「ディスクの全領域をスキャンして」と、「無視して」とがコマンドとして設定されている。イベントE3に対応したコマンドリストL3には、図4と同様に、「メールをチェックして」と、「無視して」と、「XXXに電話をかけて」と、「XXXへメッセージを送って」とがコマンドとして設定されている。リスト選択部33では、発生したイベントに応じて、適切なコマンドリストが選択される。
実行部34は、音声受付部32において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、コマンドに対応する処理を実行する。すなわち、実行部34では、音声受付部32において受け付けた音声(テキストコマンド)と、リスト選択部33において選択されたコマンドリストのコマンドとを対比し、対応するコマンドがある場合に、該コマンドの処理を実行する。
図4のようなコマンドリストが選択されている場合には、コマンドのいずれか1つに対応した音声が入力された場合に、対応するコマンドの処理が実行される。具体的には、メールを受信したとのイベントが発生した後、有効時間内において「メールをチェックして」の音声が入力された場合には、コマンド「メールをチェックして」に対応した処理が実行される(例えば、受信したメールの内容が情報処理装置1に表示される)。
図5のように、それぞれのコマンドリストには、音声エンジン(例えば、音声エンジンA、音声エンジンB、音声エンジンC、音声エンジンD)が対応づけられている。すなわち、イベントと、コマンドリストと、音声エンジンとが予め対応づけられている。音声エンジンは、コマンドリストにより実行される処理内容(処理の複雑性)に応じて適切なものが対応づけられている。例えば、音声エンジンBは、イベントに対応した容易な処理を実行する。音声エンジンCは、イベントに対応して、より詳細な処理を行う。音声エンジンDは、イベントに対応して、他のアプリケーションと連動して処理を行う。すなわち、音声エンジンDほど高度な処理を実行可能となる。
図5のように、イベントE1が発生した場合には、コマンドリストL1を用いて、音声エンジンBによって処理が実行される。このように、処理内容に応じて適当な音声エンジンを用いて処理が実行できるため、処理の効率化ができる。なお、一部の音声エンジン(例えば音声エンジンB)はローカルでのみ実行できるのに対し、一部の音声エンジン(例えば音声エンジンD)は、クラウドからの接続が可能としてもよい。これにより、高効率化とプライバシー保護の強化を行うことが可能となります。
なお、図5の例では、複数の音声エンジンを使い分ける場合を例示して説明したが、複数のイベントに対して1つの音声エンジンを共有することとしてもよい。
次に、本実施形態に係る情報処理装置1によって実行される音声認識処理について説明する。図6−8は、本実施形態に係る情報処理装置1によって行われる音声認識処理を示すフローチャートである。図6−8に示した処理フローは、情報処理装置1が起動している場合において、所定の制御周期で繰り返し実行される。なお、図6−8では、F1、F2、及びF3のフローが関連して処理を行う場合である。図6のF1は、所定の音声トリガを用いて音声認識を行う処理であり、図7のF2は、システムイベントに基づいて音声認識を行う処理であり、図8のF3は、ユーザオペレーションに基づいて音声認識を行う処理である。なお、F2及びF3については、いずれか一方を用いることとしてもよいし、F1と連携せず用いてもよい。
F1の処理について説明する。
まず、所定の音声トリガが入力されたか否かを判定する(S101)。音声トリガは、トリガワードとして、音声エンジンに対応して予め設定されている。
音声トリガが入力されない場合(S101のNO判定)には、F2やF3のフローへ進む。音声トリガが入力された場合(S101のYES判定)には、入力された音声トリガに対応する音声エンジンを起動する(S102)。例えば、「Alexa」との音声トリガが入力された場合には、音声エンジンとしてAlexaが起動される。
次に、起動した音声エンジンにより音声対話(voice interaction)が行われ、各処理が実行される(S103)。
次に、F2の処理について説明する。F2のフローは、音声トリガが入力されない場合(S101のNO判定)に実行される。
まず、所定のシステムイベントが発生したか否かを判定する(S201)。所定のシステムイベントとは、例えば、メールを受信したこと等である。所定のシステムイベントが発生していない場合(S201のNO判定)には、処理を終了する。
所定のシステムイベントが発生した場合(S201のYES判定)には、情報処理装置1のユーザが存在しているか否かを判定する(S202)。ユーザが存在しているかとは、ユーザが情報処理装置1の前にいることである。ユーザが存在していない場合(S202のNO判定)には、処理を終了する。
ユーザが存在している場合(S202のYES判定)には、マイクがオン状態となっているか否かを判定する(S203)。マイクがオン状態となっている場合(S203のYES判定)には、音声エンジンを起動する(S205)。なお、マイクがオン状態となっていない場合(S203のNO判定)には、マイクをオン状態とし(S204)、S205を行う。
次に、音声対話として、音声の入力を受けつける(S206)。なお、S206の処理については、図9において詳述する。
次に、受け付けた音声と予め設定されたコマンドリストのコマンドとを対比し、音声に対応したコマンドがあるか否かを判定する(S207)。音声に対応したコマンドがある場合(S207のYES判定)には、コマンドに対応する処理を実行する(S209)。例えば、メールを受信したこととのイベントに対して、「メールをチェックして」とのコマンドが予め設定されている場合に、該コマンドに対応する音声が入力された場合に、受信したメールの内容が情報処理装置1に表示される。
音声に対応したコマンドがない場合(S207のNO判定)には、F1へ移行するか否かを判定する(S208)。なお、F1へ移行するか否かは、予め設定されているものとする。F1へ移行する場合(S208のYES判定)には、S102の処理が実行される。このように、コマンドリストにない音声が入力された場合には、F2では処理できないため、F1へ移行することで、汎用的な処理を行うことが可能となる。このようにF2からF1へ移行してS102が実行される場合には、起動される音声エンジンは、予め優先順位が設定されていてもよいし、ユーザにより指定されてもよい。F1へ移行しない場合(S208のNO判定)には、処理を終了する。
次に、F3の処理について説明する。F3のフローは、音声トリガが入力されない場合(S101のNO判定)に実行される。
まず、所定のユーザオペレーションが発生したか否かを判定する(S301)。所定のユーザオペレーションとは、例えば、ファイルが選択されたこと等である。所定のユーザオペレーションが発生していない場合(S301のNO判定)には、処理を終了する。
所定のユーザオペレーションが発生した場合(S301のYES判定)には、情報処理装置1のユーザが存在しているか否かを判定する(S302)。ユーザが存在しているかとは、ユーザが情報処理装置1の前にいることである。ユーザが存在していない場合(S302のNO判定)には、処理を終了する。
ユーザが存在している場合(S302のYES判定)には、マイクがオン状態となっているか否かを判定する(S303)。マイクがオン状態となっている場合(S303のYES判定)には、音声エンジンを起動する(S305)。なお、マイクがオン状態となっていない場合(S303のNO判定)には、マイクをオン状態とし(S304)、S305を行う。
次に、音声対話として、音声の入力を受けつける(S306)。なお、S306の処理については、図9において詳述する。
次に、受け付けた音声と予め設定されたコマンドリストのコマンドとを対比し、音声に対応したコマンドがあるか否かを判定する(S307)。音声に対応したコマンドがある場合(S307のYES判定)には、コマンドに対応する処理を実行する(S309)。例えば、ファイルが選択されたこととのイベントに対して、「ファイルを開く」とのコマンドが予め設定されている場合に、該コマンドに対応する音声が入力された場合に、ファイルが開かれ情報処理装置1に表示される。
音声に対応したコマンドがない場合(S307のNO判定)には、F1へ移行するか否かを判定する(S308)。なお、F1へ移行するか否かは、予め設定されているものとする。F1へ移行する場合(S308のYES判定)には、S102の処理が実行される。このように、コマンドリストにない音声が入力された場合には、F3では処理できないため、F1へ移行することで、汎用的な処理を行うことが可能となる。このようにF3からF1へ移行してS102が実行される場合には、起動される音声エンジンは、予め優先順位が設定されていてもよいし、ユーザにより指定されてもよい。F1へ移行しない場合(S308のNO判定)には、処理を終了する。
このように、所定のシステムイベントや所定のユーザオペレーションの発生に応じて音声エンジンを起動することで、所定の音声トリガを用いて音声エンジンを起動する場合と比較して、より円滑に処理を実行することが可能となる。
なお、所定のシステムイベント及び所定のユーザオペレーションが略等しいタイミングで発生した場合には、それぞれの処理を並列して実行することとしてもよい。また、F2及びF3については、F1と連携せず用いてもよい。また、F2及びF3を単体の処理として用いることとしてもよい。
次に、本実施形態に係る情報処理装置1によって実行される音声処理について説明する。図9は、本実施形態に係る情報処理装置1によって行われる音声処理を示すフローチャートである。図9に示した処理フローは、図7−8のS206及びS306の処理の詳細を示す図であり、図7−8のフローにおいてS206またはS306が行われる場合に実行される。
まず、タイムアウトカウンタを開始する(S401)。タイムアウトカウンタには、有効時間が予め設定されている。そして、タイムアウトカウンタがカウントアップしていないか否か及び音声が入力されたか否かを判定する(S402)。S402においては、両方が肯判定となった場合(タイムアウトカウンタがカウントアップしておらず音声が入力された場合)のみYES判定となる。すなわち、タイムアウトカウンタがカウントアップしておらず音声が入力されていない場合、タイムアウトカウンタがカウントアップした場合についてはNO判定となる。S402においてNO判定の場合には処理を終了する。
S402においてYES判定の場合には、受け付けた音声をテキストコマンド化する(S403)。テキストコマンド化されると、S207やS307において所定のコマンドリストとの対比が行われる。
次に、本実施形態に係る情報処理装置1によって実行される音声認識処理の具体的なフローを説明する。図10は、本実施形態に係る情報処理装置1によって行われる音声認識処理の具体的な例によるフローを示している。図10では、メールを受信したことをイベントとした場合におけるより詳細なフローを示している。
まず、メールを受信すると、メールを受信したとのイベントに対応するコマンドリストがあるか否かを判定する(S501)。すなわち、対応するコマンドリストが存在すれば、コマンドリストを用いて以降の処理が実行される。対応するコマンドリストがないと判定された場合(S501のNO判定)には、処理を終了する。
対応するコマンドリストがあると判定された場合(S501のYES判定)には、情報処理装置1の前にユーザがいるか否かを判定する(S502)。情報処理装置1の前にユーザがいないと判定された場合(S502のNO判定)には、処理を終了する。
情報処理装置1の前にユーザがいると判定された場合(S502のYES判定)には、マイクがオン状態となっているか否かを判定する(S503)。マイクがオン状態となっていない場合(S503のNO判定)には、マイクをオン状態とし(S504)、S505へ進む。
マイクがオン状態となっている場合(S503のYES判定)には、ユーザによる音声を受け付ける(S505)。そして、受け付けた音声をテキストコマンド化する(S506)。
そして、テキストコマンド化した音声と、コマンドリストのコマンドとを対比し、音声に対応するコマンドがあるか否かを判定する(S507)。音声に対応するコマンドがない場合(S507のNO判定)には、他の音声エンジン(例えば、Alexa等)によって受け付けた音声が汎用的によりされる(S508)。
音声に対応するコマンドがある場合(S507のYES判定)には、対応するコマンドに応じた処理が実行される(S509)。例えば、メールを受信したこととのイベントに対して、「メールをチェックして」とのコマンドが予め設定されている場合に、該コマンドに対応する音声が入力された場合に、受信したメールの内容が情報処理装置1に表示される。
このように、所定のイベント(図10の例ではールを受信したこと)の発生によって、音声認識開始されるため、情報処理装置1とユーザとの対話を自然な状態で円滑に行うことが可能となる。また、所定のイベントに対応したコマンドリストと入力された音声とが対比され、音声に対応するコマンドリストのコマンドの処理が実行されるため、処理を効率化することが可能となる。
なお、ユーザが音声を発しているか否かを判定し、実行部34は、音声判定部35においてユーザが音声を発していると判定された場合に、入力された音声とコマンドリストにおけるコマンドとを対比することとしてもよい。この場合には、情報処理装置1では、図11に示すように、カメラ7より取得したデータに基づいてユーザが音声を発しているか否かを判定する音声判定部35を備える。音声判定部35では、情報処理装置1におけるカメラ7によってユーザの状態を撮影し、撮影したデータに基づいて、ユーザが音声を発しているか否か、すなわち、ユーザの唇が動いているか否かを判定する。なお、ユーザが音声を発しているか否かについては、リップリーディング技術を適用することができる。
このように、音声判定部35を設ける場合には、上述の図9の処理は図12のような処理となる。具体的には、タイムアウトカウンタを開始する(S401)と共に、カメラ7から映像データが取得する(S404)。そして、リップリーディング技術を用いてユーザが音声を発していると推定されるか否かを判定する(S405)。なお、S405では、S403において音声がテキストコマンド化されたか否かについても判定している(すなわち、音声が入力されたか否かを判定している)。すなわち、S405では、入力された音声がテキストコマンド化されており、映像データよりユーザがしゃべっていると判定される場合に、YES判定となり、S207やS307において、テキストコマンドと所定のコマンドリストとの対比が行われる。一方で、S405では、入力された音声がテキストコマンド化されいない場合(音声が入力されていない場合)や、入力された音声がテキストコマンド化されていても映像データよりユーザがしゃべっていると判定されない場合には、NO判定となり処理が終了される。このように、ユーザが音声を発しているか否かを判定することによって、ユーザの発した音声によってより確実に処理を行うことができるため、誤った処理を行うことを抑制することができる。
以上説明したように、本実施形態に係る情報処理装置、音声認識方法、及び音声認識プログラムによれば、所定のイベントが発生した場合に、イベントに対応して予め設定されたコマンドリストを用い、コマンドリストのコマンドに対応した音声が入力された際に、コマンドに対応する処理を実行するため、所定の音声をトリガとして用いる場合と比較して、情報処理装置1に対する音声指示を円滑に行うことができる。すなわち、所定のイベントの発生をトリガとして音声認識を行うことができるため、ユーザの手間を発生させず、ユーザビリティを向上させることが可能となる。
また、イベントに対応したコマンドリストを用い、音声とコマンドリストのコマンドとを対比しているため、処理を簡略化して効率的に音声認識を行うことが可能となる。
本発明は、上述の実施形態のみに限定されるものではなく、発明の要旨を逸脱しない範囲において、種々変形実施が可能である。
1 :情報処理装置
2 :本体側筐体
3 :ディスプレイ側筐体
4 :入力部
5 :表示部
6 :連結部
7 :カメラ
8 :光源
21 :CPU
22 :メインメモリ
23 :記憶部
26 :通信部
28 :バス
31 :判定部
32 :音声受付部
33 :リスト選択部
34 :実行部
35 :音声判定部

本発明の第一態様は、所定のイベントが発生したか否かを判定する判定部と、前記イベントが発生したと判定された場合に、音声指示を可能な位置にユーザがいるか否かを判定し、音声指示を可能な位置にユーザがいると判定した場合に、音声の入力を受け付ける音声受付部と、前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択部と、前記音声受付部において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行部と、を備えた情報処理装置である。
本発明の第二態様は、所定のイベントが発生したか否かを判定する判定工程と、前記イベントが発生したと判定された場合に、音声指示を可能な位置にユーザがいるか否かを判定し、音声指示を可能な位置にユーザがいると判定した場合に、音声の入力を受け付ける音声受付工程と、前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択工程と、前記音声受付工程において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行工程と、をコンピュータが実行する音声認識方法である。
本発明の第三態様は、所定のイベントが発生したか否かを判定する判定処理と、前記イベントが発生したと判定された場合に、音声指示を可能な位置にユーザがいるか否かを判定し、音声指示を可能な位置にユーザがいると判定した場合に、音声の入力を受け付ける音声受付処理と、前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択処理と、前記音声受付処理において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行処理と、をコンピュータに実行させるための音声認識プログラムである。

Claims (12)

  1. 所定のイベントが発生したか否かを判定する判定部と、
    前記イベントが発生したと判定された場合に、音声の入力を受け付ける音声受付部と、
    前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択部と、
    前記音声受付部において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行部と、
    を備えた情報処理装置。
  2. 前記イベントは、所定のシステムイベント及び所定のユーザオペレーションの少なくともいずれか一方である請求項1に記載の情報処理装置。
  3. 前記システムイベントとは、システム側において自動的に発生したイベントであり、前記ユーザオペレーションとは、ユーザの操作に起因して発生したイベントである請求項2に記載の情報処理装置。
  4. 前記システムイベントとは、メールを受信したこと、アップデート通知を受信したこと、及びウイルススキャン通知を受信したことの少なくともいずれか一方である請求項2または3に記載の情報処理装置。
  5. 前記ユーザオペレーションとは、ファイルが選択されたこと、及び特定のアプリケーションが起動されたことの少なくともいずれか一方である請求項2または3に記載の情報処理装置。
  6. 前記コマンドリストには、前記イベントに対してユーザが音声により操作可能な処理に対応したコマンドが予め設定されている請求項1から5のいずれか1項に記載の情報処理装置。
  7. 前記音声受付部は、前記イベントが発生したと判定された場合に、所定の有効時間が経過するまで前記音声の入力を受け付ける請求項1から6のいずれか1項に記載の情報処理装置。
  8. 前記音声受付部は、前記イベントに応じて前記有効時間を設定する請求項7に記載の情報処理装置。
  9. 前記音声受付部は、マイクがオン状態となっていない場合には、前記有効時間の間だけ前記マイクをオン状態に切り替える請求項7または8に記載の情報処理装置。
  10. カメラより取得したデータに基づいてユーザが音声を発しているか否かを判定する音声判定部を備え、
    前記実行部は、前記音声判定部においてユーザが音声を発していると判定された場合に、入力された音声と前記コマンドリストにおけるコマンドとを対比する請求項1から9のいずれか1項に記載の情報処理装置。
  11. 所定のイベントが発生したか否かを判定する判定工程と、
    前記イベントが発生したと判定された場合に、音声の入力を受け付ける音声受付工程と、
    前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択工程と、
    前記音声受付工程において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行工程と、
    をコンピュータが実行する音声認識方法。
  12. 所定のイベントが発生したか否かを判定する判定処理と、
    前記イベントが発生したと判定された場合に、音声の入力を受け付ける音声受付処理と、
    前記イベント毎に予め設定されたコマンドリストの中から、発生したと判定された前記イベントに対応するコマンドリストを選択するリスト選択処理と、
    前記音声受付処理において受け付けた音声が、選択されたコマンドリストにおけるコマンドに対応している場合に、前記コマンドに対応する処理を実行する実行処理と、
    をコンピュータに実行させるための音声認識プログラム。

JP2019035809A 2019-02-28 2019-02-28 情報処理装置、音声認識方法、及び音声認識プログラム Pending JP2020140473A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019035809A JP2020140473A (ja) 2019-02-28 2019-02-28 情報処理装置、音声認識方法、及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019035809A JP2020140473A (ja) 2019-02-28 2019-02-28 情報処理装置、音声認識方法、及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2020140473A true JP2020140473A (ja) 2020-09-03

Family

ID=72265084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019035809A Pending JP2020140473A (ja) 2019-02-28 2019-02-28 情報処理装置、音声認識方法、及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2020140473A (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044090A (ja) * 2001-07-26 2003-02-14 Matsushita Electric Works Ltd 音声認識装置及び音声認識方法
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
US20110301958A1 (en) * 2010-06-04 2011-12-08 Microsoft Corporation System-Initiated Speech Interaction
JP2014134483A (ja) * 2013-01-11 2014-07-24 Clarion Co Ltd 情報処理装置、音声操作システム、および、情報処理装置の音声操作方法
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US20140337028A1 (en) * 2013-05-12 2014-11-13 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
JP2017078753A (ja) * 2015-10-19 2017-04-27 株式会社日立情報通信エンジニアリング コールセンタシステム、および、その音声認識制御方法
JP2017537361A (ja) * 2014-09-12 2017-12-14 アップル インコーポレイテッド 発語トリガを常時リッスンするための動的閾値
JP2018531404A (ja) * 2015-10-05 2018-10-25 サバント システムズ エルエルシーSavant Systems LLC ホームオートメーションシステムの音声制御のための履歴ベースのキーフレーズの提案

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044090A (ja) * 2001-07-26 2003-02-14 Matsushita Electric Works Ltd 音声認識装置及び音声認識方法
JP2003140691A (ja) * 2001-11-07 2003-05-16 Hitachi Ltd 音声認識装置
US20110301958A1 (en) * 2010-06-04 2011-12-08 Microsoft Corporation System-Initiated Speech Interaction
JP2014134483A (ja) * 2013-01-11 2014-07-24 Clarion Co Ltd 情報処理装置、音声操作システム、および、情報処理装置の音声操作方法
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US20140337028A1 (en) * 2013-05-12 2014-11-13 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
JP2017537361A (ja) * 2014-09-12 2017-12-14 アップル インコーポレイテッド 発語トリガを常時リッスンするための動的閾値
JP2018531404A (ja) * 2015-10-05 2018-10-25 サバント システムズ エルエルシーSavant Systems LLC ホームオートメーションシステムの音声制御のための履歴ベースのキーフレーズの提案
JP2017078753A (ja) * 2015-10-19 2017-04-27 株式会社日立情報通信エンジニアリング コールセンタシステム、および、その音声認識制御方法

Similar Documents

Publication Publication Date Title
KR101992306B1 (ko) 카메라를 실행하기 위한 방법 및 그 전자 장치
US8736585B2 (en) Information processing apparatus and method, program, and recording medium
US8825484B2 (en) Character input apparatus equipped with auto-complete function, method of controlling the character input apparatus, and storage medium
JP2015008001A (ja) 端末装置、およびプログラム
US11140284B2 (en) Image forming system equipped with interactive agent function, method of controlling same, and storage medium
JPWO2014103634A1 (ja) 表示処理方法及び情報装置
CN111788820B (zh) 自适应地控制低电力显示模式的方法及其电子装置
WO2022135323A1 (zh) 图像生成方法、装置和电子设备
EP4240001A1 (en) Photographing method and apparatus, and electronic device
US20180316823A1 (en) Information processing apparatus and control method
CN110618852B (zh) 视图处理方法、视图处理装置及终端设备
US9632696B2 (en) Presentation system to facilitate the association of handwriting input by a participant user with a page of a presentation
US10205821B2 (en) Mobile phone, display control method, and non-transitory computer-readable recording medium
JP2020140473A (ja) 情報処理装置、音声認識方法、及び音声認識プログラム
JP2012119774A (ja) 情報処理装置、その通信方法、およびコンピュータが実行可能なプログラム
WO2022228301A1 (zh) 文档生成方法、装置和电子设备
JP2020047020A (ja) 電子機器、音声認識方法及びプログラム
TWI397854B (zh) 延伸顯示系統及方法
JP5133202B2 (ja) 情報処理装置、その色調整方法、およびコンピュータが実行可能なプログラム
JP5438089B2 (ja) 背景画像秘匿方法、背景画像秘匿装置、及びコンピュータが実行可能なプログラム
US10855731B2 (en) Information processing apparatus, data processing method thereof, and program
JP2017098805A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
WO2018228048A1 (zh) 图像采集的方法、终端、设备及计算机可读存储介质
US20120214551A1 (en) Apparatus and method for managing call notes in a wireless device
JP7376524B2 (ja) 情報処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210126