JP2015102667A - 電子機器 - Google Patents

電子機器 Download PDF

Info

Publication number
JP2015102667A
JP2015102667A JP2013242907A JP2013242907A JP2015102667A JP 2015102667 A JP2015102667 A JP 2015102667A JP 2013242907 A JP2013242907 A JP 2013242907A JP 2013242907 A JP2013242907 A JP 2013242907A JP 2015102667 A JP2015102667 A JP 2015102667A
Authority
JP
Japan
Prior art keywords
speaker
processing unit
utterance
data
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013242907A
Other languages
English (en)
Inventor
吉谷 典文
Norifumi Yoshitani
典文 吉谷
茂典 木下
Shigenori Kinoshita
茂典 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2013242907A priority Critical patent/JP2015102667A/ja
Publication of JP2015102667A publication Critical patent/JP2015102667A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】同時に発話された内容のうち所望の発話内容に関する情報をユーザに容易に選択させることができる電子機器を提供する。【解決手段】話者判別処理部は入力された音声データに基づいて話者を判別し、話者判別処理部が判別した話者毎の発話内容を認識し、入力処理部は音声認識処理部が認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する。これにより、同時に発話された内容のうち所望の発話内容に関する情報をユーザに容易に選択させることができる。【選択図】図2

Description

本発明は、電子機器に関する。
近年、ユーザによって多機能携帯電話(いわゆるスマートフォンを含む)、タブレット端末等のように持ち運びが容易な電子機器が普及している。このような電子機器には、電子メールによるメッセージの交換や、ブラウザによるインターネット上で利用可能な情報の検索を実現するために、文字や文章を入力する機能を備えたものがある。従来、文字や文章を入力する際、タッチパネルを備え、LCD(Liquid Crystal Display)に表示されたキーボードにタッチして文字や文章を入力する機能が主であった。しかし、音声入力機能を備える電子機器が普及し、このような機能をユーザが身近に利用できる状況になっている。音声入力機能は、マイクロホンを備え、入力しようとする文字や文章をユーザが発声した音声で入力する機能である。文字や文章の他、所定の機能(例えば、搭載されたカメラによる撮影、等)を音声で指示することができる電子機器も開発されている。
音声入力機能には、話者を判別できるものや、複数の話者によって発話が同時になされた場合でも各話者の発話が個別に認識できるものがある。例えば、話者判別機能は、音声で入力された文章に話者情報を付与して議事録として表示する会議議事録支援ソフトウェアに応用されている。また、特許文献1に記載の音声処理装置は、会議室における複数の音声データより話者を特定し、第1及び第2の話者を特定した場合、第1及び第2の話者が同時に発話した区間を判定し、同時発話区間の第1の話者の音声データと第2の話者の音声データとを分離する。
特開2009−139592号公報
しかしながら、音声入力機能を有する電子機器では、不特定の話者が発した音声が混入されることで、主たるユーザが望む入力結果、例えば、操作しようとする機能、検索のために用いようとするキーワードが得られないことがある。そこで、目的に応じて特定の話者の音声のみを認識するか、不特定の話者の音声をそれぞれ認識して入力しようとする文字列を取得することも考えられる。しかし、音声入力を開始する前に、目的に応じて話者を予め選択する必要があり、話者の変化に応じた柔軟な音声認識処理が行われなくなる。認識対象となる話者が変化する場合には、その都度、話者の設定に係る操作入力が求められるので煩雑である。
また、複数人の話者が同時に音声入力機能を利用しているとき、往々にして各話者は同時に発話することにより発話タイミングが被ることがある。特許文献1に記載の音声処理装置によれば、各話者が発話した音声を認識した認識結果を有効なものとして取り扱うことが可能であるが、同時に発話されたことを察した話者が発声を途中で中止することがある。その場合には、途中までの発声について音声認識処理がなされるので、誤認識が生じることがある。誤認識された音声認識結果を取り消すには、話者が再度発声を行って音声認識処理を行う等、煩雑な操作が必要になる。
本発明は上記の点に鑑みてなされたものであり、本発明の目的は、同時に発話された内容のうち所望の発話内容に関する情報をユーザに容易に選択させることができる電子機器を提供することにある。
本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された音声データに基づいて話者を判別する話者判別処理部と、前記話者判別処理部が判別した話者毎の発話内容を認識する音声認識処理部と、前記音声認識処理部が認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する入力処理部と、を備える電子機器である。
本発明によれば、同時に発話された内容のうち所望の発話内容に関する情報をユーザに容易に選択させることができる。
本発明の第1の実施形態に係る電子機器の構成を示す概略ブロック図である。 本発明の第1の実施形態に係る音声入力処理を示すフローチャートである。 本発明の第1の実施形態に係る表示例を示す図である。 本発明の第2の実施形態に係る音声入力処理を示すフローチャートである。 本発明の第3の実施形態に係る音声入力処理を示すフローチャートである。 本発明の第3の実施形態に係る表示例を示す図である。 本発明の第4の実施形態に係る電子機器の構成を示す概略ブロック図である。 本発明の第4の実施形態に係る表示例を示す図である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る電子機器1の構成を示す概略ブロック図である。
電子機器1は、収音部11、タッチパネル12、及び制御部13を含んで構成される。
収音部11は、到来した音声を収録し、収録した音声を示す音声データを話者判別処理部132に出力する。収音部11は、音声による振動を電気信号に変換し、変換した電気信号を音声データとして生成するマイクロホン(例えば、エレクロレットコンデンサマイクロホン)を含んで構成される。収音部11は、複数のマイクロホンを備え、複数のチャネルの音声データを収録し、収録した音声データを制御部13に出力してもよい。
電子機器1の一面は、例えば、ほぼ矩形の形状を有し、片手で把持できる程度の大きさを有する。
タッチパネル12は、電子機器1の一面の大部分を占める入力機能付きの表示ユニットである。タッチパネル12は、ディスプレイ(表示部)121とタッチセンサ(操作入力部)122とを含んで構成される。
ディスプレイ121は、制御部13から入力された表示データを視覚で認識可能に表示する。ディスプレイ121は、例えば、液晶表示パネル、有機EL(electroluminescence)表示パネルである。
タッチセンサ122は、操作物(例えば、ユーザの指)が接触した位置を検知することで操作入力を受け付け、検知した位置を示す操作データを生成し、生成した操作データを制御部13に出力する。タッチセンサ122は、例えば、静電容量センサを含んで構成される。ディスプレイ121がデータを表示する領域と、タッチセンサ122が位置を検出する領域の大部分は互いに重なり合っている。
制御部13は、CPU(Central Processing Unit)と記憶部131(後述)とを含んで構成され、記憶部131に格納されたプログラムをCPUが実行することで電子機器1の動作を制御する。機能面で考察すると、制御部13は、記憶部131、話者判別処理部132、音声認識処理部133、入力処理部134、操作処理部136、及びアプリケーション処理部(機能処理部)137を含んで構成される。
記憶部131は、動作に要するデータや、動作の過程で生成されたデータを記憶する。記憶部131には、話者判別データと音声認識データとからなる話者判別、音声認識データベースが形成されている。話者判別データは、音声データに基づいて話者を判別する際に用いるデータである。話者判別データは、話者毎の音響特徴量、例えば、ケプストラム、基本周波数、等を含むデータである。ここで、特定の話者(例えば、電子機器1の所持者)の話者判別データが設定され、記憶部131に記憶されていてもよい。
音声認識データは、音声データに基づいて発話内容を認識する際に用いるデータである。音声認識データは、音響特徴量から音韻を特定するための音響モデルと、音韻から発話内容を示すテキストを特定するための言語モデルとからなる。音響モデル、言語モデルは、例えば、HMM(Hidden Markov Model、隠れマルコフモデル)である。
話者判別処理部132は、収音部11から入力された音声データについて公知の話者判別処理を行って、その音声を発話している話者を判別する。話者判別処理は話者認識処理とも呼ばれる。話者判別処理部132は、例えば、記憶部131に記憶した話者毎の話者判別データを用いて尤度を算出し、最も尤度が高い話者(主話者)を判別する。話者判別処理部132は、尤度に基づいて主話者であるか、それ以外の話者(副話者)であるかを判別してもよい。話者判別処理部132は、判別した話者を示す話者データを音声データと対応付けて音声認識処理部133に出力する。
収音部11が複数のマイクロホンを備える場合、話者判別処理部132は、入力された複数チャネルの音声データについて公知の音源分離処理を行って各話者が発話した音声の成分を示す話者別音声データを生成してもよい。音源分離処理では、各話者の位置の差異により、マイクロホン間で生じる振幅、音波の到来時間差、又はその両方の差異に基づいて、各話者が発話した音声の成分が推定される。話者判別処理部132は、入力された音声データに代えて生成した話者別音声データについて話者判別処理を行い、入力された音声データに代えて話者別音声データを音声認識処理部133に出力してもよい。
また、話者判別処理部132は、ある話者の話者別音声データと他の話者の話者別音声データとの間で、発話が重複している時間、つまり同時発話の有無を判定してもよい。話者判別処理部132は、同時発話の有無と同時発話している話者の組を示す同時発話データを生成し、生成した同時発話データを話者データと対応付けて音声認識処理部133に出力してもよい。
音声認識処理部133には、話者判別処理部132から話者データと音声データとが対応付けて入力される。音声認識処理部133は、入力された音声データについて収音部11に記憶した音声認識データを用いて公知の音声認識処理を行って発話内容を認識し、認識した発話内容を示す発話データを生成する。発話データは、例えば、発話内容を表記するテキストデータで構成される。音声認識処理部133は、音声データと対応付けて入力された話者データと、生成した発話データと、を対応付けて入力処理部134に出力する。同時発話データが入力される場合には、音声認識処理部133は、その同時発話データも話者データ及び発話データと対応付けて入力処理部134に出力する。
入力処理部134は、音声認識処理部133から入力された話者データと発話データに基づいて話者毎の発話内容を示すテキストデータを含む表示データを生成する。入力処理部134は、表示データのうち、予め設定した第1の話者(例えば、電子機器1の所持者)以外の話者の発話内容の表示について操作入力を受け付け可能に設定してもよい。操作入力を受け付け可能とは、その発話内容がディスプレイ121に表示され、タッチセンサ122に、発話内容が表示された領域内で操作物(例えば、ユーザの指)を検知した場合、検知した操作データを生成し、制御部13に出力することを意味する。
入力処理部134は、生成した表示データをディスプレイ121に出力する。これにより、入力処理部134は、ディスプレイ121に話者毎の発話内容を表示させる。
入力処理部134は、操作処理部136から入力された操作データに基づいて、表示させた話者毎の発話内容のいずれかが選択されたか否かを判定する。ここで、操作データが示す位置が、ディスプレイ121上に表示された発話内容が表示される領域に含まれる場合、その発話内容が選択されたと判定する。
入力処理部134は、選択された話者の発話内容について、その発話内容を有効にするか否かの確認表示を含む確認表示データを生成し、生成した確認表示データをディスプレイ121に出力する。入力処理部134は、発話内容を有効にするか否かの確認表示について操作入力を受け付け可能に設定してもよい。また、確認表示データには、その話者の発話内容を継続して(その時点で入力された発話データが示す発話内容に限らない)有効にするか否かの確認表示が含まれてもよい。
入力処理部134は、操作処理部136から入力された操作データに基づいて、その発話内容の有効性、つまり有効にするか否かのいずれが選択されたかを判定する。ここで、操作データが示す位置が、ディスプレイ121上に確認表示が表示された領域に含まれる場合、その確認表示が示す内容(つまり、有効にするか否か)が選択されたと判定する。
また、その話者の発話内容を継続して有効にするか否かを示す確認表示を含む場合も、入力処理部134は、その話者の発話内容を継続して有効にするか否かが選択されたと同様に判定することができる。
ディスプレイ121に表示データを出力してから予め定めた一定時間(例えば、5秒)が経過する(タイムアウト)前に、その発話内容の有効性(つまり、有効にするか否かのいずれか)が選択された場合、入力処理部134は、ディスプレイ121に表示させている確認表示を消去させる。
入力処理部134は、選択された有効性に応じて、その発話内容を扱う。即ち、有効にすると選択された場合、入力処理部134は、有効にすると選択された発話内容を示す発話データについて、(i)アプリケーション処理部137に出力する。そして、(ii)アプリケーション処理部137でその発話データに係る処理が開始されたとき、入力処理部134は、ディスプレイ121に表示させているその発話内容を消去させる。
他方、無効にすると選択された場合、入力処理部134は、無効にすると選択された発話内容を示す発話データについて、(iii)消去し、(iv)ディスプレイ121に表示させているその発話内容を消去させる。
発話内容の有効性が選択されずに、ディスプレイ121に表示データを出力してから予め定めた一定時間(例えば、5秒)が経過した(タイムアウト)場合、入力処理部134は、入力された発話データについて、予め定めた設定(タイムアウト設定)に応じた処理を実行する。そのような設定には、例えば、その発話データが示す発話内容を有効なものとして扱う、その発話データが示す発話内容を無効なものとして扱う、がある。
有効なものとして扱うとは、入力処理部134が、その発話データについて上述した(i)、(ii)を実行することを意味する。無効なものとして扱うとは、その発話データについて上述した(iii)、(iv)を実行することを意味する。
また、タイムアウト設定は、話者毎に独立に行われてもよいし、特定の話者について行われてもよいし、特定の話者(例えば、電子機器1の所持者以外の話者)以外の話者のグループについて共通して行われてもよい。
なお、その話者の発話内容を継続して有効にすると選択された場合、入力処理部134は、次にその話者の発話内容を示す発話データが入力されたとき、その発話内容を有効なものとして扱う。
その話者の発話内容を継続して無効にすると選択された場合、入力処理部134は、次にその話者の発話内容を示す発話データが入力されたとき、その発話内容を無効なものとして扱う。
また、入力処理部134は、特定の話者(例えば、電子機器1の所持者)の発話内容を常に有効なものとして扱ってもよい。
入力処理部134に、同時発話データが入力される場合には、ある話者の発話データと、それ以外の話者の発話データとが入力され、いずれかの話者(第1の話者)の発話データについて、その発話内容の有効性が先に確定することがある。その場合、第1の話者の発話データに係る表示データをディスプレイ121に出力してから予め定めた一定時間が経過した後、又は、その他の話者(第2の話者)の発話データが示す発話内容の有効性が確定した後、入力処理部134は、第1の話者の発話データをアプリケーション処理部137に出力するようにしてもよい。これにより、各話者の発話データが示す発話内容を確認するための時間が与えられ、その発話データに係る処理が順次なされる。そのため、ユーザは、同時発話時においても円滑な音声入力を実現することができる。
操作処理部136は、タッチセンサ122から入力された操作データ(電気信号)を予め定めた時間間隔(例えば、20ms)毎にサンプリングする。操作処理部136は、サンプリングした操作データについてフィルタリング処理(例えば、平滑化)を行って操作データに混入したノイズを除去する。操作処理部136は、フィルタリング処理を行った操作データを入力処理部134に出力する。
アプリケーション処理部137は、電子機器1にインストールされているアプリケーションプログラム(以下、単にアプリケーションと呼ぶ)の実行を制御する。アプリケーションは、電子機器1の機能を発揮する処理を実行するためのプログラムである。アプリケーションには、例えば、入力されたキーワードをインターネットに接続されたサーバ装置に送信し、サーバ装置から受信した検索データを表示させるブラウザ、カメラ等の機器(デバイス)の動作を制御するデバイスドライバ、等がある。アプリケーション処理部137は、これらのアプリケーションを実行して、ディスプレイ121に表示させるための表示データを生成する。
アプリケーション処理部137には、入力処理部134から発話データが入力され、入力された発話データに応じた処理を行う。例えば、アプリケーションがブラウザである場合には、アプリケーション処理部137には、発話データが示す発話内容をキーワードとして入力され、入力されたキーワードをインターネット上のサーバ装置に送信する。また、アプリケーションが電子機器1に内蔵されたカメラの動作を制御するためのデバイスドライバである場合には、アプリケーション処理部137には、発話データが示す発話内容をコマンド(命令)として受け付ける。そして、アプリケーション処理部137は、カメラに受け付けたコマンドで指示される処理をカメラに実行させる。
(音声入力処理)
次に、本実施形態に係る音声入力処理について説明する。次に説明する例では、電子機器1の所持者を主たる話者(主話者)とし、主に主話者以外の発話内容を示す発話データについての取り扱いについて説明する。ここで、主話者の発話内容を常に有効であるものとして扱い、他の話者の発話内容よりも優先させる。
図2は、本実施形態に係る音声入力処理を示すフローチャートである。
(ステップS101)話者判別処理部132は、収音部11から入力された音声データについて話者判別処理を行って、その音声を発話している話者を判別する。話者判別処理部132は、判別した話者を示す話者データを音声データと対応付けて音声認識処理部133に出力する。その後、ステップS102に進む。
(ステップS102)音声認識処理部133には、話者判別処理部132から入力された音声データについて音声認識処理を行って発話内容を認識し、認識した発話内容を示す発話データを生成する。音声認識処理部133は、音声データと対応付けて入力された話者データと生成した発話データとを対応付けて入力処理部134に出力する。その後、ステップS103に進む。
(ステップS103)入力処理部134は、音声認識処理部133から入力された話者データと発話データに基づいて話者毎の発話内容を示すテキストデータを含む表示データを生成し、生成した表示データをディスプレイ121に出力する。これにより、入力処理部134は、ディスプレイ121に話者毎の発話内容を表示させる。その後、ステップS104に進む。
(ステップS104)入力処理部134は、表示データをディスプレイ121に出力してから予め定めた一定時間が経過したか否かを判定する。経過したと判定された場合(ステップS104 YES)、ステップS109に進む。経過していないと判定された場合(ステップS104 NO)、ステップS105に進む。
(ステップS105)入力処理部134は、操作処理部136から入力された操作データに基づいて、ディスプレイ121に表示させた主話者以外の話者毎の発話内容のいずれかが選択されたか否かを判定する。選択されたと判定された場合(ステップS105 YES)、ステップS106に進む。選択されていないと判定された場合(ステップS105 NO)、ステップS104に戻る。
(ステップS106)入力処理部134は、選択された話者の発話内容について、その発話内容の有効性、つまり有効にするか否かの確認表示を含む確認表示データを生成し、生成した確認表示データをディスプレイ121に出力する。その後、ステップS107に進む。
(ステップS107)入力処理部134は、操作処理部136から入力された操作データに基づいて、その発話内容の有効性、つまり有効にするか否かが選択されたかを判定する。選択されたと判定された場合(ステップS107 YES)、ステップS108に進む。選択されていないと判定された場合(ステップS107 NO)、ステップS104に戻る。
(ステップS108)入力処理部134は、選択された有効性に応じて、その発話内容を扱う。即ち、有効にすると選択された場合、入力処理部134は、その発話内容を示す発話データをアプリケーション処理部137に出力する。無効にすると選択された場合、入力処理部134は、その発話内容を示す発話データを消去する。その後、図2に示す処理を終了する。
(ステップS109)入力処理部134は、予め定めた設定(タイムアウト設定)に応じた処理を実行する。即ち、その発話データが示す発話内容を有効なものとして扱うと設定された場合、入力処理部134は、その発話データをアプリケーション処理部137に出力する。その発話データが示す発話内容を無効なものとして扱うと設定された場合、入力処理部134は、その発話データを消去する。その後、図2に示す処理を終了する。
(表示例)
次に、図2に示す処理を実行したときに電子機器1のディスプレイ121に表示される画面の表示例について説明する。次の説明では、電子機器1においてブラウザの起動中に、発話により検索用のキーワードを入力する場合を例にとる。
図3は、本実施形態に係る表示例を示す図である。
図3(a)は、ステップS103により、話者毎の発話内容sp11、sp12が、話者によって異なる背景パターンで表示されていることを示す。発話内容sp11の背景パターンは点線による網掛けである。発話内容sp12の背景パターンは左下下がりの斜線による網掛けである。これにより発話内容毎の話者を容易に把握することができる。発話内容sp11は、主話者の発話内容「サファリパーク」を示す。発話内容sp12は、主話者以外の話者(例えば、小児)の発話内容「どこかに行くの」を示す。
図3(b)は、ステップS105において発話内容sp12が選択されたことに応じて、図2のステップS106により表示される確認表示である。図3(b)の例では、画面に発話内容sp12、確認表示e11〜e14が順に示されている。確認表示e11は、発話内容sp12を有効なものとして扱う表示であり、e12は発話内容sp12を無効なものとして扱う表示であり、e13は発話内容sp12の話者の発話内容を継続して有効なものとして扱う表示であり、e14は発話内容sp12の話者の発話内容を継続して無効なものとして扱う表示である。
図3(c)は、ステップS107において、確認表示e12が選択されたことに応じて、ステップS108において、発話内容sp12が無効なものと扱われ、発話内容sp12が消去されている。発話内容sp11「サファリパーク」は、引き続き表示されている。発話内容sp11が有効なものと扱われ、タイムアウト経過後に「サファリパーク」のみがキーワードとして検索に用いられる。
以上、説明したように、本実施形態は、入力された音声データに基づいて話者を判別し、判別した話者毎の発話内容を認識し、認識した話者毎の発話内容を表示部に表示させ、操作に基づいて表示させた発話内容が有効か否かを判定する。
そのため、ある第1の話者が音声入力のために発声しているときに、他の第2の話者が発声したときでも、第1の話者は音声入力を中断することなく、第1の話者、第2の話者それぞれの発話内容を、有効とするか無効とするかを設定することができる。従って、第1の話者は、話者の設定をその都度変更する等の煩雑な操作を行うことなく、所望の発話内容、例えば、自己の発話内容や許可した話者の発話内容を選択し、選択した発話内容に係る動作を実行させることができる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。上述と同一の構成については、同一の符号を付して説明を援用する。本実施形態に係る電子機器1のハードウェアの構成は、第1の実施形態に係る電子機器1と同様である。
但し、発話データについて、その発話内容の有効性についての設定が入力処理部134になされている場合、図2に示す音声入力処理のうち、ステップS105−S108を省略し、ステップS109を実行することができる。
図4は、本実施形態に係る音声入力処理を示すフローチャートである。
図4に示す処理では、ステップS104において入力処理部134が、表示データをディスプレイ121に出力してから予め定めた一定時間が経過していないと判定された場合(ステップS104 NO)、ステップS104を繰り返す。
ここで、入力処理部134において、主話者の発話内容のみが有効と設定され、その他の話者の発話内容が無効と設定され、主話者、その他の話者が、それぞれ「サファリパーク」、「どこかに行くの」と発話した場合を仮定する。ステップS103では、図3(a)に示す表示がなされるが、図3(b)に示す確認表示がなされない。しかし、ステップS109では、主話者の発話「サファリパーク」のみが有効と扱われるので、図3(c)に示す表示がなされ、「サファリパーク」のみがタイムアウト経過後にキーワードとして検索に用いられる。
以上、説明したように、本実施形態では、その発話内容を表示させてから一定時間後に経過した場合の発話データについての取り扱いについて設定しておき、設定に応じた処理を行う。これにより、認識された発話内容に対して設定通りの取り扱いで問題がない場合には、ユーザには操作を行わずに済み、設定とは異なる取り扱いを希望する場合にのみ、操作を行えばよいため、円滑な音声入力を実現することができる。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。上述と同一の構成については、同一の符号を付して説明を援用する。本実施形態に係る電子機器1のハードウェアの構成は、上述した実施形態に係る電子機器1と同様である。
但し、入力処理部134は、同時発話データが入力された場合、同時発話データが示す複数話者についての発話データに、その発話データが示す発話内容のテキストを話者間で共通する態様(モード)で表示することを指示するモードデータを付加する。入力処理部134は、モードデータを付加した発話データをディスプレイ121に出力させ、その発話データが示す発話内容のテキストをモードデータが示す態様でディスプレイ121に表示させる。共通する態様とは、例えば、文字の色、背景色、背景パターン、字体、装飾、等のいずれか、またはその組み合わせが共通であることを意味する。これにより、ユーザは、表示された発話内容が同時に発話されたことを直感的に認識することができる。
また、入力処理部134には、主話者以外の各話者(例えば、話者A、話者Bのそれぞれ)について、その発話内容を有効なものとして扱うか、無効なものとして扱うかについて設定しておく。
次に、本実施形態に係る音声入力処理について説明する。
図5は、本実施形態に係る音声入力処理を示すフローチャートである。
図5に示す音声入力処理は、図2に示す音声入力処理において、ステップS103、S109に代えて、ステップS113、S119を有する。ステップS102が終了した後、ステップS113に進む。
(ステップS113)入力処理部134は、入力された同時発話データが示す複数話者について共通する態様で、発話データが示す発話内容を示すテキストをディスプレイ121に表示させる。その後、ステップS104に進む。
そして、ステップS104において、入力処理部134が、表示データをディスプレイ121に出力してから予め定めた一定時間が経過したと判定した後(ステップS104 YES)、ステップS119に進む。
(ステップS119)入力処理部134は、予め定めた話者毎の設定に応じた処理を実行する。ここで、発話内容を有効なものとして扱うと設定された話者の発話データについては、入力処理部134は、その発話データをアプリケーション処理部137に出力する。発話内容を無効なものとして扱うと設定された話者の発話データについては、入力処理部134は、その発話データを消去する。その後、図5に示す処理を終了する。
(表示例)
次に、図5に示す処理を実行したときにディスプレイ121に表示される画面の表示例について説明する。次の説明では、電子機器1においてブラウザの起動中に、発話により検索用のキーワードを入力する場合を例にとる。
図6は、本実施形態に係る表示例を示す図である。
図6(a)は、ステップS113により、話者毎の発話内容sp21、sp22、sp23が表示されていることを示す。ここで、発話内容sp21は実線の矩形で囲まれている。しかし、発話内容sp22、sp23が破線の矩形で囲まれている点で、表示態様が共通であり、その他の発話内容sp21よりも互いに近接して表示されている。発話内容sp22、sp23の背景パターンは、それぞれ左下下がりの斜線及び右下下がり斜線による網掛けが施されている。これにより、ユーザは、発話内容sp22、sp23が同時に発話されたものであって取り扱いが未確定であることを容易に把握することができる。
図6(b)は、ステップS105において発話内容sp22が選択されたことに応じて、ステップS106により表示される確認表示である。この例では、発話内容sp22、確認表示e11〜e14が順に示されている。確認表示e11〜e14は、図3(b)に示したものと同様である。
図6(c)は、ステップS107において、確認表示e11が選択されたことにより、ステップS108において、発話内容sp22が有効なものと扱われ、その表示態様が変更されている。ここで、発話内容sp22を示す「山口県」が実線で囲まれ、背景パターンも縦線の網掛けに変更されている。但し、発話内容sp23については、取り扱いが未確定であるため、表示態様が変更されていない。
図6(d)は、ステップS119において、発話内容sp21の「サファリパーク」、発話内容sp22の「山口県」が有効なものと扱われ、ともにキーワードとして検索に用いられることを示す。これに対し、発話内容sp23は、ステップS104において一定時間が経過したと判定されたことに応じて、ステップS119で、発話内容sp23の話者の発話内容が無効なものとして扱われたことにより、その表示が消去されている。
このように、本実施形態では、同時に発話した複数の話者の発話内容を話者間で共通する態様で表示し、操作によりそれぞれ有効とするか無効とするかを選択可能としている。 そのため、複数の話者が同時に発話した場合でも、同時に発話された発話内容が話者毎に表示され、ユーザは、それぞれの発話内容を個別に設定できる。そのため、話者が同時に発声したことを察して発声を途中で中止したために、ユーザが望まないにも関わらず途中までの発話内容が入力された場合でも、発話を繰り返して入力された発話内容を取り消す等の煩わしい動作を行うことなく、途中までの発話内容を無効にすることができる。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。上述と同一の構成については、同一の符号を付して説明を援用する。
図7は、本実施形態に係る電子機器2の構成を示す概略図である。
電子機器2は、電子機器1(図2)に撮像部24を含んで構成される。撮像部24は、例えば、ズームレンズ、イメージセンサ、及び電子シャッターを含んだカメラモジュールである。
入力処理部134は、入力された発話データが示す発話内容について公知のワードスポッティング(word spotting)処理を用いてその一部又は全部の語句(抽出語句)を抽出し、予め定めた語句データを用いて、抽出した抽出語句に対応する語句(関連語句)を定める。語句データは、抽出語句と関連語句とを対応付けて構成されるデータである。語句データは、予め記憶部131に記憶させておく。
そして、入力処理部134は、関連語句を示す表示データを操作入力が受け付け可能になるように生成し、生成した表示データをディスプレイ121に出力する。また、入力処理部134は、ディスプレイ121に表示させた関連語句のうち、操作により選択されたか否かを判定する。選択されたと判定された場合、入力処理部134は、選択された関連語句を有効なものとして扱う。ここで、入力処理部134は、関連語句を示す発話データをアプリケーション処理部137に出力し、アプリケーション処理部137にその発話データに係る処理を実行させる。
上述したように、電子機器2は、ディスプレイ121に発話内容に関する情報として関連語句を表示するため、ユーザは、その関連語句を有効なものと扱うか否かの操作が促される。つまり、入力処理部134は、関連語句を表示させることで確認表示を表示させることを兼ね、別個に関連語句を表示させることが省略されている。
また、独立して発揮する機能の命令を示す関連語句(独立的関連語句)についてアプリケーション処理部137で処理が行われた後、入力処理部134は、関連語句のうち他の機能を補助する機能の命令を示すもの(補助的関連語句)を、無効なものとして扱ってもよい。独立的関連語句には、カメラに対する操作を例にとると、「撮影」がある。補助的関連語句には、例えば「撮影」に付随する「ズームイン」、「コントラストUP」がある。
(表示例)
次に、電子機器2のディスプレイ121に表示される画面の表示例について説明する。次の説明では撮像部24の動作を制御するデバイスドライバに対して、発話により命令を入力する場合を例にとる。語句データには、命令として用いられる語句が関連語句として格納され、抽出語句として関連語句、その関連語句との類義語、及びその関連語句を示唆もしくは連想する語句が含まれることを仮定する。
図8は、本実施形態に係る表示例を示す図である。
図8(a)には、2名の人物を被写体とする画像の下方に関連語句sp31、sp32が、話者によって異なる背景パターンで表示されていることを示す。関連語句sp31の「ズームイン」、sp32の「コントラストUP」は、それぞれ画像を拡大することを指示する命令、画像における明るい部分と暗い部分との明暗の差を増加することを指示する命令である。また、sp31及びsp32の背景パターンは、それぞれ点線及び左下下がりの実線の網掛けであって、互いに異なる。また、「ズームイン」は、主話者以外のある話者(話者A)の発話内容の「大きく写してね」から抽出された抽出語句「大きく」に対応する関連語句である。「コントラストUP」は、他の話者(話者B)の発話内容の「明るくていいね」から抽出された抽出語句「明るく」に対応する関連語句である。
図8(b)は、ユーザ(例えば、主話者)が「ズームイン」と表示された関連語句sp31に指を接触することにより、関連語句sp31が選択され、画像を拡大する処理がなされ、その後、関連語句sp31の表示が消去されたことを示す。
図8(c)は、主話者が、例えば「シャッター」と発話して「撮影」することが指示された後、選択されなかった関連語句sp32の「コントラストUP」の表示が消去されたことを示す。「撮影」は、主話者の発話内容がそのまま抽出された抽出語句「シャッター」に対応する関連語句である。なお、話者Bの発話により発話データが入力されてから一定時間経過し、かつ話者Bの発話内容が無効なものとして扱うと設定されている場合に、入力処理部134は、話者Bの発話内容に基づく関連語句sp32を無効なものとして扱い、その表示を消去させてもよい。
以上、説明したように、本実施形態では、話者毎の発話内容に関する情報として、発話内容から抽出した抽出語句に対応する関連語句を表示させ、操作に基づいて表示させた情報が有効か否かを判定する。
そのため、発話内容それ自体に限らず、これに関する情報についても、設定をその都度変更する等の煩雑な操作を行うことなく、所望の発話内容に関する情報を選択し、選択した発話内容に関する情報に係る動作を実行させることができる。
なお、上述した実施形態は、次の態様でも実施することができる。
(1)入力された音声データに基づいて話者を判別する話者判別処理部と、前記話者判別処理部が判別した話者毎の発話内容を認識する音声認識処理部と、前記音声認識処理部が認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する入力処理部と、を備える電子機器。
(2)(1)の電子機器であって、前記入力処理部は、予め定めた主話者以外の話者の発話内容に関する情報が有効か否かを判定する。
(3)(2)の電子機器であって、前記入力処理部は、前記発話内容に関する情報を表示部に表示させてから予め定めた時間、操作がなかった場合、当該発話内容に関する情報に係る処理を話者毎に有効か否かを設定することができる。
(4)(2)又は(3)の電子機器であって、前記入力処理部は、複数の話者が同時に発話した場合、前記複数の話者に共通な態様で前記情報を前記表示部に表示させる。
(5)(1)から(4)のいずれかの電子機器であって、前記入力処理部は、前記表示部に表示させた情報のうち、無効と判定した情報の表示を消去させる。
(6)電子機器における入力処理方法において、入力された音声データに基づいて話者を判別する話者判別処理過程と、前記話者判別処理過程で判別した話者毎の発話内容を認識する音声認識処理過程と、前記音声認識処理過程で認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する入力処理過程と、を有する入力処理方法。
(7)電子機器のコンピュータに、入力された音声データに基づいて話者を判別する話者判別処理手順、前記話者判別処理手順で判別した話者毎の発話内容を認識する音声認識処理手順、前記音声認識処理手順で認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する入力処理手順、を実行させるための入力処理プログラム。
なお、上述した実施形態における電子機器1、2の一部、例えば、制御部13をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、電子機器1、2のいずれかに内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における電子機器1、2の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。電子機器1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、2…電子機器、11…収音部、12…タッチパネル、121…ディスプレイ、
122…タッチセンサ、13…制御部、131…記憶部、132…話者判別処理部、
133…音声認識処理部、134…入力処理部、136…操作処理部、
137…アプリケーション処理部、24…撮像部

Claims (5)

  1. 入力された音声データに基づいて話者を判別する話者判別処理部と、
    前記話者判別処理部が判別した話者毎の発話内容を認識する音声認識処理部と、
    前記音声認識処理部が認識した話者毎の発話内容に関する情報を表示部に表示させ、
    操作に基づいて前記表示させた情報が有効か否かを判定する入力処理部と、
    を備える電子機器。
  2. 前記入力処理部は、予め定めた主話者以外の話者の発話内容に関する情報が有効か否かを判定する請求項1に記載の電子機器。
  3. 前記入力処理部は、前記発話内容に関する情報を表示部に表示させてから予め定めた時間、操作がなかった場合、当該発話内容に関する情報に係る処理を話者毎に有効か否かを設定することができる請求項2に記載の電子機器。
  4. 前記入力処理部は、複数の話者が同時に発話した場合、前記複数の話者に共通な態様で前記情報を前記表示部に表示させる請求項2又は請求項3に記載の電子機器。
  5. 前記入力処理部は、前記表示部に表示させた情報のうち、無効と判定した情報の表示を消去させる請求項1から請求項4のいずれかに記載の電子機器。
JP2013242907A 2013-11-25 2013-11-25 電子機器 Pending JP2015102667A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013242907A JP2015102667A (ja) 2013-11-25 2013-11-25 電子機器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013242907A JP2015102667A (ja) 2013-11-25 2013-11-25 電子機器

Publications (1)

Publication Number Publication Date
JP2015102667A true JP2015102667A (ja) 2015-06-04

Family

ID=53378406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013242907A Pending JP2015102667A (ja) 2013-11-25 2013-11-25 電子機器

Country Status (1)

Country Link
JP (1) JP2015102667A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698378A (zh) * 2019-03-15 2020-09-22 柯尼卡美能达株式会社 控制装置、图像形成系统以及记录介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198393A (ja) * 1997-01-08 1998-07-31 Matsushita Electric Ind Co Ltd 会話記録装置
JP2005350018A (ja) * 2004-06-14 2005-12-22 Honda Motor Co Ltd 車載用電子制御装置
JP2006301223A (ja) * 2005-04-20 2006-11-02 Ascii Solutions Inc 音声認識システム及び音声認識プログラム
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198393A (ja) * 1997-01-08 1998-07-31 Matsushita Electric Ind Co Ltd 会話記録装置
JP2005350018A (ja) * 2004-06-14 2005-12-22 Honda Motor Co Ltd 車載用電子制御装置
JP2006301223A (ja) * 2005-04-20 2006-11-02 Ascii Solutions Inc 音声認識システム及び音声認識プログラム
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698378A (zh) * 2019-03-15 2020-09-22 柯尼卡美能达株式会社 控制装置、图像形成系统以及记录介质

Similar Documents

Publication Publication Date Title
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
KR101066741B1 (ko) 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체
US10777193B2 (en) System and device for selecting speech recognition model
US9129011B2 (en) Mobile terminal and control method thereof
US7010490B2 (en) Method, system, and apparatus for limiting available selections in a speech recognition system
KR102141116B1 (ko) 음성 대화 서비스를 지원하는 인터페이스 장치 및 방법
NZ732357A (en) Headless task completion within digital personal assistants
JPWO2016103988A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR101545881B1 (ko) 휴대 단말기의 입력 처리 장치 및 방법
BR112015018905B1 (pt) Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
JP6418820B2 (ja) 情報処理装置、表示制御方法、及びコンピュータプログラム
JP2006048628A (ja) マルチモーダル入力方法
US20100178956A1 (en) Method and apparatus for mobile voice recognition training
EP3422344B1 (en) Electronic device for performing operation corresponding to voice input
JP7116088B2 (ja) 音声情報処理方法、装置、プログラム及び記録媒体
CN108538284A (zh) 同声翻译结果的展现方法及装置、同声翻译方法及装置
WO2021208531A1 (zh) 一种语音处理方法、装置和电子设备
FI128000B (en) Speech recognition method and device based on a wake up word
WO2016103809A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN113223542B (zh) 音频的转换方法、装置、存储介质及电子设备
US20170301349A1 (en) Speech recognition system
JP2015102667A (ja) 電子機器
CN105788590A (zh) 语音识别方法及装置、移动终端
CN109658933B (zh) 一种语音识别解锁方法、移动终端及存储器
US20070118381A1 (en) Voice control methods

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150520

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180417