JP2015102667A

JP2015102667A - 電子機器

Info

Publication number: JP2015102667A
Application number: JP2013242907A
Authority: JP
Inventors: 吉谷　典文; Norifumi Yoshitani; 典文吉谷; 茂典木下; Shigenori Kinoshita
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-11-25
Filing date: 2013-11-25
Publication date: 2015-06-04

Abstract

【課題】同時に発話された内容のうち所望の発話内容に関する情報をユーザに容易に選択させることができる電子機器を提供する。【解決手段】話者判別処理部は入力された音声データに基づいて話者を判別し、話者判別処理部が判別した話者毎の発話内容を認識し、入力処理部は音声認識処理部が認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する。これにより、同時に発話された内容のうち所望の発話内容に関する情報をユーザに容易に選択させることができる。【選択図】図２

Description

本発明は、電子機器に関する。

近年、ユーザによって多機能携帯電話（いわゆるスマートフォンを含む）、タブレット端末等のように持ち運びが容易な電子機器が普及している。このような電子機器には、電子メールによるメッセージの交換や、ブラウザによるインターネット上で利用可能な情報の検索を実現するために、文字や文章を入力する機能を備えたものがある。従来、文字や文章を入力する際、タッチパネルを備え、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）に表示されたキーボードにタッチして文字や文章を入力する機能が主であった。しかし、音声入力機能を備える電子機器が普及し、このような機能をユーザが身近に利用できる状況になっている。音声入力機能は、マイクロホンを備え、入力しようとする文字や文章をユーザが発声した音声で入力する機能である。文字や文章の他、所定の機能（例えば、搭載されたカメラによる撮影、等）を音声で指示することができる電子機器も開発されている。

音声入力機能には、話者を判別できるものや、複数の話者によって発話が同時になされた場合でも各話者の発話が個別に認識できるものがある。例えば、話者判別機能は、音声で入力された文章に話者情報を付与して議事録として表示する会議議事録支援ソフトウェアに応用されている。また、特許文献１に記載の音声処理装置は、会議室における複数の音声データより話者を特定し、第１及び第２の話者を特定した場合、第１及び第２の話者が同時に発話した区間を判定し、同時発話区間の第１の話者の音声データと第２の話者の音声データとを分離する。

特開２００９−１３９５９２号公報

しかしながら、音声入力機能を有する電子機器では、不特定の話者が発した音声が混入されることで、主たるユーザが望む入力結果、例えば、操作しようとする機能、検索のために用いようとするキーワードが得られないことがある。そこで、目的に応じて特定の話者の音声のみを認識するか、不特定の話者の音声をそれぞれ認識して入力しようとする文字列を取得することも考えられる。しかし、音声入力を開始する前に、目的に応じて話者を予め選択する必要があり、話者の変化に応じた柔軟な音声認識処理が行われなくなる。認識対象となる話者が変化する場合には、その都度、話者の設定に係る操作入力が求められるので煩雑である。

また、複数人の話者が同時に音声入力機能を利用しているとき、往々にして各話者は同時に発話することにより発話タイミングが被ることがある。特許文献１に記載の音声処理装置によれば、各話者が発話した音声を認識した認識結果を有効なものとして取り扱うことが可能であるが、同時に発話されたことを察した話者が発声を途中で中止することがある。その場合には、途中までの発声について音声認識処理がなされるので、誤認識が生じることがある。誤認識された音声認識結果を取り消すには、話者が再度発声を行って音声認識処理を行う等、煩雑な操作が必要になる。
本発明は上記の点に鑑みてなされたものであり、本発明の目的は、同時に発話された内容のうち所望の発話内容に関する情報をユーザに容易に選択させることができる電子機器を提供することにある。

本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された音声データに基づいて話者を判別する話者判別処理部と、前記話者判別処理部が判別した話者毎の発話内容を認識する音声認識処理部と、前記音声認識処理部が認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する入力処理部と、を備える電子機器である。

本発明によれば、同時に発話された内容のうち所望の発話内容に関する情報をユーザに容易に選択させることができる。

本発明の第１の実施形態に係る電子機器の構成を示す概略ブロック図である。本発明の第１の実施形態に係る音声入力処理を示すフローチャートである。本発明の第１の実施形態に係る表示例を示す図である。本発明の第２の実施形態に係る音声入力処理を示すフローチャートである。本発明の第３の実施形態に係る音声入力処理を示すフローチャートである。本発明の第３の実施形態に係る表示例を示す図である。本発明の第４の実施形態に係る電子機器の構成を示す概略ブロック図である。本発明の第４の実施形態に係る表示例を示す図である。

（第１の実施形態）
以下、図面を参照しながら本発明の第１の実施形態について説明する。
図１は、本実施形態に係る電子機器１の構成を示す概略ブロック図である。
電子機器１は、収音部１１、タッチパネル１２、及び制御部１３を含んで構成される。
収音部１１は、到来した音声を収録し、収録した音声を示す音声データを話者判別処理部１３２に出力する。収音部１１は、音声による振動を電気信号に変換し、変換した電気信号を音声データとして生成するマイクロホン（例えば、エレクロレットコンデンサマイクロホン）を含んで構成される。収音部１１は、複数のマイクロホンを備え、複数のチャネルの音声データを収録し、収録した音声データを制御部１３に出力してもよい。
電子機器１の一面は、例えば、ほぼ矩形の形状を有し、片手で把持できる程度の大きさを有する。

タッチパネル１２は、電子機器１の一面の大部分を占める入力機能付きの表示ユニットである。タッチパネル１２は、ディスプレイ（表示部）１２１とタッチセンサ（操作入力部）１２２とを含んで構成される。
ディスプレイ１２１は、制御部１３から入力された表示データを視覚で認識可能に表示する。ディスプレイ１２１は、例えば、液晶表示パネル、有機ＥＬ（ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）表示パネルである。
タッチセンサ１２２は、操作物（例えば、ユーザの指）が接触した位置を検知することで操作入力を受け付け、検知した位置を示す操作データを生成し、生成した操作データを制御部１３に出力する。タッチセンサ１２２は、例えば、静電容量センサを含んで構成される。ディスプレイ１２１がデータを表示する領域と、タッチセンサ１２２が位置を検出する領域の大部分は互いに重なり合っている。

制御部１３は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と記憶部１３１（後述）とを含んで構成され、記憶部１３１に格納されたプログラムをＣＰＵが実行することで電子機器１の動作を制御する。機能面で考察すると、制御部１３は、記憶部１３１、話者判別処理部１３２、音声認識処理部１３３、入力処理部１３４、操作処理部１３６、及びアプリケーション処理部（機能処理部）１３７を含んで構成される。

記憶部１３１は、動作に要するデータや、動作の過程で生成されたデータを記憶する。記憶部１３１には、話者判別データと音声認識データとからなる話者判別、音声認識データベースが形成されている。話者判別データは、音声データに基づいて話者を判別する際に用いるデータである。話者判別データは、話者毎の音響特徴量、例えば、ケプストラム、基本周波数、等を含むデータである。ここで、特定の話者（例えば、電子機器１の所持者）の話者判別データが設定され、記憶部１３１に記憶されていてもよい。
音声認識データは、音声データに基づいて発話内容を認識する際に用いるデータである。音声認識データは、音響特徴量から音韻を特定するための音響モデルと、音韻から発話内容を示すテキストを特定するための言語モデルとからなる。音響モデル、言語モデルは、例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、隠れマルコフモデル）である。

話者判別処理部１３２は、収音部１１から入力された音声データについて公知の話者判別処理を行って、その音声を発話している話者を判別する。話者判別処理は話者認識処理とも呼ばれる。話者判別処理部１３２は、例えば、記憶部１３１に記憶した話者毎の話者判別データを用いて尤度を算出し、最も尤度が高い話者（主話者）を判別する。話者判別処理部１３２は、尤度に基づいて主話者であるか、それ以外の話者（副話者）であるかを判別してもよい。話者判別処理部１３２は、判別した話者を示す話者データを音声データと対応付けて音声認識処理部１３３に出力する。

収音部１１が複数のマイクロホンを備える場合、話者判別処理部１３２は、入力された複数チャネルの音声データについて公知の音源分離処理を行って各話者が発話した音声の成分を示す話者別音声データを生成してもよい。音源分離処理では、各話者の位置の差異により、マイクロホン間で生じる振幅、音波の到来時間差、又はその両方の差異に基づいて、各話者が発話した音声の成分が推定される。話者判別処理部１３２は、入力された音声データに代えて生成した話者別音声データについて話者判別処理を行い、入力された音声データに代えて話者別音声データを音声認識処理部１３３に出力してもよい。
また、話者判別処理部１３２は、ある話者の話者別音声データと他の話者の話者別音声データとの間で、発話が重複している時間、つまり同時発話の有無を判定してもよい。話者判別処理部１３２は、同時発話の有無と同時発話している話者の組を示す同時発話データを生成し、生成した同時発話データを話者データと対応付けて音声認識処理部１３３に出力してもよい。

音声認識処理部１３３には、話者判別処理部１３２から話者データと音声データとが対応付けて入力される。音声認識処理部１３３は、入力された音声データについて収音部１１に記憶した音声認識データを用いて公知の音声認識処理を行って発話内容を認識し、認識した発話内容を示す発話データを生成する。発話データは、例えば、発話内容を表記するテキストデータで構成される。音声認識処理部１３３は、音声データと対応付けて入力された話者データと、生成した発話データと、を対応付けて入力処理部１３４に出力する。同時発話データが入力される場合には、音声認識処理部１３３は、その同時発話データも話者データ及び発話データと対応付けて入力処理部１３４に出力する。

入力処理部１３４は、音声認識処理部１３３から入力された話者データと発話データに基づいて話者毎の発話内容を示すテキストデータを含む表示データを生成する。入力処理部１３４は、表示データのうち、予め設定した第１の話者（例えば、電子機器１の所持者）以外の話者の発話内容の表示について操作入力を受け付け可能に設定してもよい。操作入力を受け付け可能とは、その発話内容がディスプレイ１２１に表示され、タッチセンサ１２２に、発話内容が表示された領域内で操作物（例えば、ユーザの指）を検知した場合、検知した操作データを生成し、制御部１３に出力することを意味する。
入力処理部１３４は、生成した表示データをディスプレイ１２１に出力する。これにより、入力処理部１３４は、ディスプレイ１２１に話者毎の発話内容を表示させる。

入力処理部１３４は、操作処理部１３６から入力された操作データに基づいて、表示させた話者毎の発話内容のいずれかが選択されたか否かを判定する。ここで、操作データが示す位置が、ディスプレイ１２１上に表示された発話内容が表示される領域に含まれる場合、その発話内容が選択されたと判定する。
入力処理部１３４は、選択された話者の発話内容について、その発話内容を有効にするか否かの確認表示を含む確認表示データを生成し、生成した確認表示データをディスプレイ１２１に出力する。入力処理部１３４は、発話内容を有効にするか否かの確認表示について操作入力を受け付け可能に設定してもよい。また、確認表示データには、その話者の発話内容を継続して（その時点で入力された発話データが示す発話内容に限らない）有効にするか否かの確認表示が含まれてもよい。

入力処理部１３４は、操作処理部１３６から入力された操作データに基づいて、その発話内容の有効性、つまり有効にするか否かのいずれが選択されたかを判定する。ここで、操作データが示す位置が、ディスプレイ１２１上に確認表示が表示された領域に含まれる場合、その確認表示が示す内容（つまり、有効にするか否か）が選択されたと判定する。
また、その話者の発話内容を継続して有効にするか否かを示す確認表示を含む場合も、入力処理部１３４は、その話者の発話内容を継続して有効にするか否かが選択されたと同様に判定することができる。

ディスプレイ１２１に表示データを出力してから予め定めた一定時間（例えば、５秒）が経過する（タイムアウト）前に、その発話内容の有効性（つまり、有効にするか否かのいずれか）が選択された場合、入力処理部１３４は、ディスプレイ１２１に表示させている確認表示を消去させる。
入力処理部１３４は、選択された有効性に応じて、その発話内容を扱う。即ち、有効にすると選択された場合、入力処理部１３４は、有効にすると選択された発話内容を示す発話データについて、（ｉ）アプリケーション処理部１３７に出力する。そして、（ｉｉ）アプリケーション処理部１３７でその発話データに係る処理が開始されたとき、入力処理部１３４は、ディスプレイ１２１に表示させているその発話内容を消去させる。
他方、無効にすると選択された場合、入力処理部１３４は、無効にすると選択された発話内容を示す発話データについて、（ｉｉｉ）消去し、（ｉｖ）ディスプレイ１２１に表示させているその発話内容を消去させる。

発話内容の有効性が選択されずに、ディスプレイ１２１に表示データを出力してから予め定めた一定時間（例えば、５秒）が経過した（タイムアウト）場合、入力処理部１３４は、入力された発話データについて、予め定めた設定（タイムアウト設定）に応じた処理を実行する。そのような設定には、例えば、その発話データが示す発話内容を有効なものとして扱う、その発話データが示す発話内容を無効なものとして扱う、がある。
有効なものとして扱うとは、入力処理部１３４が、その発話データについて上述した（ｉ）、（ｉｉ）を実行することを意味する。無効なものとして扱うとは、その発話データについて上述した（ｉｉｉ）、（ｉｖ）を実行することを意味する。
また、タイムアウト設定は、話者毎に独立に行われてもよいし、特定の話者について行われてもよいし、特定の話者（例えば、電子機器１の所持者以外の話者）以外の話者のグループについて共通して行われてもよい。

なお、その話者の発話内容を継続して有効にすると選択された場合、入力処理部１３４は、次にその話者の発話内容を示す発話データが入力されたとき、その発話内容を有効なものとして扱う。
その話者の発話内容を継続して無効にすると選択された場合、入力処理部１３４は、次にその話者の発話内容を示す発話データが入力されたとき、その発話内容を無効なものとして扱う。
また、入力処理部１３４は、特定の話者（例えば、電子機器１の所持者）の発話内容を常に有効なものとして扱ってもよい。

入力処理部１３４に、同時発話データが入力される場合には、ある話者の発話データと、それ以外の話者の発話データとが入力され、いずれかの話者（第１の話者）の発話データについて、その発話内容の有効性が先に確定することがある。その場合、第１の話者の発話データに係る表示データをディスプレイ１２１に出力してから予め定めた一定時間が経過した後、又は、その他の話者（第２の話者）の発話データが示す発話内容の有効性が確定した後、入力処理部１３４は、第１の話者の発話データをアプリケーション処理部１３７に出力するようにしてもよい。これにより、各話者の発話データが示す発話内容を確認するための時間が与えられ、その発話データに係る処理が順次なされる。そのため、ユーザは、同時発話時においても円滑な音声入力を実現することができる。

操作処理部１３６は、タッチセンサ１２２から入力された操作データ（電気信号）を予め定めた時間間隔（例えば、２０ｍｓ）毎にサンプリングする。操作処理部１３６は、サンプリングした操作データについてフィルタリング処理（例えば、平滑化）を行って操作データに混入したノイズを除去する。操作処理部１３６は、フィルタリング処理を行った操作データを入力処理部１３４に出力する。

アプリケーション処理部１３７は、電子機器１にインストールされているアプリケーションプログラム（以下、単にアプリケーションと呼ぶ）の実行を制御する。アプリケーションは、電子機器１の機能を発揮する処理を実行するためのプログラムである。アプリケーションには、例えば、入力されたキーワードをインターネットに接続されたサーバ装置に送信し、サーバ装置から受信した検索データを表示させるブラウザ、カメラ等の機器（デバイス）の動作を制御するデバイスドライバ、等がある。アプリケーション処理部１３７は、これらのアプリケーションを実行して、ディスプレイ１２１に表示させるための表示データを生成する。

アプリケーション処理部１３７には、入力処理部１３４から発話データが入力され、入力された発話データに応じた処理を行う。例えば、アプリケーションがブラウザである場合には、アプリケーション処理部１３７には、発話データが示す発話内容をキーワードとして入力され、入力されたキーワードをインターネット上のサーバ装置に送信する。また、アプリケーションが電子機器１に内蔵されたカメラの動作を制御するためのデバイスドライバである場合には、アプリケーション処理部１３７には、発話データが示す発話内容をコマンド（命令）として受け付ける。そして、アプリケーション処理部１３７は、カメラに受け付けたコマンドで指示される処理をカメラに実行させる。

（音声入力処理）
次に、本実施形態に係る音声入力処理について説明する。次に説明する例では、電子機器１の所持者を主たる話者（主話者）とし、主に主話者以外の発話内容を示す発話データについての取り扱いについて説明する。ここで、主話者の発話内容を常に有効であるものとして扱い、他の話者の発話内容よりも優先させる。
図２は、本実施形態に係る音声入力処理を示すフローチャートである。
（ステップＳ１０１）話者判別処理部１３２は、収音部１１から入力された音声データについて話者判別処理を行って、その音声を発話している話者を判別する。話者判別処理部１３２は、判別した話者を示す話者データを音声データと対応付けて音声認識処理部１３３に出力する。その後、ステップＳ１０２に進む。
（ステップＳ１０２）音声認識処理部１３３には、話者判別処理部１３２から入力された音声データについて音声認識処理を行って発話内容を認識し、認識した発話内容を示す発話データを生成する。音声認識処理部１３３は、音声データと対応付けて入力された話者データと生成した発話データとを対応付けて入力処理部１３４に出力する。その後、ステップＳ１０３に進む。

（ステップＳ１０３）入力処理部１３４は、音声認識処理部１３３から入力された話者データと発話データに基づいて話者毎の発話内容を示すテキストデータを含む表示データを生成し、生成した表示データをディスプレイ１２１に出力する。これにより、入力処理部１３４は、ディスプレイ１２１に話者毎の発話内容を表示させる。その後、ステップＳ１０４に進む。
（ステップＳ１０４）入力処理部１３４は、表示データをディスプレイ１２１に出力してから予め定めた一定時間が経過したか否かを判定する。経過したと判定された場合（ステップＳ１０４ＹＥＳ）、ステップＳ１０９に進む。経過していないと判定された場合（ステップＳ１０４ＮＯ）、ステップＳ１０５に進む。

（ステップＳ１０５）入力処理部１３４は、操作処理部１３６から入力された操作データに基づいて、ディスプレイ１２１に表示させた主話者以外の話者毎の発話内容のいずれかが選択されたか否かを判定する。選択されたと判定された場合（ステップＳ１０５ＹＥＳ）、ステップＳ１０６に進む。選択されていないと判定された場合（ステップＳ１０５ＮＯ）、ステップＳ１０４に戻る。
（ステップＳ１０６）入力処理部１３４は、選択された話者の発話内容について、その発話内容の有効性、つまり有効にするか否かの確認表示を含む確認表示データを生成し、生成した確認表示データをディスプレイ１２１に出力する。その後、ステップＳ１０７に進む。

（ステップＳ１０７）入力処理部１３４は、操作処理部１３６から入力された操作データに基づいて、その発話内容の有効性、つまり有効にするか否かが選択されたかを判定する。選択されたと判定された場合（ステップＳ１０７ＹＥＳ）、ステップＳ１０８に進む。選択されていないと判定された場合（ステップＳ１０７ＮＯ）、ステップＳ１０４に戻る。
（ステップＳ１０８）入力処理部１３４は、選択された有効性に応じて、その発話内容を扱う。即ち、有効にすると選択された場合、入力処理部１３４は、その発話内容を示す発話データをアプリケーション処理部１３７に出力する。無効にすると選択された場合、入力処理部１３４は、その発話内容を示す発話データを消去する。その後、図２に示す処理を終了する。

（ステップＳ１０９）入力処理部１３４は、予め定めた設定（タイムアウト設定）に応じた処理を実行する。即ち、その発話データが示す発話内容を有効なものとして扱うと設定された場合、入力処理部１３４は、その発話データをアプリケーション処理部１３７に出力する。その発話データが示す発話内容を無効なものとして扱うと設定された場合、入力処理部１３４は、その発話データを消去する。その後、図２に示す処理を終了する。

（表示例）
次に、図２に示す処理を実行したときに電子機器１のディスプレイ１２１に表示される画面の表示例について説明する。次の説明では、電子機器１においてブラウザの起動中に、発話により検索用のキーワードを入力する場合を例にとる。
図３は、本実施形態に係る表示例を示す図である。
図３（ａ）は、ステップＳ１０３により、話者毎の発話内容ｓｐ１１、ｓｐ１２が、話者によって異なる背景パターンで表示されていることを示す。発話内容ｓｐ１１の背景パターンは点線による網掛けである。発話内容ｓｐ１２の背景パターンは左下下がりの斜線による網掛けである。これにより発話内容毎の話者を容易に把握することができる。発話内容ｓｐ１１は、主話者の発話内容「サファリパーク」を示す。発話内容ｓｐ１２は、主話者以外の話者（例えば、小児）の発話内容「どこかに行くの」を示す。

図３（ｂ）は、ステップＳ１０５において発話内容ｓｐ１２が選択されたことに応じて、図２のステップＳ１０６により表示される確認表示である。図３（ｂ）の例では、画面に発話内容ｓｐ１２、確認表示ｅ１１〜ｅ１４が順に示されている。確認表示ｅ１１は、発話内容ｓｐ１２を有効なものとして扱う表示であり、ｅ１２は発話内容ｓｐ１２を無効なものとして扱う表示であり、ｅ１３は発話内容ｓｐ１２の話者の発話内容を継続して有効なものとして扱う表示であり、ｅ１４は発話内容ｓｐ１２の話者の発話内容を継続して無効なものとして扱う表示である。
図３（ｃ）は、ステップＳ１０７において、確認表示ｅ１２が選択されたことに応じて、ステップＳ１０８において、発話内容ｓｐ１２が無効なものと扱われ、発話内容ｓｐ１２が消去されている。発話内容ｓｐ１１「サファリパーク」は、引き続き表示されている。発話内容ｓｐ１１が有効なものと扱われ、タイムアウト経過後に「サファリパーク」のみがキーワードとして検索に用いられる。

以上、説明したように、本実施形態は、入力された音声データに基づいて話者を判別し、判別した話者毎の発話内容を認識し、認識した話者毎の発話内容を表示部に表示させ、操作に基づいて表示させた発話内容が有効か否かを判定する。
そのため、ある第１の話者が音声入力のために発声しているときに、他の第２の話者が発声したときでも、第１の話者は音声入力を中断することなく、第１の話者、第２の話者それぞれの発話内容を、有効とするか無効とするかを設定することができる。従って、第１の話者は、話者の設定をその都度変更する等の煩雑な操作を行うことなく、所望の発話内容、例えば、自己の発話内容や許可した話者の発話内容を選択し、選択した発話内容に係る動作を実行させることができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。上述と同一の構成については、同一の符号を付して説明を援用する。本実施形態に係る電子機器１のハードウェアの構成は、第１の実施形態に係る電子機器１と同様である。
但し、発話データについて、その発話内容の有効性についての設定が入力処理部１３４になされている場合、図２に示す音声入力処理のうち、ステップＳ１０５−Ｓ１０８を省略し、ステップＳ１０９を実行することができる。

図４は、本実施形態に係る音声入力処理を示すフローチャートである。
図４に示す処理では、ステップＳ１０４において入力処理部１３４が、表示データをディスプレイ１２１に出力してから予め定めた一定時間が経過していないと判定された場合（ステップＳ１０４ＮＯ）、ステップＳ１０４を繰り返す。
ここで、入力処理部１３４において、主話者の発話内容のみが有効と設定され、その他の話者の発話内容が無効と設定され、主話者、その他の話者が、それぞれ「サファリパーク」、「どこかに行くの」と発話した場合を仮定する。ステップＳ１０３では、図３（ａ）に示す表示がなされるが、図３（ｂ）に示す確認表示がなされない。しかし、ステップＳ１０９では、主話者の発話「サファリパーク」のみが有効と扱われるので、図３（ｃ）に示す表示がなされ、「サファリパーク」のみがタイムアウト経過後にキーワードとして検索に用いられる。

以上、説明したように、本実施形態では、その発話内容を表示させてから一定時間後に経過した場合の発話データについての取り扱いについて設定しておき、設定に応じた処理を行う。これにより、認識された発話内容に対して設定通りの取り扱いで問題がない場合には、ユーザには操作を行わずに済み、設定とは異なる取り扱いを希望する場合にのみ、操作を行えばよいため、円滑な音声入力を実現することができる。

（第３の実施形態）
次に、本発明の第３の実施形態について説明する。上述と同一の構成については、同一の符号を付して説明を援用する。本実施形態に係る電子機器１のハードウェアの構成は、上述した実施形態に係る電子機器１と同様である。
但し、入力処理部１３４は、同時発話データが入力された場合、同時発話データが示す複数話者についての発話データに、その発話データが示す発話内容のテキストを話者間で共通する態様（モード）で表示することを指示するモードデータを付加する。入力処理部１３４は、モードデータを付加した発話データをディスプレイ１２１に出力させ、その発話データが示す発話内容のテキストをモードデータが示す態様でディスプレイ１２１に表示させる。共通する態様とは、例えば、文字の色、背景色、背景パターン、字体、装飾、等のいずれか、またはその組み合わせが共通であることを意味する。これにより、ユーザは、表示された発話内容が同時に発話されたことを直感的に認識することができる。
また、入力処理部１３４には、主話者以外の各話者（例えば、話者Ａ、話者Ｂのそれぞれ）について、その発話内容を有効なものとして扱うか、無効なものとして扱うかについて設定しておく。

次に、本実施形態に係る音声入力処理について説明する。
図５は、本実施形態に係る音声入力処理を示すフローチャートである。
図５に示す音声入力処理は、図２に示す音声入力処理において、ステップＳ１０３、Ｓ１０９に代えて、ステップＳ１１３、Ｓ１１９を有する。ステップＳ１０２が終了した後、ステップＳ１１３に進む。
（ステップＳ１１３）入力処理部１３４は、入力された同時発話データが示す複数話者について共通する態様で、発話データが示す発話内容を示すテキストをディスプレイ１２１に表示させる。その後、ステップＳ１０４に進む。
そして、ステップＳ１０４において、入力処理部１３４が、表示データをディスプレイ１２１に出力してから予め定めた一定時間が経過したと判定した後（ステップＳ１０４ＹＥＳ）、ステップＳ１１９に進む。
（ステップＳ１１９）入力処理部１３４は、予め定めた話者毎の設定に応じた処理を実行する。ここで、発話内容を有効なものとして扱うと設定された話者の発話データについては、入力処理部１３４は、その発話データをアプリケーション処理部１３７に出力する。発話内容を無効なものとして扱うと設定された話者の発話データについては、入力処理部１３４は、その発話データを消去する。その後、図５に示す処理を終了する。

（表示例）
次に、図５に示す処理を実行したときにディスプレイ１２１に表示される画面の表示例について説明する。次の説明では、電子機器１においてブラウザの起動中に、発話により検索用のキーワードを入力する場合を例にとる。
図６は、本実施形態に係る表示例を示す図である。
図６（ａ）は、ステップＳ１１３により、話者毎の発話内容ｓｐ２１、ｓｐ２２、ｓｐ２３が表示されていることを示す。ここで、発話内容ｓｐ２１は実線の矩形で囲まれている。しかし、発話内容ｓｐ２２、ｓｐ２３が破線の矩形で囲まれている点で、表示態様が共通であり、その他の発話内容ｓｐ２１よりも互いに近接して表示されている。発話内容ｓｐ２２、ｓｐ２３の背景パターンは、それぞれ左下下がりの斜線及び右下下がり斜線による網掛けが施されている。これにより、ユーザは、発話内容ｓｐ２２、ｓｐ２３が同時に発話されたものであって取り扱いが未確定であることを容易に把握することができる。

図６（ｂ）は、ステップＳ１０５において発話内容ｓｐ２２が選択されたことに応じて、ステップＳ１０６により表示される確認表示である。この例では、発話内容ｓｐ２２、確認表示ｅ１１〜ｅ１４が順に示されている。確認表示ｅ１１〜ｅ１４は、図３（ｂ）に示したものと同様である。
図６（ｃ）は、ステップＳ１０７において、確認表示ｅ１１が選択されたことにより、ステップＳ１０８において、発話内容ｓｐ２２が有効なものと扱われ、その表示態様が変更されている。ここで、発話内容ｓｐ２２を示す「山口県」が実線で囲まれ、背景パターンも縦線の網掛けに変更されている。但し、発話内容ｓｐ２３については、取り扱いが未確定であるため、表示態様が変更されていない。
図６（ｄ）は、ステップＳ１１９において、発話内容ｓｐ２１の「サファリパーク」、発話内容ｓｐ２２の「山口県」が有効なものと扱われ、ともにキーワードとして検索に用いられることを示す。これに対し、発話内容ｓｐ２３は、ステップＳ１０４において一定時間が経過したと判定されたことに応じて、ステップＳ１１９で、発話内容ｓｐ２３の話者の発話内容が無効なものとして扱われたことにより、その表示が消去されている。

このように、本実施形態では、同時に発話した複数の話者の発話内容を話者間で共通する態様で表示し、操作によりそれぞれ有効とするか無効とするかを選択可能としている。そのため、複数の話者が同時に発話した場合でも、同時に発話された発話内容が話者毎に表示され、ユーザは、それぞれの発話内容を個別に設定できる。そのため、話者が同時に発声したことを察して発声を途中で中止したために、ユーザが望まないにも関わらず途中までの発話内容が入力された場合でも、発話を繰り返して入力された発話内容を取り消す等の煩わしい動作を行うことなく、途中までの発話内容を無効にすることができる。

（第４の実施形態）
次に、本発明の第４の実施形態について説明する。上述と同一の構成については、同一の符号を付して説明を援用する。
図７は、本実施形態に係る電子機器２の構成を示す概略図である。
電子機器２は、電子機器１（図２）に撮像部２４を含んで構成される。撮像部２４は、例えば、ズームレンズ、イメージセンサ、及び電子シャッターを含んだカメラモジュールである。

入力処理部１３４は、入力された発話データが示す発話内容について公知のワードスポッティング（ｗｏｒｄｓｐｏｔｔｉｎｇ）処理を用いてその一部又は全部の語句（抽出語句）を抽出し、予め定めた語句データを用いて、抽出した抽出語句に対応する語句（関連語句）を定める。語句データは、抽出語句と関連語句とを対応付けて構成されるデータである。語句データは、予め記憶部１３１に記憶させておく。
そして、入力処理部１３４は、関連語句を示す表示データを操作入力が受け付け可能になるように生成し、生成した表示データをディスプレイ１２１に出力する。また、入力処理部１３４は、ディスプレイ１２１に表示させた関連語句のうち、操作により選択されたか否かを判定する。選択されたと判定された場合、入力処理部１３４は、選択された関連語句を有効なものとして扱う。ここで、入力処理部１３４は、関連語句を示す発話データをアプリケーション処理部１３７に出力し、アプリケーション処理部１３７にその発話データに係る処理を実行させる。

上述したように、電子機器２は、ディスプレイ１２１に発話内容に関する情報として関連語句を表示するため、ユーザは、その関連語句を有効なものと扱うか否かの操作が促される。つまり、入力処理部１３４は、関連語句を表示させることで確認表示を表示させることを兼ね、別個に関連語句を表示させることが省略されている。
また、独立して発揮する機能の命令を示す関連語句（独立的関連語句）についてアプリケーション処理部１３７で処理が行われた後、入力処理部１３４は、関連語句のうち他の機能を補助する機能の命令を示すもの（補助的関連語句）を、無効なものとして扱ってもよい。独立的関連語句には、カメラに対する操作を例にとると、「撮影」がある。補助的関連語句には、例えば「撮影」に付随する「ズームイン」、「コントラストＵＰ」がある。

（表示例）
次に、電子機器２のディスプレイ１２１に表示される画面の表示例について説明する。次の説明では撮像部２４の動作を制御するデバイスドライバに対して、発話により命令を入力する場合を例にとる。語句データには、命令として用いられる語句が関連語句として格納され、抽出語句として関連語句、その関連語句との類義語、及びその関連語句を示唆もしくは連想する語句が含まれることを仮定する。

図８は、本実施形態に係る表示例を示す図である。
図８（ａ）には、２名の人物を被写体とする画像の下方に関連語句ｓｐ３１、ｓｐ３２が、話者によって異なる背景パターンで表示されていることを示す。関連語句ｓｐ３１の「ズームイン」、ｓｐ３２の「コントラストＵＰ」は、それぞれ画像を拡大することを指示する命令、画像における明るい部分と暗い部分との明暗の差を増加することを指示する命令である。また、ｓｐ３１及びｓｐ３２の背景パターンは、それぞれ点線及び左下下がりの実線の網掛けであって、互いに異なる。また、「ズームイン」は、主話者以外のある話者（話者Ａ）の発話内容の「大きく写してね」から抽出された抽出語句「大きく」に対応する関連語句である。「コントラストＵＰ」は、他の話者（話者Ｂ）の発話内容の「明るくていいね」から抽出された抽出語句「明るく」に対応する関連語句である。

図８（ｂ）は、ユーザ（例えば、主話者）が「ズームイン」と表示された関連語句ｓｐ３１に指を接触することにより、関連語句ｓｐ３１が選択され、画像を拡大する処理がなされ、その後、関連語句ｓｐ３１の表示が消去されたことを示す。
図８（ｃ）は、主話者が、例えば「シャッター」と発話して「撮影」することが指示された後、選択されなかった関連語句ｓｐ３２の「コントラストＵＰ」の表示が消去されたことを示す。「撮影」は、主話者の発話内容がそのまま抽出された抽出語句「シャッター」に対応する関連語句である。なお、話者Ｂの発話により発話データが入力されてから一定時間経過し、かつ話者Ｂの発話内容が無効なものとして扱うと設定されている場合に、入力処理部１３４は、話者Ｂの発話内容に基づく関連語句ｓｐ３２を無効なものとして扱い、その表示を消去させてもよい。

以上、説明したように、本実施形態では、話者毎の発話内容に関する情報として、発話内容から抽出した抽出語句に対応する関連語句を表示させ、操作に基づいて表示させた情報が有効か否かを判定する。
そのため、発話内容それ自体に限らず、これに関する情報についても、設定をその都度変更する等の煩雑な操作を行うことなく、所望の発話内容に関する情報を選択し、選択した発話内容に関する情報に係る動作を実行させることができる。

なお、上述した実施形態は、次の態様でも実施することができる。
（１）入力された音声データに基づいて話者を判別する話者判別処理部と、前記話者判別処理部が判別した話者毎の発話内容を認識する音声認識処理部と、前記音声認識処理部が認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する入力処理部と、を備える電子機器。
（２）（１）の電子機器であって、前記入力処理部は、予め定めた主話者以外の話者の発話内容に関する情報が有効か否かを判定する。
（３）（２）の電子機器であって、前記入力処理部は、前記発話内容に関する情報を表示部に表示させてから予め定めた時間、操作がなかった場合、当該発話内容に関する情報に係る処理を話者毎に有効か否かを設定することができる。
（４）（２）又は（３）の電子機器であって、前記入力処理部は、複数の話者が同時に発話した場合、前記複数の話者に共通な態様で前記情報を前記表示部に表示させる。
（５）（１）から（４）のいずれかの電子機器であって、前記入力処理部は、前記表示部に表示させた情報のうち、無効と判定した情報の表示を消去させる。

（６）電子機器における入力処理方法において、入力された音声データに基づいて話者を判別する話者判別処理過程と、前記話者判別処理過程で判別した話者毎の発話内容を認識する音声認識処理過程と、前記音声認識処理過程で認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する入力処理過程と、を有する入力処理方法。
（７）電子機器のコンピュータに、入力された音声データに基づいて話者を判別する話者判別処理手順、前記話者判別処理手順で判別した話者毎の発話内容を認識する音声認識処理手順、前記音声認識処理手順で認識した話者毎の発話内容に関する情報を表示部に表示させ、操作に基づいて前記表示させた情報が有効か否かを判定する入力処理手順、を実行させるための入力処理プログラム。

なお、上述した実施形態における電子機器１、２の一部、例えば、制御部１３をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、電子機器１、２のいずれかに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における電子機器１、２の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現してもよい。電子機器１の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、２…電子機器、１１…収音部、１２…タッチパネル、１２１…ディスプレイ、
１２２…タッチセンサ、１３…制御部、１３１…記憶部、１３２…話者判別処理部、
１３３…音声認識処理部、１３４…入力処理部、１３６…操作処理部、
１３７…アプリケーション処理部、２４…撮像部

Claims

入力された音声データに基づいて話者を判別する話者判別処理部と、
前記話者判別処理部が判別した話者毎の発話内容を認識する音声認識処理部と、
前記音声認識処理部が認識した話者毎の発話内容に関する情報を表示部に表示させ、
操作に基づいて前記表示させた情報が有効か否かを判定する入力処理部と、
を備える電子機器。
前記入力処理部は、予め定めた主話者以外の話者の発話内容に関する情報が有効か否かを判定する請求項１に記載の電子機器。
前記入力処理部は、前記発話内容に関する情報を表示部に表示させてから予め定めた時間、操作がなかった場合、当該発話内容に関する情報に係る処理を話者毎に有効か否かを設定することができる請求項２に記載の電子機器。
前記入力処理部は、複数の話者が同時に発話した場合、前記複数の話者に共通な態様で前記情報を前記表示部に表示させる請求項２又は請求項３に記載の電子機器。
前記入力処理部は、前記表示部に表示させた情報のうち、無効と判定した情報の表示を消去させる請求項１から請求項４のいずれかに記載の電子機器。