JP2015038525A

JP2015038525A - 音声認識装置及び音声認識方法

Info

Publication number: JP2015038525A
Application number: JP2011080107A
Authority: JP
Inventors: 元將杉浦; Motomasa Sugiura; 浩司藤村; Koji Fujimura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2015-02-26
Also published as: US20120253808A1

Abstract

【課題】ユーザが画面をみることなく、ユーザ発声に対する音声認識処理側からのフィードバックを受けることができる音声認識装置及び音声認識方法を提供する。【解決手段】実施形態によれば、音声入力部１１と、音声入力部から出力されたデジタル信号を用いて音声認識処理を行い音声認識結果を出力し、かつ入力された音声信号の音声信頼度を出力する音声認識処理部１２と、音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部１３と、音声認識処理部から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定めたバイブレーション動作を行うバイブレーション動作部１４と、を備える。【選択図】図１

Description

本発明の実施形態は、音声を音声コマンドとして入力したり、音声をテキストに変換し入力することが可能な音声認識装置及び音声認識方法に関する。

近年、スマートフォンやスレート(又はタブレット)ＰＣ等のようにタッチパネル式ディスプレイによってキーボード無しでも操作が可能な携帯端末機器が開発され普及している。

このような携帯端末機器(単に、端末機器ともいう)は、複数の機能、通話及び通信手段を有しており、その複数の機能には、音声認識技術を用いて、音声を音声コマンドとして入力しテキストの編集や各種アプリケーションの動作などを制御したり、音声をテキストに変換し入力し文書化する機能を備えたものがある。

ところで、上記のような音声認識が可能な端末機器において、音声認識処理を用いたアプリケーションを使う上で，ユーザの発声が音声信号としてどのように入力されたかのフィードバックを返すことによりユーザのストレスを軽減させる方法がある。従来ではこのフィードバックの結果を画面に表示し，ユーザに提示を行っていた。しかし、この構成の場合、発話ごとにユーザは画面を見る必要がある。

特開２００６−３０１９９４号公報

そこで、本発明が解決しようとする課題は、ユーザが画面をみることなく、ユーザ発声に対する音声認識処理側からのフィードバックを受けることができる音声認識装置及び音声認識方法を提供することである。

本発明の実施形態の音声認識装置は、音声を入力し、デジタル信号に変換し出力する音声入力部と、前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、前記音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部と、前記音声認識処理部から出力される音声信頼度を用いて、前記バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定められたバイブレーション動作を行うバイブレーション動作部と、を具備する。

本発明の一実施形態の音声認識装置のブロック図である。実施形態の音声認識装置の動作を説明するフローチャートである。

以下、本発明の実施の形態の音声認識装置を図面を参照して説明する。

［第１の実施形態］
図１は本発明の一実施形態の音声認識装置のブロック図である。

図１において、音声認識装置１０は、音声入力部１１と、音声認識処理部１２と、バイブレーション動作パターンモデル保持部１３と、バイブレーション動作部１４と、を備えている。

音声入力部１１は、音声を入力し、デジタル信号に変換し出力する。
音声認識処理部１２は、音声入力部１１から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声認識信頼度(以下、単に音声信頼度)を算出し出力する。音声認識処理は、音声をコマンドとして受付けそのコマンドにより予め定められたアプリケーションを操作する処理と、音声をテキストに変換する処理との少なくとも１つを含む。

バイブレーション動作パターンモデル保持部１３は、音声認識処理部１２から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作のパターンを記憶(登録)しておく。バイブレーション動作のパターンとは、バイブレーション動作の例えば強弱又は期間の幾つかの段階に相当するものである。

バイブレーション動作部１４は、音声認識処理部１２から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部１３のモデルとマッチングするか否かを検出し、そのマッチングされたモデルに対して予め定められたバイブレーション動作を行う。

音声信頼度は音声認識結果の尤度(確からしさ又は尤もらしさの度合い)により定義される尺度であるが、具体的には、例えば音声のＳＮ比により定義される尺度を用いる。

次に、図２のフローチャートを参照して本実施形態の音声認識装置１０の動作を説明する。
以下の動作では、バイブレーション動作パターンモデル保持部１３には、音声認識処理部１２から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作のパターンを予め記憶(登録)してあるものとして説明する。

まず、ステップＳ1で、音声入力部１１が、音声を入力し、デジタル信号に変換し出力する。
次に、ステップＳ2で、音声認識処理部１２は、音声入力部１１から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を算出し出力する。

そして、ステップＳ3で、バイブレーション動作部１４は、音声認識処理部１２から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部１３に記憶している音声信頼度のモデルとマッチングするか否かを検出する。マッチングした場合は、ステップＳ5へ進む。マッチングしなかった場合は、ステップＳ4で、音声認識の状態または環境を変更すべく、ユーザは音声認識の感度状態などまたは音声認識装置１０の設置された場所を変化させながら、ステップＳ2へ戻り、ステップＳ3へと進むことを繰り返すことにより、ステップＳ3でマッチングした状態を得て、ステップＳ5へ進むことができる。

そして、ステップＳ5で、バイブレーション動作部１４は、そのマッチングした信頼度パターンモデルに対して予め定められたバイブレーション動作のパターンを保持部１３より検出してバイブレーション動作を行う。その結果として、音声信頼度の高低に対応した強度(又は期間)のバイブレーションを生成する。すなわち、バイブレーション動作部１４は、音声信頼度の高低に応じてバイブレーション動作の強弱又は期間を変える。

前記バイブレーション動作部１４は、音声信頼度の高低に対応したバイブレーション動作を行うほかに、音声信頼度の低いときのみバイブレーション動作を行ってもよいし、或いは逆に、音声信頼度の高いときのみバイブレーション動作を行うようにしてもよい。すなわち、音声信頼度が低く発生したおとが聴き取りにくいほど、換言すれば音声認識されにくいほど、ユーザにフィードバックするバイブレーションを強くしたり、或いは逆に聴き取りやすいほど、換言すれば音声認識されやすいほど、フィードバックするバイブレーションを強くするようにしてもよい。特に、音声信頼度が低く聴き取りずらいほど強くユーザにバイブレーション(フィードバック)で知らせるようにすると、ユーザが認識されやすい言葉を自然に話すようなフィードバックになる、というメリットも生じる。

以上述べた本発明の実施形態によれば、ユーザが画面をみることなく、ユーザ発声に対して音声認識処理側からのフィードバックを受け取ることが可能となる。

本発明の一実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０…音声認識装置、１１…音声入力部、１２…音声認識処理部、１３…バイブレーション動作パターンモデル保持部、１４…バイブレーション動作部。

本発明の実施形態の音声認識装置は、音声を入力し、デジタル信号に変換し出力する音声入力部と、前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力すると共に、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、前記音声信頼度を複数のパターンにモデル化して複数の信頼度パターンモデルとして記憶すると共に、前記複数の信頼度パターンモデルに夫々対応したバイブレーション動作の複数のパターンを保持するバイブレーション動作パターンモデル保持部と、前記音声認識処理部から出力される音声信頼度のパターンモデルが、前記バイブレーション動作パターンモデル保持部が記憶する前記複数の信頼度パターンモデルのうちのいずれかにマッチングするか否かを検出し、マッチングした信頼度パターンモデルが存在する場合には、マッチングした前記信頼度パターンモデルに対応した前記バイブレーション動作のパターンに応じたバイブレーション動作を行うバイブレーション動作部と、を具備する。

Claims

音声を入力し、デジタル信号に変換し出力する音声入力部と、
前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、
前記音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部と、
前記音声認識処理部から出力される音声信頼度を用いて、前記バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定められたバイブレーション動作を行うバイブレーション動作部と、
を具備したことを特徴とする音声認識装置。
前記音声信頼度は、音声認識結果の尤度により定義される尺度であることを特徴とする請求項１に記載の音声認識装置。
前記音声信頼度は、音声のＳＮ比により定義される尺度であることを特徴とする請求項１に記載の音声認識装置。
前記バイブレーション動作部は、前記音声信頼度の高低に応じてバイブレーション動作の期間又は強弱を変えることを特徴とする請求項１に記載の音声認識装置。
前記バイブレーション動作部は、前記音声信頼度の低いときのみバイブレーション動作を行うことを特徴とする請求項１に記載の音声認識装置。
前記バイブレーション動作部は、前記音声信頼度の高いときのみバイブレーション動作を行うことを特徴とする請求項１に記載の音声認識装置。
前記音声認識処理は、音声をコマンドとして受付けそのコマンドにより予め定められたアプリケーションを操作する処理と、音声をテキストに変換する処理との少なくとも１つを含むことを特徴とする請求項１に記載の音声認識装置。
音声を入力し、デジタル信号に変換して出力し、
この出力された音声のデジタル信号を用いて音声認識処理を行い、音声認識結果と入力された音声信号に対する音声信頼度を出力し、
前記出力される音声信頼度と、予め定めた音声信頼度パターンモデルとそれに対応する予め定めたバイブレーション動作のパターンとを記憶した保持部に記憶されている前記音声信頼度パターンモデルとがマッチングするか否かを、音声認識の状態または環境を変化させながら検出し、
マッチングをを検出したとき、そのマッチングした音声信頼度パターンモデルに対応したバイブレーション動作を実行する
ことを特徴とする音声認識方法。