JP6016134B2

JP6016134B2 - 音声入力装置、音声入力方法及びプログラム

Info

Publication number: JP6016134B2
Application number: JP2014501834A
Authority: JP
Inventors: 祐介犬塚
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-02-27
Filing date: 2012-10-10
Publication date: 2016-10-26
Anticipated expiration: 2032-10-10
Also published as: WO2013128508A1; EP2821916B1; US20150106098A1; EP2821916A1; US9842589B2; EP2821916A4; JPWO2013128508A1

Description

本発明は、音声入力装置、音声入力方法及びプログラムに関し、詳細には、ディクテーション（ｄｉｃｔａｔｉｏｎ：口述）の内容を音声認識して文字入力する音声入力装置、音声入力方法及びプログラムに関する。

近年、携帯電話機などの携帯型端末装置（以下、単に携帯端末という）の性能向上に伴い、端末上で高性能なアプリケーションを実行できる環境が整ってきた。そのアプリケーションの一つに、声で文章を述べる（口述する）だけで、その口述内容を音声認識して文字入力することができるディクテーション用アプリケーションがある（たとえば、下記の特許文献１〜６参照）。かかるディクテーション入力（音声認識による文字入力）は、とりわけ携帯端末に有効である。携帯端末の入力デバイスは、タッチパネルなど操作効率の悪いものしか搭載されていないからである。上記のアプリケーションを実装すれば、口述内容をそのまま文字入力できるので、操作効率の悪いタッチパネルなどの入力デバイスを使用しなくても済む。

特開２０１０−０８５５３６号公報特開２００４−０９３６９８号公報特開２００１−３０６０９１号公報特開２００３−０４４０８５号公報特開２０００−１３２１８６号公報特開２０００−０２００９２号公報

しかしながら、前記の特許文献１〜６の技術は、ディクテーション中の文字入力とコマンド入力を正しく区別することができないという第一の問題点があり、また、ディクテーション中に近くの人物から話しかけられたりしたときに、不本意な文字入力が行われてしまうという第二の問題点がある。

（１）第一の問題点について説明する。
ディクテーションによって文章を入力するとき、その文章の構造に応じたコマンドの入力を必要とすることがある。たとえば、改行などのコマンド入力、あるいは、文字の削除や任意位置へのカーソル移動、文字の挿入などのコマンド入力である。これらのコマンド入力を音声で行うことも可能（特許文献４、特許文献５）であるが、たとえば、“かいぎょう”と発声しても、それが文字入力なのかコマンド入力なのかを区別できない。この区別を行うために、一定の時間発声がないと、コマンド入力モードに切り換えるという技術（特許文献６）もあるが、発声のタイミングを意識する必要があり、使い勝手に難がある。また、特定のキーやボタンを押しながら発声した場合に、その発声をコマンド入力と解釈するという手法も考えられるが、この手法は、キーやボタンの操作を必要とし、操作性の悪化を招くので好ましくない。したがって、使い勝手や操作性の悪化を招くことなく、ディクテーション中の文字入力とコマンド入力を正しく区別することが求められる。

（２）第二の問題点について説明する。
たとえば、職場などでディクテーションを行う場合、しばしば近くの人物から話しかけられることがある。このような場合、システムは近くの人物の発声をディクテーションと誤認し、不本意な文字入力が行われてしまう。このような不本意な文字入力が行われたときには、遡って文字の訂正処理（特許文献２、特許文献３）を実行しなければならないが、その間、ディクテーションを中断しなければならず、文章思考の連続性を保てない。この原因は、そもそも不本意な文字入力が行われるからである。したがって、ディクテーション中の不本意な文字入力を回避することも求められる。

そこで、本発明の目的は、ディクテーション中の文字入力とコマンド入力を正しく区別することができ、または、ディクテーション中の不本意な文字入力を回避することができる音声入力装置、音声入力方法及びプログラムを提供することにある。

本発明の音声入力装置は、ユーザの音声を入力する入力手段と、前記入力手段によって入力されたユーザの音声を音声認識する認識手段と、前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段と、自装置の姿勢を検出する検出手段と、前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段と、前記特定の姿勢をユーザに選択させる選択手段とを備えたことを特徴とする。
本発明の音声入力方法は、ユーザの音声を入力する入力工程と、前記入力工程で入力されたユーザの音声を音声認識する認識工程と、前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、自装置の姿勢を検出する検出工程と、前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と、前記特定の姿勢をユーザに選択させる選択工程とを含むことを特徴とする。
本発明のプログラムは、コンピュータに、ユーザの音声を入力する入力手段、前記入力手段によって入力されたユーザの音声を音声認識する認識手段、前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、自装置の姿勢を検出する検出手段、前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段、前記特定の姿勢をユーザに選択させる姿勢選択手段としての機能を与えることを特徴とする。

本発明によれば、ディクテーション中の文字入力とコマンド入力を正しく区別することができ、または、ディクテーション中の不本意な文字入力を回避することができる。

実施形態に係る音声入力装置１の構成図である。実施形態に係る音声入力装置１の動作フローを示す図である。付記１、付記２及び付記３の構成図である。

以下、本発明の実施形態を、図面を参照しながら説明する。
まず、構成を説明する。
図１は、実施形態に係る音声入力装置１の構成図である。この図において、音声入力装置１は、少なくとも、中央制御部１０、姿勢センサ１１、マイク１２、カメラ１３、表示部１４、及び、通信部１５を備えて構成されている。なお、これら以外にもバッテリを含む電源部などを備えるが、図面の輻輳を避けるために省略している。

姿勢センサ１１は、音声入力装置１それ自体の姿勢、つまり自装置の姿勢を検出し、その検出結果を示す電気的な信号を中央制御部１０に出力する。この姿勢センサ１１には、たとえば、三軸加速度センサや傾きセンサまたはジャイロセンサなどを使用することができる。マイク１２は、ユーザ（音声入力装置１の操作者）の音声を取り込み、電気的な信号に変換して中央制御部１０に出力する。表示部１４は、タッチパネル付きの平面表示デバイス（液晶パネルやＥＬパネルなど）であり、カメラ１３は、すくなくとも、前記の表示部１４を見ているユーザの顔を動画または周期的な静止画（連写画像ともいう）で撮影し、その撮影データを中央制御部１０に出力する。通信部１５は、任意の通信媒体、たとえば、携帯電話やＷｉＦｉなどの無線回線または一般公衆回線や光ケーブルあるいはＡＤＳＬなどの有線回線を用い、必要に応じて、インターネット等のネットワーク１６に設けられている音声認識サーバ１７にアクセスする。

中央制御部１０は、コンピュータ（ＣＰＵ）１０ａや、プログラム記憶用の不揮発性半導体メモリ（ＲＯＭ）１０ｂ及びプログラム実行用の高速半導体メモリ（ＲＡＭ）１０ｃ並びに不図示の周辺回路（入出力部等）で構成された汎用のプログラム制御要素である。中央制御部１０は、ＲＯＭ１０ｂに書き込まれている制御プログラム（基本プログラムや応用プログラム及びそれらのプログラムに必要とされる各種データ）をＲＡＭ１０ｂにロードして、ＣＰＵ１０ａで実行することにより、その制御プログラムの内容に応じた機能、すなわち、音声入力装置１の動作に必要な各種機能を実現する。

上記の“機能”とは、中央制御部１０において、ＣＰＵ１０ａなどのハードウェアリソースと制御プログラムなどのソフトウェアリソースとの有機的結合によって仮想的に実現される動作や動きまたは仕組みのことをいう。機能は実体（形）を伴わない。

実施形態の中央制御部１０で実現される機能は、たとえば、姿勢検出機能１０１、音声入力機能１０２、コマンド認識機能１０３、ディクテーション機能１０４、画像取得機能１０５、顔検出機能１０６、表示機能１０７、および、通信機能１０８などである。前記のとおり、これらの機能は実体（形）を伴わないものであるが、この態様（実体を伴わないもの）に限定されない。発明の思想上は、上記の各機能の一部またはすべてを“実体を伴うもの”、すなわち、ハードロジック等で構成してもかまわない。

総合的に見て、図示の各機能は、第一に、この音声入力装置１にディクテーション、つまり、ユーザの口述内容を音声認識して文字入力する仕組みを与える。ここで「文字入力」とは、表示部１４の画面上に文字として認識可能な状態で表示すること、及び、その表示と同時に、コード化された文字列情報として編集可能な状態でＲＡＭ１０ｃなどに一時保存することを意味する。

図示の各機能は、第二に、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別する仕組み（冒頭の第一の問題点を解消するための仕組み）を与える。なお、この実施形態では「コマンド」を通常用と編集用の二種類の用途で使用する。通常用コマンドは、音声入力装置１に対して何らかの動作を促すためのコマンドであり、たとえば、この音声入力装置１が携帯電話機を兼ねている場合の電話機能をオンにしたりするためのコマンド（“でんわ”などの音声コマンド）である。加えて、この実施形態では、通常用コマンドでディクテーション動作をオンにしたりオフにしたりする。たとえば、ディクテーション動作をオンにする場合は“でぃくてーしょんおん”などと発声し、また、ディクテーション動作をオフにする場合は“でぃくてーしょんおふ”などと発声する。

ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別する仕組みのポイントは、音声入力装置１の「姿勢」に基づいて行う点にある。たとえば、音声入力装置１が「特定の姿勢」になっていればコマンド入力と識別し、そうでなければ文字入力と識別する。

特定の姿勢は様々考えられる。たとえば、文字入力のためのディクテーションを行っているときの音声入力装置１の一般的な姿勢を基準姿勢とし、その基準姿勢から外れた姿勢を「特定の姿勢」としてもよい。また、姿勢を動きと解釈してもよい。たとえば、「特定の姿勢」に、音声入力装置１を振るといった動作の意味を持たせてもよい。なお、“外れた”とは、所定の大きさ（閾値）以上に姿勢が変わったことをいう。

文字入力のためのディクテーションを行っているときの一般的な姿勢の典型は、音声入力装置１を立てた姿勢である。具体的には、表示部１４の画面が重力方向と平行する姿勢または同平行に近い角度になっている姿勢である。多くのユーザは、文字入力のためのディクテーションを行う際に、表示部１４の画面を顔の前に置き、画面を垂直または垂直に近い角度で立てた状態にして、その画面の表示を見ながらマイク１２に向かって発声するからである。したがって、この場合は、音声入力装置１が立っていない姿勢を前記の「特定の姿勢」とし、この特定の姿勢のときの発声をコマンド入力として識別する一方、特定の姿勢以外の姿勢、つまり、音声入力装置１が立っている姿勢のときの発声を文字入力として識別する。

いうまでもなく、「特定の姿勢」はこの例示に限定されない。たとえば、前記例示の逆であってもよい。すなわち、音声入力装置１が立っている姿勢を前記の「特定の姿勢」とし、この特定の姿勢のときの発声をコマンド入力として識別する一方、特定の姿勢以外の姿勢、つまり、音声入力装置１が立っていない姿勢のときの発声を文字入力として識別するようにしてもよい。あるいは、音声入力装置１を左右に傾けたり、前後にあおったりした姿勢を「特定の姿勢」としてもよい。または、「特定の姿勢」をユーザが任意に指定できるようにしてもよい。たとえば、システムメニューの中に「コマンド識別用姿勢の設定」という項目を設けておき、ユーザがその項目を選択した際に、表示部１４の画面に、たとえば、“希望の姿勢にして決定ボタンを押してください。”などのメッセージを表示し、決定ボタンが押されたときの姿勢を前記の「特定の姿勢」としてシステムに記憶させるようにしてもよい。

図示の各機能は、第三に、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力（当該近くの人物の発声が文字認識されてしまう）を回避するための仕組み（冒頭の第二の問題点を解消するための仕組み）を与える。この仕組みのポイントは、本来の発話者（ディクテーションを行っている音声入力装置１のユーザ）は、文字入力のためのディクテーションを行っている間、表示部１４の画面を自分の顔の前に置き、その画面の表示を見ながら発声するという事実、つまり、ディクテーション中はユーザの顔が常に表示部１４の画面に向いているという事実に基づき、ユーザの顔の有無に応じてディクテーションの継続と一時中断とを適宜に切り換えられるようにした点にある。

具体的に説明する。ディクテーション中のユーザは、近くの人物から話しかけられたりしないとき、表示部１４の画面を注視しながら発声を行う。このとき、ユーザの顔は表示部１４の画面に正対しており、顔の正面がカメラ１３で検出される。一方、近くの人物から話しかけられたとき、多くのユーザはその人物の方向に顔や視線を向けるため、ユーザの横顔や視線を外した顔がカメラ１３で検出される。このように、カメラ１３で検出される顔の状態は、ディクテーション中に、近くの人物から話しかけらたときと、そうでないときとで異なるものになる。したがって、カメラ１４で検出された顔の状態が前者（顔の正面）であればディクテーションを継続し、後者（横顔や視線を外した顔）であればディクテーションを一時中断することにより、ディクテーション中の不本意な文字入力を回避することができる。

図示の各機能は、第四に、ディクテーションの処理負担の軽減、または、ディクテーションの精度向上を図る仕組み（通信機能１０８など）を与える。この仕組みは、特に携帯型の音声入力装置１（たとえば、携帯電話機等）の場合に有効である。一般的にディクテーションには大きな処理能力を必要とするが、据え置き型の高性能な情報処理装置の処理能力に比べて携帯型の音声入力装置１の処理能力は相当程度低いため、上記の仕組みを適用することにより、この低い処理能力でも充分実用的なディクテーションを行うことができるからである。

加えて、ディクテーションには大量の語彙データを必要とし、しかも、それらの語彙データは日進月歩で変化する。そのような語彙データを音声入力装置１の内部に持たせると、記憶容量を圧迫し、さらに、語彙データの更新管理も面倒になるが、この第四の仕組みを採用することによって、これらの不都合（記憶容量の圧迫や語彙データの更新管理の面倒）を回避できる。

ただし、この第四の仕組みは、実用性の観点から必要とされるものである。音声入力装置１の処理能力や記憶容量及び更新管理の必要有無等を考慮して、この第四の仕組みを実装すべきか否かを判断すればよい。

このように、上記の各機能は、総合的に見て、以上の四つの仕組み（第一〜第四の仕組み）を与えるものであるが、ここで、各機能の具体的な役割等について説明する。

姿勢検出機能１０１は、姿勢センサ１１からの信号を取り込み、この信号に基づいて、音声入力装置１の姿勢が現在どのような状態にあるかを検出し、その検出結果をコマンド認識機能１０３やディクテーション機能１０４に出力する。音声入力機能１０２は、マイク１２からの信号を取り込み、その信号をコマンド認識機能１０３やディクテーション機能１０４に出力する。画像取得機能１０５は、カメラ１３からの信号（表示部１４を見ているユーザの顔を動画または周期的な静止画で撮影した画像データ）を取り込み、その信号を顔検出機能１０６に出力する。顔検出機能１０６は、画像データの中からユーザの顔を検出すると共に、その顔が表示部１４の画面に正対しているか否かを判定する。

コマンド認識機能１０３は、姿勢検出機能１０１からの信号と音声入力機能１０２からの信号とに基づき、ディクテーション中の音声が文字入力に関するものであるのかまたはコマンド入力に関するものであるのかを認識し、その認識結果をディクテーション機能１０４や表示機能１０７に出力する。ディクテーション機能１０４は、音声入力機能１０２からの信号に基づきディクテーションを実行するとともに、コマンド認識機能１０３でコマンド入力が認識された場合にはディクテーション中の文字入力をコマンド入力と解釈し、あるいは、顔検出機能１０６でユーザの顔が検出されなかった場合またはユーザの顔が検出されてもその顔が表示部１４の画面に正対していなかった場合にディクテーションを一時中断する。表示機能１０７は、コマンド認識機能１０３からの出力やディクテーション機能１０４からの出力を所定の表示形式に整形変換して表示部１４に表示する。通信機能１０８は、通信部１５を介して、必要に応じ、インターネット等のネットワーク１６に設けられている音声認識サーバ１７にアクセスする。

次に、作用を説明する。
図２は、実施形態に係る音声入力装置１の動作フローを示す図である。この動作フローは、中央制御部１０のＣＰＵ１０ａで実行される制御プログラムの動作フローの要部を示している。したがって、この動作フローにおける以下の各処理（ステップＳ１〜ステップＳ１０）の実行主体は、中央制御部１０のＣＰＵ１０ａである。

この動作フローを開始すると、まず、ユーザによって行われる声を用いたコマンド入力を検出する（ステップＳ１）。この検出に関与する要素は、マイク１２、音声入力機能１０２及びコマンド認識機能１０３である。

次に、ステップＳ１で検出されたコマンドがディクテーション開始コマンドであるか否かを判定する（ステップＳ２）。たとえば、ステップＳ１で検出されたコマンドが“でぃくてーしょんおん”の場合にディクテーション開始コマンドであると判定してもよい。

この場合、“でぃくてーしょんおん”以外のコマンドは、先に説明した二種類のコマンド（通常用コマンドと編集用コマンド）のうちの前者であり、たとえば、この音声入力装置１が携帯電話機を兼ねている場合の電話機能をオンにしたりするためのコマンド（“でんわ”などの音声コマンド）などである。

したがって、“でんわ”などの音声コマンドの場合は、ステップＳ２の判定結果がＮＯとなり、その通常用コマンドに対応した処理を実行し（ステップＳ３）、音声コマンドの終了を判定して（ステップＳ４）、音声コマンド終了であれば、そのままフローを完了する一方、音声コマンド終了でなければ、再び、ステップＳ１に復帰する。

ステップＳ２の判定結果がＹＥＳの場合、すなわち、ステップＳ１で検出されたコマンドが“でぃくてーしょんおん”の場合には、次に、前記の第三の仕組みを用いて、ユーザの顔を検出し、その顔が所定の状態（表示部１４に正対している状態）にあるか否かを判定する（ステップＳ５）。先にも述べたとおり、ディクテーションを行っている音声入力装置１のユーザは、その間、表示部１４の画面を自分の顔の前に置き、その画面の表示を見ながら発声するという事実がある。つまり、ディクテーション中はユーザの顔が常に表示部１４の画面に向いているという事実があることから、ステップＳ５の判定結果がＹＥＳの間は、ディクテーションを実施（ステップＳ６）する。

一方、ステップＳ５の判定結果がＮＯのとき、すなわち、ディクテーション中に近くの人物から話しかけられたりして、ユーザの顔が前記の正対から横向きまたは視線を外した状態になったときには、その間、近くの人物の発声による不本意な文字入力が行われる可能性があることから、ステップＳ５をループし、ステップＳ６のディクテーション実施しないようにする（一時停止する）。

このようにして、前記の第三の仕組みを用い、ユーザの顔の検出結果に基づいてディクテーションを一時停止することにより、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力（当該近くの人物の発声が文字認識されてしまう）を回避することができる（冒頭の第二の問題点を解消することができる）。そして、ユーザの顔が所定の状態（表示部１４に正対している状態）で検出されている間は、ディクテーションを支障なく実施することができる。

次に、ディクテーション実施後、前記の第二の仕組みを用い、コマンドモードであるか否かを判定する（ステップＳ７）。コマンドモードとは、先に説明した二種類のコマンド（通常用コマンドと編集用コマンド）のうちの後者のコマンドを使用するモードのことをいう。たとえば、改行コマンド、文字の削除コマンド、任意位置へのカーソル移動コマンド、文字の挿入コマンドなどを使用するモードのことをいう。

この判定に関与する要素は、姿勢センサ１１、姿勢検出機能１０１及びコマンド認識機能１０３である。この判定では、音声入力装置１が「特定の姿勢」になっているか否かを判定し、「特定の姿勢」になっていればコマンド入力と識別する一方、そうでなければ文字入力と識別する。これにより、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別することができる（冒頭の第一の問題点を解消することができる）。

ステップＳ７の判定結果がＮＯの場合、すなわち、音声入力装置１が「特定の姿勢」になっていない場合は、ユーザの口述内容が文字入力のためのものであると判断してステップＳ５以降を繰り返す。一方、ステップＳ７の判定結果がＹＥＳの場合、すなわち、音声入力装置１が「特定の姿勢」になっている場合は、ユーザの口述内容がコマンド入力のためのものであると判断し、ユーザによる音声コマンド（編集用コマンド）の取り込み（ステップＳ８）と、その編集用コマンドに対応した処理（たとえば、改行処理等）（ステップＳ９）とを実行した後、ディクテーション終了コマンド（たとえば、“でぃくてーしょんおふ”）を検出するまで（ステップＳ１０の判定結果がＹＥＳになるまで）、ステップＳ７〜ステップＳ１０を繰り返し実行し、ディクテーション終了コマンドを検出すると（ステップＳ１０の判定結果がＹＥＳになると）、ステップＳ１に復帰する。

以上のとおりであるから、実施形態によれば、以下の第一及び第二の効果を得ることができる。
（第一の効果）ユーザの顔が所定の状態（表示部１４に正対した状態）で検出されている間、ディクテーションを実施（ステップＳ６）する一方、所定の状態で検出されないときは、ディクテーションを一時停止（ステップＳ５をループ）する。これにより、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力（当該近くの人物の発声が文字認識されてしまう）を回避することができ、冒頭の第二の問題点を解消することができる。

（第二の効果）ディクテーション実施後に、音声入力装置１の姿勢を検出し、その姿勢が「特定の姿勢」であればコマンド入力と判定し、「特定の姿勢」でなければ通常の文字入力と判定する（ステップＳ７）。これにより、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別することができ、冒頭の第一の問題点を解消することができる。

加えて、実施形態によれば、以下の第三の効果を得ることができる。
（第三の効果）先にも述べたとおり、実施形態は、ディクテーションの処理負担の軽減、または、ディクテーションの精度向上を図る仕組み（第四の仕組み）を備える。この仕組みに関与する主要な要素は、通信機能１０８であり、且つ、この通信機能１０８と共同で動作する通信部１５である。これらの要素により、必要に応じて、外部（インターネット等のネットワーク１６）に設けられている音声認識サーバ１７にアクセスすることができる。この音声認識サーバ１７でディクテーションのすべてまたは一部を実施したり、さらに、ディクテーション実施に必要な語彙データを音声認識サーバ１７に蓄積したりすれば、低い処理能力の携帯型の音声入力装置１の処理負担や記憶容量の圧迫を招かないようにでき、且つ、語彙データの面倒な更新管理も行わなくて済むようにできる。

なお、以上の説明では、音声入力装置１と音声認識サーバ１７との関係を明確にしていない。これは、クライアント−サーバ型の使い方と、スタンドアロン型の使い方のいずれでもよいからである。クライアント−サーバ型の使い方とは、音声入力装置１をクライアントとし、音声認識サーバ１７をサーバとして両者を連携する使い方である。また、スタンドアロン型の使い方とは音声入力装置１の内部ですべてを完結させる使い方である。

クライアント−サーバ型の場合、音声入力装置１のコマンド認識機能１０３やディクテーション機能１０４のすべて又は一部を音声認識サーバ１７に実装する。また、スタンドアロン型の場合、音声認識サーバ１７を必要としないことはもちろんのこと、音声入力装置１の通信機能１０８や通信部１５も必要としない。

いずれの使い方を採用するかは、もっぱらシステムの仕様要求に依存する。ディクテーションの処理負担の軽減やディクテーションの精度向上を意図するのであれば、クライアント−サーバ型とすればよく、ネットワーク等の通信環境を使用しない仕様にするのであれば、スタンドアロン型とすればよい。

また、以上の説明では、音声入力装置１の例として携帯電話機を挙げたが、これに限定されない。音声入力を必要とするものであればどのようなものであってもよく、たとえば、タブレット端末、パーソナルコンピュータ、ゲーム機、各種ＯＡ機器などの電子機器、または、ロボットや工作機械などの産業機器、あるいは、自動車、航空機、船舶などの乗り物などであってもよい。

以下、本発明の特徴を付記する。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
図３は、付記１、付記２及び付記３の構成図である。
付記１は、ユーザの音声を入力する入力手段２００（実施形態の音声入力機能１０２に相当）と、
前記入力手段２００によって入力されたユーザの音声を音声認識する認識手段２０１（実施形態のディクテーション機能１０４に相当）と、
前記認識手段２０１の認識結果に基づいて文字またはコマンドを発生する発生手段２０２（実施形態のコマンド認識機能１０３及びディクテーション機能１０４に相当）と、
自装置の姿勢を検出する検出手段２０３（実施形態の姿勢検出機能１０１に相当）と、
前記検出手段２０３の検出結果が特定の姿勢を示しているときには前記発生手段２０２に対して前記コマンドの発生を指示する一方、前記検出手段２０３の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段２０２に対して前記文字の発生を指示する指示手段２０４（実施形態の姿勢検出機能１０１に相当）と
を備えたことを特徴とする音声入力装置２０５（実施形態の音声入力装置１に相当）である。
（付記２）
付記２は、さらに、前記ユーザの顔を検出する第二の検出手段２０６（実施形態の顔検出機能１０６に相当）と、
この第二の検出手段２０６で検出されたユーザの顔の状態が所定の状態にあるときに、前記認識手段２０１に対して認識動作を停止するように指示する第二の指示手段２０７（実施形態の顔検出機能１０６に相当）とを備えたことを特徴とする付記１に記載の音声入力装置である。
（付記３）
付記３は、さらに、前記入力手段２００によって入力されたユーザの音声を外部のサーバ２０８（実施形態の音声認識サーバ１７に相当）に送信する送信手段２０９（実施形態の通信機能１０８に相当）と、このサーバ２０８から返送される音声認識結果を受信する受信手段２１０（実施形態の通信機能１０８に相当）とを備えたことを特徴とする付記１に記載の音声入力装置である。
（付記４）
付記４は、ユーザの音声を入力する入力工程と、
前記入力工程で入力されたユーザの音声を音声認識する認識工程と、
前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、
自装置の姿勢を検出する検出工程と、
前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と
を含むことを特徴とする音声入力方法である。
（付記５）
付記５は、コンピュータに、
ユーザの音声を入力する入力手段、
前記入力手段によって入力されたユーザの音声を音声認識する認識手段、
前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、
自装置の姿勢を検出する検出手段、
前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段
としての機能を与えることを特徴とするプログラムである。

２００入力手段
２０１認識手段
２０２発生手段
２０３検出手段
２０４指示手段
２０５音声入力装置
２０６第二の検出手段
２０７第二の指示手段
２０８サーバ
２０９送信手段
２１０受信手段

Claims

ユーザの音声を入力する入力手段と、
前記入力手段によって入力されたユーザの音声を音声認識する認識手段と、
前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段と、
自装置の姿勢を検出する検出手段と、
前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段と、
前記特定の姿勢をユーザに選択させる選択手段と
を備えたことを特徴とする音声入力装置。
さらに、前記ユーザの顔を検出する第二の検出手段と、
この第二の検出手段で検出されたユーザの顔の状態が所定の状態にあるときに、前記認識手段に対して認識動作を停止するように指示する第二の指示手段とを備えたことを特徴とする請求項１に記載の音声入力装置。
さらに、前記入力手段によって入力されたユーザの音声を外部のサーバに送信する送信手段と、このサーバから返送される音声認識結果を受信する受信手段とを備えたことを特徴とする請求項１に記載の音声入力装置。
ユーザの音声を入力する入力工程と、
前記入力工程で入力されたユーザの音声を音声認識する認識工程と、
前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、
自装置の姿勢を検出する検出工程と、
前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と、
前記特定の姿勢をユーザに選択させる選択工程と
を含むことを特徴とする音声入力方法。
コンピュータに、
ユーザの音声を入力する入力手段、
前記入力手段によって入力されたユーザの音声を音声認識する認識手段、
前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、
自装置の姿勢を検出する検出手段、
前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段、
前記特定の姿勢をユーザに選択させる姿勢選択手段
としての機能を与えることを特徴とするプログラム。