JP6016134B2 - 音声入力装置、音声入力方法及びプログラム - Google Patents

音声入力装置、音声入力方法及びプログラム Download PDF

Info

Publication number
JP6016134B2
JP6016134B2 JP2014501834A JP2014501834A JP6016134B2 JP 6016134 B2 JP6016134 B2 JP 6016134B2 JP 2014501834 A JP2014501834 A JP 2014501834A JP 2014501834 A JP2014501834 A JP 2014501834A JP 6016134 B2 JP6016134 B2 JP 6016134B2
Authority
JP
Japan
Prior art keywords
posture
user
voice
input
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014501834A
Other languages
English (en)
Other versions
JPWO2013128508A1 (ja
Inventor
祐介 犬塚
祐介 犬塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014501834A priority Critical patent/JP6016134B2/ja
Publication of JPWO2013128508A1 publication Critical patent/JPWO2013128508A1/ja
Application granted granted Critical
Publication of JP6016134B2 publication Critical patent/JP6016134B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1694Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being a single or a set of motion sensors for pointer control or gesture input obtained by sensing movements of the portable computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声入力装置、音声入力方法及びプログラムに関し、詳細には、ディクテーション(dictation:口述)の内容を音声認識して文字入力する音声入力装置、音声入力方法及びプログラムに関する。
近年、携帯電話機などの携帯型端末装置(以下、単に携帯端末という)の性能向上に伴い、端末上で高性能なアプリケーションを実行できる環境が整ってきた。そのアプリケーションの一つに、声で文章を述べる(口述する)だけで、その口述内容を音声認識して文字入力することができるディクテーション用アプリケーションがある(たとえば、下記の特許文献1〜6参照)。かかるディクテーション入力(音声認識による文字入力)は、とりわけ携帯端末に有効である。携帯端末の入力デバイスは、タッチパネルなど操作効率の悪いものしか搭載されていないからである。上記のアプリケーションを実装すれば、口述内容をそのまま文字入力できるので、操作効率の悪いタッチパネルなどの入力デバイスを使用しなくても済む。
特開2010−085536号公報 特開2004−093698号公報 特開2001−306091号公報 特開2003−044085号公報 特開2000−132186号公報 特開2000−020092号公報
しかしながら、前記の特許文献1〜6の技術は、ディクテーション中の文字入力とコマンド入力を正しく区別することができないという第一の問題点があり、また、ディクテーション中に近くの人物から話しかけられたりしたときに、不本意な文字入力が行われてしまうという第二の問題点がある。
(1)第一の問題点について説明する。
ディクテーションによって文章を入力するとき、その文章の構造に応じたコマンドの入力を必要とすることがある。たとえば、改行などのコマンド入力、あるいは、文字の削除や任意位置へのカーソル移動、文字の挿入などのコマンド入力である。これらのコマンド入力を音声で行うことも可能(特許文献4、特許文献5)であるが、たとえば、“かいぎょう”と発声しても、それが文字入力なのかコマンド入力なのかを区別できない。この区別を行うために、一定の時間発声がないと、コマンド入力モードに切り換えるという技術(特許文献6)もあるが、発声のタイミングを意識する必要があり、使い勝手に難がある。また、特定のキーやボタンを押しながら発声した場合に、その発声をコマンド入力と解釈するという手法も考えられるが、この手法は、キーやボタンの操作を必要とし、操作性の悪化を招くので好ましくない。したがって、使い勝手や操作性の悪化を招くことなく、ディクテーション中の文字入力とコマンド入力を正しく区別することが求められる。
(2)第二の問題点について説明する。
たとえば、職場などでディクテーションを行う場合、しばしば近くの人物から話しかけられることがある。このような場合、システムは近くの人物の発声をディクテーションと誤認し、不本意な文字入力が行われてしまう。このような不本意な文字入力が行われたときには、遡って文字の訂正処理(特許文献2、特許文献3)を実行しなければならないが、その間、ディクテーションを中断しなければならず、文章思考の連続性を保てない。この原因は、そもそも不本意な文字入力が行われるからである。したがって、ディクテーション中の不本意な文字入力を回避することも求められる。
そこで、本発明の目的は、ディクテーション中の文字入力とコマンド入力を正しく区別することができ、または、ディクテーション中の不本意な文字入力を回避することができる音声入力装置、音声入力方法及びプログラムを提供することにある。
本発明の音声入力装置は、ユーザの音声を入力する入力手段と、前記入力手段によって入力されたユーザの音声を音声認識する認識手段と、前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段と、自装置の姿勢を検出する検出手段と、前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段と、前記特定の姿勢をユーザに選択させる選択手段とを備えたことを特徴とする。
本発明の音声入力方法は、ユーザの音声を入力する入力工程と、前記入力工程で入力されたユーザの音声を音声認識する認識工程と、前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、自装置の姿勢を検出する検出工程と、前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と、前記特定の姿勢をユーザに選択させる選択工程とを含むことを特徴とする。
本発明のプログラムは、コンピュータに、ユーザの音声を入力する入力手段、前記入力手段によって入力されたユーザの音声を音声認識する認識手段、前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、自装置の姿勢を検出する検出手段、前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段、前記特定の姿勢をユーザに選択させる姿勢選択手段としての機能を与えることを特徴とする。
本発明によれば、ディクテーション中の文字入力とコマンド入力を正しく区別することができ、または、ディクテーション中の不本意な文字入力を回避することができる。
実施形態に係る音声入力装置1の構成図である。 実施形態に係る音声入力装置1の動作フローを示す図である。 付記1、付記2及び付記3の構成図である。
以下、本発明の実施形態を、図面を参照しながら説明する。
まず、構成を説明する。
図1は、実施形態に係る音声入力装置1の構成図である。この図において、音声入力装置1は、少なくとも、中央制御部10、姿勢センサ11、マイク12、カメラ13、表示部14、及び、通信部15を備えて構成されている。なお、これら以外にもバッテリを含む電源部などを備えるが、図面の輻輳を避けるために省略している。
姿勢センサ11は、音声入力装置1それ自体の姿勢、つまり自装置の姿勢を検出し、その検出結果を示す電気的な信号を中央制御部10に出力する。この姿勢センサ11には、たとえば、三軸加速度センサや傾きセンサまたはジャイロセンサなどを使用することができる。マイク12は、ユーザ(音声入力装置1の操作者)の音声を取り込み、電気的な信号に変換して中央制御部10に出力する。表示部14は、タッチパネル付きの平面表示デバイス(液晶パネルやELパネルなど)であり、カメラ13は、すくなくとも、前記の表示部14を見ているユーザの顔を動画または周期的な静止画(連写画像ともいう)で撮影し、その撮影データを中央制御部10に出力する。通信部15は、任意の通信媒体、たとえば、携帯電話やWiFiなどの無線回線または一般公衆回線や光ケーブルあるいはADSLなどの有線回線を用い、必要に応じて、インターネット等のネットワーク16に設けられている音声認識サーバ17にアクセスする。
中央制御部10は、コンピュータ(CPU)10aや、プログラム記憶用の不揮発性半導体メモリ(ROM)10b及びプログラム実行用の高速半導体メモリ(RAM)10c並びに不図示の周辺回路(入出力部等)で構成された汎用のプログラム制御要素である。中央制御部10は、ROM10bに書き込まれている制御プログラム(基本プログラムや応用プログラム及びそれらのプログラムに必要とされる各種データ)をRAM10bにロードして、CPU10aで実行することにより、その制御プログラムの内容に応じた機能、すなわち、音声入力装置1の動作に必要な各種機能を実現する。
上記の“機能”とは、中央制御部10において、CPU10aなどのハードウェアリソースと制御プログラムなどのソフトウェアリソースとの有機的結合によって仮想的に実現される動作や動きまたは仕組みのことをいう。機能は実体(形)を伴わない。
実施形態の中央制御部10で実現される機能は、たとえば、姿勢検出機能101、音声入力機能102、コマンド認識機能103、ディクテーション機能104、画像取得機能105、顔検出機能106、表示機能107、および、通信機能108などである。前記のとおり、これらの機能は実体(形)を伴わないものであるが、この態様(実体を伴わないもの)に限定されない。発明の思想上は、上記の各機能の一部またはすべてを“実体を伴うもの”、すなわち、ハードロジック等で構成してもかまわない。
総合的に見て、図示の各機能は、第一に、この音声入力装置1にディクテーション、つまり、ユーザの口述内容を音声認識して文字入力する仕組みを与える。ここで「文字入力」とは、表示部14の画面上に文字として認識可能な状態で表示すること、及び、その表示と同時に、コード化された文字列情報として編集可能な状態でRAM10cなどに一時保存することを意味する。
図示の各機能は、第二に、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別する仕組み(冒頭の第一の問題点を解消するための仕組み)を与える。なお、この実施形態では「コマンド」を通常用と編集用の二種類の用途で使用する。通常用コマンドは、音声入力装置1に対して何らかの動作を促すためのコマンドであり、たとえば、この音声入力装置1が携帯電話機を兼ねている場合の電話機能をオンにしたりするためのコマンド(“でんわ”などの音声コマンド)である。加えて、この実施形態では、通常用コマンドでディクテーション動作をオンにしたりオフにしたりする。たとえば、ディクテーション動作をオンにする場合は“でぃくてーしょんおん”などと発声し、また、ディクテーション動作をオフにする場合は“でぃくてーしょんおふ”などと発声する。
ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別する仕組みのポイントは、音声入力装置1の「姿勢」に基づいて行う点にある。たとえば、音声入力装置1が「特定の姿勢」になっていればコマンド入力と識別し、そうでなければ文字入力と識別する。
特定の姿勢は様々考えられる。たとえば、文字入力のためのディクテーションを行っているときの音声入力装置1の一般的な姿勢を基準姿勢とし、その基準姿勢から外れた姿勢を「特定の姿勢」としてもよい。また、姿勢を動きと解釈してもよい。たとえば、「特定の姿勢」に、音声入力装置1を振るといった動作の意味を持たせてもよい。なお、“外れた”とは、所定の大きさ(閾値)以上に姿勢が変わったことをいう。
文字入力のためのディクテーションを行っているときの一般的な姿勢の典型は、音声入力装置1を立てた姿勢である。具体的には、表示部14の画面が重力方向と平行する姿勢または同平行に近い角度になっている姿勢である。多くのユーザは、文字入力のためのディクテーションを行う際に、表示部14の画面を顔の前に置き、画面を垂直または垂直に近い角度で立てた状態にして、その画面の表示を見ながらマイク12に向かって発声するからである。したがって、この場合は、音声入力装置1が立っていない姿勢を前記の「特定の姿勢」とし、この特定の姿勢のときの発声をコマンド入力として識別する一方、特定の姿勢以外の姿勢、つまり、音声入力装置1が立っている姿勢のときの発声を文字入力として識別する。
いうまでもなく、「特定の姿勢」はこの例示に限定されない。たとえば、前記例示の逆であってもよい。すなわち、音声入力装置1が立っている姿勢を前記の「特定の姿勢」とし、この特定の姿勢のときの発声をコマンド入力として識別する一方、特定の姿勢以外の姿勢、つまり、音声入力装置1が立っていない姿勢のときの発声を文字入力として識別するようにしてもよい。あるいは、音声入力装置1を左右に傾けたり、前後にあおったりした姿勢を「特定の姿勢」としてもよい。または、「特定の姿勢」をユーザが任意に指定できるようにしてもよい。たとえば、システムメニューの中に「コマンド識別用姿勢の設定」という項目を設けておき、ユーザがその項目を選択した際に、表示部14の画面に、たとえば、“希望の姿勢にして決定ボタンを押してください。”などのメッセージを表示し、決定ボタンが押されたときの姿勢を前記の「特定の姿勢」としてシステムに記憶させるようにしてもよい。
図示の各機能は、第三に、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避するための仕組み(冒頭の第二の問題点を解消するための仕組み)を与える。この仕組みのポイントは、本来の発話者(ディクテーションを行っている音声入力装置1のユーザ)は、文字入力のためのディクテーションを行っている間、表示部14の画面を自分の顔の前に置き、その画面の表示を見ながら発声するという事実、つまり、ディクテーション中はユーザの顔が常に表示部14の画面に向いているという事実に基づき、ユーザの顔の有無に応じてディクテーションの継続と一時中断とを適宜に切り換えられるようにした点にある。
具体的に説明する。ディクテーション中のユーザは、近くの人物から話しかけられたりしないとき、表示部14の画面を注視しながら発声を行う。このとき、ユーザの顔は表示部14の画面に正対しており、顔の正面がカメラ13で検出される。一方、近くの人物から話しかけられたとき、多くのユーザはその人物の方向に顔や視線を向けるため、ユーザの横顔や視線を外した顔がカメラ13で検出される。このように、カメラ13で検出される顔の状態は、ディクテーション中に、近くの人物から話しかけらたときと、そうでないときとで異なるものになる。したがって、カメラ14で検出された顔の状態が前者(顔の正面)であればディクテーションを継続し、後者(横顔や視線を外した顔)であればディクテーションを一時中断することにより、ディクテーション中の不本意な文字入力を回避することができる。
図示の各機能は、第四に、ディクテーションの処理負担の軽減、または、ディクテーションの精度向上を図る仕組み(通信機能108など)を与える。この仕組みは、特に携帯型の音声入力装置1(たとえば、携帯電話機等)の場合に有効である。一般的にディクテーションには大きな処理能力を必要とするが、据え置き型の高性能な情報処理装置の処理能力に比べて携帯型の音声入力装置1の処理能力は相当程度低いため、上記の仕組みを適用することにより、この低い処理能力でも充分実用的なディクテーションを行うことができるからである。
加えて、ディクテーションには大量の語彙データを必要とし、しかも、それらの語彙データは日進月歩で変化する。そのような語彙データを音声入力装置1の内部に持たせると、記憶容量を圧迫し、さらに、語彙データの更新管理も面倒になるが、この第四の仕組みを採用することによって、これらの不都合(記憶容量の圧迫や語彙データの更新管理の面倒)を回避できる。
ただし、この第四の仕組みは、実用性の観点から必要とされるものである。音声入力装置1の処理能力や記憶容量及び更新管理の必要有無等を考慮して、この第四の仕組みを実装すべきか否かを判断すればよい。
このように、上記の各機能は、総合的に見て、以上の四つの仕組み(第一〜第四の仕組み)を与えるものであるが、ここで、各機能の具体的な役割等について説明する。
姿勢検出機能101は、姿勢センサ11からの信号を取り込み、この信号に基づいて、音声入力装置1の姿勢が現在どのような状態にあるかを検出し、その検出結果をコマンド認識機能103やディクテーション機能104に出力する。音声入力機能102は、マイク12からの信号を取り込み、その信号をコマンド認識機能103やディクテーション機能104に出力する。画像取得機能105は、カメラ13からの信号(表示部14を見ているユーザの顔を動画または周期的な静止画で撮影した画像データ)を取り込み、その信号を顔検出機能106に出力する。顔検出機能106は、画像データの中からユーザの顔を検出すると共に、その顔が表示部14の画面に正対しているか否かを判定する。
コマンド認識機能103は、姿勢検出機能101からの信号と音声入力機能102からの信号とに基づき、ディクテーション中の音声が文字入力に関するものであるのかまたはコマンド入力に関するものであるのかを認識し、その認識結果をディクテーション機能104や表示機能107に出力する。ディクテーション機能104は、音声入力機能102からの信号に基づきディクテーションを実行するとともに、コマンド認識機能103でコマンド入力が認識された場合にはディクテーション中の文字入力をコマンド入力と解釈し、あるいは、顔検出機能106でユーザの顔が検出されなかった場合またはユーザの顔が検出されてもその顔が表示部14の画面に正対していなかった場合にディクテーションを一時中断する。表示機能107は、コマンド認識機能103からの出力やディクテーション機能104からの出力を所定の表示形式に整形変換して表示部14に表示する。通信機能108は、通信部15を介して、必要に応じ、インターネット等のネットワーク16に設けられている音声認識サーバ17にアクセスする。
次に、作用を説明する。
図2は、実施形態に係る音声入力装置1の動作フローを示す図である。この動作フローは、中央制御部10のCPU10aで実行される制御プログラムの動作フローの要部を示している。したがって、この動作フローにおける以下の各処理(ステップS1〜ステップS10)の実行主体は、中央制御部10のCPU10aである。
この動作フローを開始すると、まず、ユーザによって行われる声を用いたコマンド入力を検出する(ステップS1)。この検出に関与する要素は、マイク12、音声入力機能102及びコマンド認識機能103である。
次に、ステップS1で検出されたコマンドがディクテーション開始コマンドであるか否かを判定する(ステップS2)。たとえば、ステップS1で検出されたコマンドが“でぃくてーしょんおん”の場合にディクテーション開始コマンドであると判定してもよい。
この場合、“でぃくてーしょんおん”以外のコマンドは、先に説明した二種類のコマンド(通常用コマンドと編集用コマンド)のうちの前者であり、たとえば、この音声入力装置1が携帯電話機を兼ねている場合の電話機能をオンにしたりするためのコマンド(“でんわ”などの音声コマンド)などである。
したがって、“でんわ”などの音声コマンドの場合は、ステップS2の判定結果がNOとなり、その通常用コマンドに対応した処理を実行し(ステップS3)、音声コマンドの終了を判定して(ステップS4)、音声コマンド終了であれば、そのままフローを完了する一方、音声コマンド終了でなければ、再び、ステップS1に復帰する。
ステップS2の判定結果がYESの場合、すなわち、ステップS1で検出されたコマンドが“でぃくてーしょんおん”の場合には、次に、前記の第三の仕組みを用いて、ユーザの顔を検出し、その顔が所定の状態(表示部14に正対している状態)にあるか否かを判定する(ステップS5)。先にも述べたとおり、ディクテーションを行っている音声入力装置1のユーザは、その間、表示部14の画面を自分の顔の前に置き、その画面の表示を見ながら発声するという事実がある。つまり、ディクテーション中はユーザの顔が常に表示部14の画面に向いているという事実があることから、ステップS5の判定結果がYESの間は、ディクテーションを実施(ステップS6)する。
一方、ステップS5の判定結果がNOのとき、すなわち、ディクテーション中に近くの人物から話しかけられたりして、ユーザの顔が前記の正対から横向きまたは視線を外した状態になったときには、その間、近くの人物の発声による不本意な文字入力が行われる可能性があることから、ステップS5をループし、ステップS6のディクテーション実施しないようにする(一時停止する)。
このようにして、前記の第三の仕組みを用い、ユーザの顔の検出結果に基づいてディクテーションを一時停止することにより、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避することができる(冒頭の第二の問題点を解消することができる)。そして、ユーザの顔が所定の状態(表示部14に正対している状態)で検出されている間は、ディクテーションを支障なく実施することができる。
次に、ディクテーション実施後、前記の第二の仕組みを用い、コマンドモードであるか否かを判定する(ステップS7)。コマンドモードとは、先に説明した二種類のコマンド(通常用コマンドと編集用コマンド)のうちの後者のコマンドを使用するモードのことをいう。たとえば、改行コマンド、文字の削除コマンド、任意位置へのカーソル移動コマンド、文字の挿入コマンドなどを使用するモードのことをいう。
この判定に関与する要素は、姿勢センサ11、姿勢検出機能101及びコマンド認識機能103である。この判定では、音声入力装置1が「特定の姿勢」になっているか否かを判定し、「特定の姿勢」になっていればコマンド入力と識別する一方、そうでなければ文字入力と識別する。これにより、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別することができる(冒頭の第一の問題点を解消することができる)。
ステップS7の判定結果がNOの場合、すなわち、音声入力装置1が「特定の姿勢」になっていない場合は、ユーザの口述内容が文字入力のためのものであると判断してステップS5以降を繰り返す。一方、ステップS7の判定結果がYESの場合、すなわち、音声入力装置1が「特定の姿勢」になっている場合は、ユーザの口述内容がコマンド入力のためのものであると判断し、ユーザによる音声コマンド(編集用コマンド)の取り込み(ステップS8)と、その編集用コマンドに対応した処理(たとえば、改行処理等)(ステップS9)とを実行した後、ディクテーション終了コマンド(たとえば、“でぃくてーしょんおふ”)を検出するまで(ステップS10の判定結果がYESになるまで)、ステップS7〜ステップS10を繰り返し実行し、ディクテーション終了コマンドを検出すると(ステップS10の判定結果がYESになると)、ステップS1に復帰する。
以上のとおりであるから、実施形態によれば、以下の第一及び第二の効果を得ることができる。
(第一の効果)ユーザの顔が所定の状態(表示部14に正対した状態)で検出されている間、ディクテーションを実施(ステップS6)する一方、所定の状態で検出されないときは、ディクテーションを一時停止(ステップS5をループ)する。これにより、ディクテーション中に近くの人物から話しかけられたりしたときの不本意な文字入力(当該近くの人物の発声が文字認識されてしまう)を回避することができ、冒頭の第二の問題点を解消することができる。
(第二の効果)ディクテーション実施後に、音声入力装置1の姿勢を検出し、その姿勢が「特定の姿勢」であればコマンド入力と判定し、「特定の姿勢」でなければ通常の文字入力と判定する(ステップS7)。これにより、ユーザの口述内容が文字入力のためのものであるのか、または、コマンド入力のためのものであるのかを正しく識別することができ、冒頭の第一の問題点を解消することができる。
加えて、実施形態によれば、以下の第三の効果を得ることができる。
(第三の効果)先にも述べたとおり、実施形態は、ディクテーションの処理負担の軽減、または、ディクテーションの精度向上を図る仕組み(第四の仕組み)を備える。この仕組みに関与する主要な要素は、通信機能108であり、且つ、この通信機能108と共同で動作する通信部15である。これらの要素により、必要に応じて、外部(インターネット等のネットワーク16)に設けられている音声認識サーバ17にアクセスすることができる。この音声認識サーバ17でディクテーションのすべてまたは一部を実施したり、さらに、ディクテーション実施に必要な語彙データを音声認識サーバ17に蓄積したりすれば、低い処理能力の携帯型の音声入力装置1の処理負担や記憶容量の圧迫を招かないようにでき、且つ、語彙データの面倒な更新管理も行わなくて済むようにできる。
なお、以上の説明では、音声入力装置1と音声認識サーバ17との関係を明確にしていない。これは、クライアント−サーバ型の使い方と、スタンドアロン型の使い方のいずれでもよいからである。クライアント−サーバ型の使い方とは、音声入力装置1をクライアントとし、音声認識サーバ17をサーバとして両者を連携する使い方である。また、スタンドアロン型の使い方とは音声入力装置1の内部ですべてを完結させる使い方である。
クライアント−サーバ型の場合、音声入力装置1のコマンド認識機能103やディクテーション機能104のすべて又は一部を音声認識サーバ17に実装する。また、スタンドアロン型の場合、音声認識サーバ17を必要としないことはもちろんのこと、音声入力装置1の通信機能108や通信部15も必要としない。
いずれの使い方を採用するかは、もっぱらシステムの仕様要求に依存する。ディクテーションの処理負担の軽減やディクテーションの精度向上を意図するのであれば、クライアント−サーバ型とすればよく、ネットワーク等の通信環境を使用しない仕様にするのであれば、スタンドアロン型とすればよい。
また、以上の説明では、音声入力装置1の例として携帯電話機を挙げたが、これに限定されない。音声入力を必要とするものであればどのようなものであってもよく、たとえば、タブレット端末、パーソナルコンピュータ、ゲーム機、各種OA機器などの電子機器、または、ロボットや工作機械などの産業機器、あるいは、自動車、航空機、船舶などの乗り物などであってもよい。
以下、本発明の特徴を付記する。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
図3は、付記1、付記2及び付記3の構成図である。
付記1は、ユーザの音声を入力する入力手段200(実施形態の音声入力機能102に相当)と、
前記入力手段200によって入力されたユーザの音声を音声認識する認識手段201(実施形態のディクテーション機能104に相当)と、
前記認識手段201の認識結果に基づいて文字またはコマンドを発生する発生手段202(実施形態のコマンド認識機能103及びディクテーション機能104に相当)と、
自装置の姿勢を検出する検出手段203(実施形態の姿勢検出機能101に相当)と、
前記検出手段203の検出結果が特定の姿勢を示しているときには前記発生手段202に対して前記コマンドの発生を指示する一方、前記検出手段203の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段202に対して前記文字の発生を指示する指示手段204(実施形態の姿勢検出機能101に相当)と
を備えたことを特徴とする音声入力装置205(実施形態の音声入力装置1に相当)である。
(付記2)
付記2は、さらに、前記ユーザの顔を検出する第二の検出手段206(実施形態の顔検出機能106に相当)と、
この第二の検出手段206で検出されたユーザの顔の状態が所定の状態にあるときに、前記認識手段201に対して認識動作を停止するように指示する第二の指示手段207(実施形態の顔検出機能106に相当)とを備えたことを特徴とする付記1に記載の音声入力装置である。
(付記3)
付記3は、さらに、前記入力手段200によって入力されたユーザの音声を外部のサーバ208(実施形態の音声認識サーバ17に相当)に送信する送信手段209(実施形態の通信機能108に相当)と、このサーバ208から返送される音声認識結果を受信する受信手段210(実施形態の通信機能108に相当)とを備えたことを特徴とする付記1に記載の音声入力装置である。
(付記4)
付記4は、ユーザの音声を入力する入力工程と、
前記入力工程で入力されたユーザの音声を音声認識する認識工程と、
前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、
自装置の姿勢を検出する検出工程と、
前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と
を含むことを特徴とする音声入力方法である。
(付記5)
付記5は、コンピュータに、
ユーザの音声を入力する入力手段、
前記入力手段によって入力されたユーザの音声を音声認識する認識手段、
前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、
自装置の姿勢を検出する検出手段、
前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段
としての機能を与えることを特徴とするプログラムである。
200 入力手段
201 認識手段
202 発生手段
203 検出手段
204 指示手段
205 音声入力装置
206 第二の検出手段
207 第二の指示手段
208 サーバ
209 送信手段
210 受信手段

Claims (5)

  1. ユーザの音声を入力する入力手段と、
    前記入力手段によって入力されたユーザの音声を音声認識する認識手段と、
    前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段と、
    自装置の姿勢を検出する検出手段と、
    前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段と
    前記特定の姿勢をユーザに選択させる選択手段と
    を備えたことを特徴とする音声入力装置。
  2. さらに、前記ユーザの顔を検出する第二の検出手段と、
    この第二の検出手段で検出されたユーザの顔の状態が所定の状態にあるときに、前記認識手段に対して認識動作を停止するように指示する第二の指示手段とを備えたことを特徴とする請求項1に記載の音声入力装置。
  3. さらに、前記入力手段によって入力されたユーザの音声を外部のサーバに送信する送信手段と、このサーバから返送される音声認識結果を受信する受信手段とを備えたことを特徴とする請求項1に記載の音声入力装置。
  4. ユーザの音声を入力する入力工程と、
    前記入力工程で入力されたユーザの音声を音声認識する認識工程と、
    前記認識工程の認識結果に基づいて文字またはコマンドを発生する発生工程と、
    自装置の姿勢を検出する検出工程と、
    前記検出工程の検出結果が特定の姿勢を示しているときには前記発生工程に対して前記コマンドの発生を指示する一方、前記検出工程の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生工程に対して前記文字の発生を指示する指示工程と
    前記特定の姿勢をユーザに選択させる選択工程と
    を含むことを特徴とする音声入力方法。
  5. コンピュータに、
    ユーザの音声を入力する入力手段、
    前記入力手段によって入力されたユーザの音声を音声認識する認識手段、
    前記認識手段の認識結果に基づいて文字またはコマンドを発生する発生手段、
    自装置の姿勢を検出する検出手段、
    前記検出手段の検出結果が特定の姿勢を示しているときには前記発生手段に対して前記コマンドの発生を指示する一方、前記検出手段の検出結果が特定の姿勢以外の姿勢を示しているときには前記発生手段に対して前記文字の発生を指示する指示手段
    前記特定の姿勢をユーザに選択させる姿勢選択手段
    としての機能を与えることを特徴とするプログラム。
JP2014501834A 2012-02-27 2012-10-10 音声入力装置、音声入力方法及びプログラム Expired - Fee Related JP6016134B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014501834A JP6016134B2 (ja) 2012-02-27 2012-10-10 音声入力装置、音声入力方法及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012040133 2012-02-27
JP2012040133 2012-02-27
JP2014501834A JP6016134B2 (ja) 2012-02-27 2012-10-10 音声入力装置、音声入力方法及びプログラム
PCT/JP2012/006476 WO2013128508A1 (ja) 2012-02-27 2012-10-10 音声入力装置、音声入力方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2013128508A1 JPWO2013128508A1 (ja) 2015-07-30
JP6016134B2 true JP6016134B2 (ja) 2016-10-26

Family

ID=49081773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014501834A Expired - Fee Related JP6016134B2 (ja) 2012-02-27 2012-10-10 音声入力装置、音声入力方法及びプログラム

Country Status (4)

Country Link
US (1) US9842589B2 (ja)
EP (1) EP2821916B1 (ja)
JP (1) JP6016134B2 (ja)
WO (1) WO2013128508A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6459684B2 (ja) * 2015-03-23 2019-01-30 カシオ計算機株式会社 情報出力装置、情報出力方法及びプログラム
JP2017116893A (ja) * 2015-12-26 2017-06-29 株式会社村田製作所 立体型画像表示装置
JP2018073067A (ja) * 2016-10-27 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
CN107316025B (zh) * 2017-06-27 2021-04-06 北京康邦科技有限公司 一种手部姿态识别方法及识别系统
US20190013016A1 (en) * 2017-07-07 2019-01-10 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Converting speech to text and inserting a character associated with a gesture input by a user
US20210166698A1 (en) * 2018-08-10 2021-06-03 Sony Corporation Information processing apparatus and information processing method
CN111079504A (zh) * 2019-08-14 2020-04-28 广东小天才科技有限公司 一种文字识别方法及电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020092A (ja) 1998-06-30 2000-01-21 Toshiba Corp ディクテーション装置及びディクテーションプログラムを記録した記録媒体
US6453292B2 (en) 1998-10-28 2002-09-17 International Business Machines Corporation Command boundary identifier for conversational natural language
JP2000267695A (ja) * 1999-01-14 2000-09-29 Nissan Motor Co Ltd 車載機器のリモートコントロール装置
JP2001306091A (ja) 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
US6697777B1 (en) * 2000-06-28 2004-02-24 Microsoft Corporation Speech recognition user interface
JP2002278671A (ja) * 2001-03-16 2002-09-27 Just Syst Corp 文字列変換装置、文字列変換方法およびその方法をコンピュータに実行させるプログラム
JP4094255B2 (ja) 2001-07-27 2008-06-04 日本電気株式会社 コマンド入力機能つきディクテーション装置
JP2004093698A (ja) 2002-08-29 2004-03-25 Alpine Electronics Inc 音声入力方法
US7747040B2 (en) * 2005-04-16 2010-06-29 Microsoft Corporation Machine vision system and method for estimating and tracking facial pose
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
US8165886B1 (en) * 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8121586B2 (en) * 2008-09-16 2012-02-21 Yellowpages.Com Llc Systems and methods for voice based search
JP4902617B2 (ja) 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
WO2010054373A2 (en) * 2008-11-10 2010-05-14 Google Inc. Multisensory speech detection
JP5646146B2 (ja) * 2009-03-18 2014-12-24 株式会社東芝 音声入力装置、音声認識システム及び音声認識方法
US8817048B2 (en) * 2009-07-17 2014-08-26 Apple Inc. Selective rotation of a user interface
US8886541B2 (en) * 2010-02-04 2014-11-11 Sony Corporation Remote controller with position actuatated voice transmission

Also Published As

Publication number Publication date
EP2821916B1 (en) 2018-12-19
WO2013128508A1 (ja) 2013-09-06
US20150106098A1 (en) 2015-04-16
JPWO2013128508A1 (ja) 2015-07-30
US9842589B2 (en) 2017-12-12
EP2821916A1 (en) 2015-01-07
EP2821916A4 (en) 2015-10-28

Similar Documents

Publication Publication Date Title
JP6016134B2 (ja) 音声入力装置、音声入力方法及びプログラム
EP2680110B1 (en) Method and apparatus for processing multiple inputs
US8786562B2 (en) Mobile electronic device, control method, and storage medium storing control program
WO2020258929A1 (zh) 文件夹界面切换方法及终端设备
WO2020151519A1 (zh) 信息输入方法、终端设备和计算机可读存储介质
US20150199320A1 (en) Creating, displaying and interacting with comments on computing devices
KR20140045181A (ko) 음성 인식을 이용한 미리 설정된 동작 모드의 수행 방법 및 장치
US20140198032A1 (en) Method and apparatus for displaying screen with eye tracking in portable terminal
KR101944416B1 (ko) 영상 통화 분석 서비스를 제공하기 위한 방법 및 그 전자 장치
JP2010530655A (ja) 振動入力認識を有する電子装置と方法
KR20190069877A (ko) 전자 장치 및 그의 입력 제어 방법
JP7055721B2 (ja) 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
CN106527928B (zh) 一种截屏控制装置、方法及智能终端
WO2015043200A1 (en) Method and apparatus for controlling applications and operations on a terminal
EP3832440A1 (en) Text input method and terminal
JP2019036914A (ja) 連携表示システム
JP7055722B2 (ja) 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
KR20130082352A (ko) 터치스크린을 구비하는 전자기기에서 화면을 확대하기 위한 장치 및 방법
JP2019175453A (ja) ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置
WO2021104175A1 (zh) 信息的处理方法及装置
US20150088525A1 (en) Method and apparatus for controlling applications and operations on a terminal
JP5273782B2 (ja) 携帯端末装置及びプログラム
KR102060064B1 (ko) 단말기 제어방법
KR102554899B1 (ko) 음성 처리 방법 및 이동 단말기
KR101661974B1 (ko) 휴대 단말기 및 그 동작 방법

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150618

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160915

R150 Certificate of patent or registration of utility model

Ref document number: 6016134

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees