JP2015038525A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP2015038525A
JP2015038525A JP2011080107A JP2011080107A JP2015038525A JP 2015038525 A JP2015038525 A JP 2015038525A JP 2011080107 A JP2011080107 A JP 2011080107A JP 2011080107 A JP2011080107 A JP 2011080107A JP 2015038525 A JP2015038525 A JP 2015038525A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
reliability
speech
vibration operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011080107A
Other languages
English (en)
Inventor
元將 杉浦
Motomasa Sugiura
元將 杉浦
浩司 藤村
Koji Fujimura
浩司 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011080107A priority Critical patent/JP2015038525A/ja
Priority to US13/274,969 priority patent/US20120253808A1/en
Publication of JP2015038525A publication Critical patent/JP2015038525A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Abstract

【課題】ユーザが画面をみることなく、ユーザ発声に対する音声認識処理側からのフィードバックを受けることができる音声認識装置及び音声認識方法を提供する。【解決手段】実施形態によれば、音声入力部11と、音声入力部から出力されたデジタル信号を用いて音声認識処理を行い音声認識結果を出力し、かつ入力された音声信号の音声信頼度を出力する音声認識処理部12と、音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部13と、音声認識処理部から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定めたバイブレーション動作を行うバイブレーション動作部14と、を備える。【選択図】図1

Description

本発明の実施形態は、音声を音声コマンドとして入力したり、音声をテキストに変換し入力することが可能な音声認識装置及び音声認識方法に関する。
近年、スマートフォンやスレート(又はタブレット)PC等のようにタッチパネル式ディスプレイによってキーボード無しでも操作が可能な携帯端末機器が開発され普及している。
このような携帯端末機器(単に、端末機器ともいう)は、複数の機能、通話及び通信手段を有しており、その複数の機能には、音声認識技術を用いて、音声を音声コマンドとして入力しテキストの編集や各種アプリケーションの動作などを制御したり、音声をテキストに変換し入力し文書化する機能を備えたものがある。
ところで、上記のような音声認識が可能な端末機器において、音声認識処理を用いたアプリケーションを使う上で,ユーザの発声が音声信号としてどのように入力されたかのフィードバックを返すことによりユーザのストレスを軽減させる方法がある。従来ではこのフィードバックの結果を画面に表示し,ユーザに提示を行っていた。しかし、この構成の場合、発話ごとにユーザは画面を見る必要がある。
特開2006−301994号公報
そこで、本発明が解決しようとする課題は、ユーザが画面をみることなく、ユーザ発声に対する音声認識処理側からのフィードバックを受けることができる音声認識装置及び音声認識方法を提供することである。
本発明の実施形態の音声認識装置は、音声を入力し、デジタル信号に変換し出力する音声入力部と、前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、前記音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部と、前記音声認識処理部から出力される音声信頼度を用いて、前記バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定められたバイブレーション動作を行うバイブレーション動作部と、を具備する。
本発明の一実施形態の音声認識装置のブロック図である。 実施形態の音声認識装置の動作を説明するフローチャートである。
以下、本発明の実施の形態の音声認識装置を図面を参照して説明する。
[第1の実施形態]
図1は本発明の一実施形態の音声認識装置のブロック図である。
図1において、音声認識装置10は、音声入力部11と、音声認識処理部12と、バイブレーション動作パターンモデル保持部13と、バイブレーション動作部14と、を備えている。
音声入力部11は、音声を入力し、デジタル信号に変換し出力する。
音声認識処理部12は、音声入力部11から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声認識信頼度(以下、単に音声信頼度)を算出し出力する。音声認識処理は、音声をコマンドとして受付けそのコマンドにより予め定められたアプリケーションを操作する処理と、音声をテキストに変換する処理との少なくとも1つを含む。
バイブレーション動作パターンモデル保持部13は、音声認識処理部12から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作のパターンを記憶(登録)しておく。バイブレーション動作のパターンとは、バイブレーション動作の例えば強弱又は期間の幾つかの段階に相当するものである。
バイブレーション動作部14は、音声認識処理部12から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部13のモデルとマッチングするか否かを検出し、そのマッチングされたモデルに対して予め定められたバイブレーション動作を行う。
音声信頼度は音声認識結果の尤度(確からしさ又は尤もらしさの度合い)により定義される尺度であるが、具体的には、例えば音声のSN比により定義される尺度を用いる。
次に、図2のフローチャートを参照して本実施形態の音声認識装置10の動作を説明する。
以下の動作では、バイブレーション動作パターンモデル保持部13には、音声認識処理部12から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作のパターンを予め記憶(登録)してあるものとして説明する。
まず、ステップS1で、音声入力部11が、音声を入力し、デジタル信号に変換し出力する。
次に、ステップS2で、音声認識処理部12は、音声入力部11から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を算出し出力する。
そして、ステップS3で、バイブレーション動作部14は、音声認識処理部12から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部13に記憶している音声信頼度のモデルとマッチングするか否かを検出する。マッチングした場合は、ステップS5へ進む。マッチングしなかった場合は、ステップS4で、音声認識の状態または環境を変更すべく、ユーザは音声認識の感度状態などまたは音声認識装置10の設置された場所を変化させながら、ステップS2へ戻り、ステップS3へと進むことを繰り返すことにより、ステップS3でマッチングした状態を得て、ステップS5へ進むことができる。
そして、ステップS5で、バイブレーション動作部14は、そのマッチングした信頼度パターンモデルに対して予め定められたバイブレーション動作のパターンを保持部13より検出してバイブレーション動作を行う。その結果として、音声信頼度の高低に対応した強度(又は期間)のバイブレーションを生成する。すなわち、バイブレーション動作部14は、音声信頼度の高低に応じてバイブレーション動作の強弱又は期間を変える。
前記バイブレーション動作部14は、音声信頼度の高低に対応したバイブレーション動作を行うほかに、音声信頼度の低いときのみバイブレーション動作を行ってもよいし、或いは逆に、音声信頼度の高いときのみバイブレーション動作を行うようにしてもよい。すなわち、音声信頼度が低く発生したおとが聴き取りにくいほど、換言すれば音声認識されにくいほど、ユーザにフィードバックするバイブレーションを強くしたり、或いは逆に聴き取りやすいほど、換言すれば音声認識されやすいほど、フィードバックするバイブレーションを強くするようにしてもよい。特に、音声信頼度が低く聴き取りずらいほど強くユーザにバイブレーション(フィードバック)で知らせるようにすると、ユーザが認識されやすい言葉を自然に話すようなフィードバックになる、というメリットも生じる。
以上述べた本発明の実施形態によれば、ユーザが画面をみることなく、ユーザ発声に対して音声認識処理側からのフィードバックを受け取ることが可能となる。
本発明の一実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10…音声認識装置、11…音声入力部、12…音声認識処理部、13…バイブレーション動作パターンモデル保持部、14…バイブレーション動作部。
本発明の実施形態の音声認識装置は、音声を入力し、デジタル信号に変換し出力する音声入力部と、前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力すると共に、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、前記音声信頼度を複数のパターンにモデル化して複数の信頼度パターンモデルとして記憶すると共に、前記複数の信頼度パターンモデルに夫々対応したバイブレーション動作の複数のパターンを保持するバイブレーション動作パターンモデル保持部と、前記音声認識処理部から出力される音声信頼度のパターンモデルが、前記バイブレーション動作パターンモデル保持部が記憶する前記複数の信頼度パターンモデルのうちのいずれかにマッチングするか否かを検出し、マッチングした信頼度パターンモデルが存在する場合には、マッチングした前記信頼度パターンモデルに対応した前記バイブレーション動作のパターンに応じたバイブレーション動作を行うバイブレーション動作部と、を具備する。

Claims (8)

  1. 音声を入力し、デジタル信号に変換し出力する音声入力部と、
    前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、
    前記音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部と、
    前記音声認識処理部から出力される音声信頼度を用いて、前記バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定められたバイブレーション動作を行うバイブレーション動作部と、
    を具備したことを特徴とする音声認識装置。
  2. 前記音声信頼度は、音声認識結果の尤度により定義される尺度であることを特徴とする請求項1に記載の音声認識装置。
  3. 前記音声信頼度は、音声のSN比により定義される尺度であることを特徴とする請求項1に記載の音声認識装置。
  4. 前記バイブレーション動作部は、前記音声信頼度の高低に応じてバイブレーション動作の期間又は強弱を変えることを特徴とする請求項1に記載の音声認識装置。
  5. 前記バイブレーション動作部は、前記音声信頼度の低いときのみバイブレーション動作を行うことを特徴とする請求項1に記載の音声認識装置。
  6. 前記バイブレーション動作部は、前記音声信頼度の高いときのみバイブレーション動作を行うことを特徴とする請求項1に記載の音声認識装置。
  7. 前記音声認識処理は、音声をコマンドとして受付けそのコマンドにより予め定められたアプリケーションを操作する処理と、音声をテキストに変換する処理との少なくとも1つを含むことを特徴とする請求項1に記載の音声認識装置。
  8. 音声を入力し、デジタル信号に変換して出力し、
    この出力された音声のデジタル信号を用いて音声認識処理を行い、音声認識結果と入力された音声信号に対する音声信頼度を出力し、
    前記出力される音声信頼度と、予め定めた音声信頼度パターンモデルとそれに対応する予め定めたバイブレーション動作のパターンとを記憶した保持部に記憶されている前記音声信頼度パターンモデルとがマッチングするか否かを、音声認識の状態または環境を変化させながら検出し、
    マッチングをを検出したとき、そのマッチングした音声信頼度パターンモデルに対応したバイブレーション動作を実行する
    ことを特徴とする音声認識方法。
JP2011080107A 2011-03-31 2011-03-31 音声認識装置及び音声認識方法 Pending JP2015038525A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011080107A JP2015038525A (ja) 2011-03-31 2011-03-31 音声認識装置及び音声認識方法
US13/274,969 US20120253808A1 (en) 2011-03-31 2011-10-17 Voice Recognition Device and Voice Recognition Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011080107A JP2015038525A (ja) 2011-03-31 2011-03-31 音声認識装置及び音声認識方法

Publications (1)

Publication Number Publication Date
JP2015038525A true JP2015038525A (ja) 2015-02-26

Family

ID=46928419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011080107A Pending JP2015038525A (ja) 2011-03-31 2011-03-31 音声認識装置及び音声認識方法

Country Status (2)

Country Link
US (1) US20120253808A1 (ja)
JP (1) JP2015038525A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102443087B1 (ko) 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242464A (ja) * 1999-02-23 2000-09-08 Sharp Corp 音声情報処理装置及び方法並びに音声情報処理プログラムを記憶した記憶媒体
JP2006337480A (ja) * 2005-05-31 2006-12-14 Kubo Kogyo Kk 業務支援システムおよび業務支援方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400408A (en) * 1993-06-23 1995-03-21 Apple Computer, Inc. High performance stereo sound enclosure for computer visual display monitor and method for construction
EP1024435A1 (en) * 1999-01-28 2000-08-02 Atr Human Information Processing Research Laboratories A mellin-transform information extractor for vibration sources
US20070037605A1 (en) * 2000-08-29 2007-02-15 Logan James D Methods and apparatus for controlling cellular and portable phones
DE60325901D1 (de) * 2003-04-07 2009-03-05 Nokia Corp Prachgesteuerter eingabe für eine elektronische vorrichtung mit einer benutzerschnittstelle
US20060080092A1 (en) * 2004-07-28 2006-04-13 Sherman Edward S Telecommunication device and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000242464A (ja) * 1999-02-23 2000-09-08 Sharp Corp 音声情報処理装置及び方法並びに音声情報処理プログラムを記憶した記憶媒体
JP2006337480A (ja) * 2005-05-31 2006-12-14 Kubo Kogyo Kk 業務支援システムおよび業務支援方法

Also Published As

Publication number Publication date
US20120253808A1 (en) 2012-10-04

Similar Documents

Publication Publication Date Title
US11393472B2 (en) Method and apparatus for executing voice command in electronic device
US10079014B2 (en) Name recognition system
CN102971725B (zh) 语音输入的字词级纠正
US9384732B2 (en) Voice command definitions used in launching application with a command
US9293129B2 (en) Speech recognition assisted evaluation on text-to-speech pronunciation issue detection
KR101295711B1 (ko) 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법
US9218052B2 (en) Framework for voice controlling applications
JP2014191272A (ja) 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法
US10964322B2 (en) Voice interaction tool for voice-assisted application prototypes
US10311878B2 (en) Incorporating an exogenous large-vocabulary model into rule-based speech recognition
CN107147767B (zh) 通话音量控制方法、装置、存储介质及终端
JP2018063271A (ja) 音声対話装置、音声対話システム、および、音声対話装置の制御方法
JP6624476B2 (ja) 翻訳装置および翻訳システム
US20190073994A1 (en) Self-correcting computer based name entity pronunciations for speech recognition and synthesis
JP2015038525A (ja) 音声認識装置及び音声認識方法
CN111862959B (zh) 发音错误检测方法、装置、电子设备及存储介质
US9613311B2 (en) Receiving voice/speech, replacing elements including characters, and determining additional elements by pronouncing a first element
CN112002313B (zh) 交互方法及装置、音箱、电子设备和存储介质
JP2015041243A (ja) 電子機器およびこれに接続された携帯端末の音声認識操作方法、車載システム
KR20200101103A (ko) 사용자 입력을 처리하는 전자 장치 및 방법
JP2020119043A (ja) 音声翻訳システムおよび音声翻訳方法
TW201351205A (zh) 語音輔助鍵盤輸入
CN103365733B (zh) 一种处理指令的方法及电子设备
JP2015036826A (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
Matthews Dragon dictation

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120807