JP2015038525A - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP2015038525A JP2015038525A JP2011080107A JP2011080107A JP2015038525A JP 2015038525 A JP2015038525 A JP 2015038525A JP 2011080107 A JP2011080107 A JP 2011080107A JP 2011080107 A JP2011080107 A JP 2011080107A JP 2015038525 A JP2015038525 A JP 2015038525A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- reliability
- speech
- vibration operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/016—Input arrangements with force or tactile feedback as computer generated output to the user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Abstract
【課題】ユーザが画面をみることなく、ユーザ発声に対する音声認識処理側からのフィードバックを受けることができる音声認識装置及び音声認識方法を提供する。【解決手段】実施形態によれば、音声入力部11と、音声入力部から出力されたデジタル信号を用いて音声認識処理を行い音声認識結果を出力し、かつ入力された音声信号の音声信頼度を出力する音声認識処理部12と、音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部13と、音声認識処理部から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定めたバイブレーション動作を行うバイブレーション動作部14と、を備える。【選択図】図1
Description
本発明の実施形態は、音声を音声コマンドとして入力したり、音声をテキストに変換し入力することが可能な音声認識装置及び音声認識方法に関する。
近年、スマートフォンやスレート(又はタブレット)PC等のようにタッチパネル式ディスプレイによってキーボード無しでも操作が可能な携帯端末機器が開発され普及している。
このような携帯端末機器(単に、端末機器ともいう)は、複数の機能、通話及び通信手段を有しており、その複数の機能には、音声認識技術を用いて、音声を音声コマンドとして入力しテキストの編集や各種アプリケーションの動作などを制御したり、音声をテキストに変換し入力し文書化する機能を備えたものがある。
ところで、上記のような音声認識が可能な端末機器において、音声認識処理を用いたアプリケーションを使う上で,ユーザの発声が音声信号としてどのように入力されたかのフィードバックを返すことによりユーザのストレスを軽減させる方法がある。従来ではこのフィードバックの結果を画面に表示し,ユーザに提示を行っていた。しかし、この構成の場合、発話ごとにユーザは画面を見る必要がある。
そこで、本発明が解決しようとする課題は、ユーザが画面をみることなく、ユーザ発声に対する音声認識処理側からのフィードバックを受けることができる音声認識装置及び音声認識方法を提供することである。
本発明の実施形態の音声認識装置は、音声を入力し、デジタル信号に変換し出力する音声入力部と、前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、前記音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部と、前記音声認識処理部から出力される音声信頼度を用いて、前記バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定められたバイブレーション動作を行うバイブレーション動作部と、を具備する。
以下、本発明の実施の形態の音声認識装置を図面を参照して説明する。
[第1の実施形態]
図1は本発明の一実施形態の音声認識装置のブロック図である。
図1は本発明の一実施形態の音声認識装置のブロック図である。
図1において、音声認識装置10は、音声入力部11と、音声認識処理部12と、バイブレーション動作パターンモデル保持部13と、バイブレーション動作部14と、を備えている。
音声入力部11は、音声を入力し、デジタル信号に変換し出力する。
音声認識処理部12は、音声入力部11から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声認識信頼度(以下、単に音声信頼度)を算出し出力する。音声認識処理は、音声をコマンドとして受付けそのコマンドにより予め定められたアプリケーションを操作する処理と、音声をテキストに変換する処理との少なくとも1つを含む。
音声認識処理部12は、音声入力部11から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声認識信頼度(以下、単に音声信頼度)を算出し出力する。音声認識処理は、音声をコマンドとして受付けそのコマンドにより予め定められたアプリケーションを操作する処理と、音声をテキストに変換する処理との少なくとも1つを含む。
バイブレーション動作パターンモデル保持部13は、音声認識処理部12から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作のパターンを記憶(登録)しておく。バイブレーション動作のパターンとは、バイブレーション動作の例えば強弱又は期間の幾つかの段階に相当するものである。
バイブレーション動作部14は、音声認識処理部12から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部13のモデルとマッチングするか否かを検出し、そのマッチングされたモデルに対して予め定められたバイブレーション動作を行う。
音声信頼度は音声認識結果の尤度(確からしさ又は尤もらしさの度合い)により定義される尺度であるが、具体的には、例えば音声のSN比により定義される尺度を用いる。
次に、図2のフローチャートを参照して本実施形態の音声認識装置10の動作を説明する。
以下の動作では、バイブレーション動作パターンモデル保持部13には、音声認識処理部12から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作のパターンを予め記憶(登録)してあるものとして説明する。
以下の動作では、バイブレーション動作パターンモデル保持部13には、音声認識処理部12から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作のパターンを予め記憶(登録)してあるものとして説明する。
まず、ステップS1で、音声入力部11が、音声を入力し、デジタル信号に変換し出力する。
次に、ステップS2で、音声認識処理部12は、音声入力部11から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を算出し出力する。
次に、ステップS2で、音声認識処理部12は、音声入力部11から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を算出し出力する。
そして、ステップS3で、バイブレーション動作部14は、音声認識処理部12から出力される音声信頼度を用いて、バイブレーション動作パターンモデル保持部13に記憶している音声信頼度のモデルとマッチングするか否かを検出する。マッチングした場合は、ステップS5へ進む。マッチングしなかった場合は、ステップS4で、音声認識の状態または環境を変更すべく、ユーザは音声認識の感度状態などまたは音声認識装置10の設置された場所を変化させながら、ステップS2へ戻り、ステップS3へと進むことを繰り返すことにより、ステップS3でマッチングした状態を得て、ステップS5へ進むことができる。
そして、ステップS5で、バイブレーション動作部14は、そのマッチングした信頼度パターンモデルに対して予め定められたバイブレーション動作のパターンを保持部13より検出してバイブレーション動作を行う。その結果として、音声信頼度の高低に対応した強度(又は期間)のバイブレーションを生成する。すなわち、バイブレーション動作部14は、音声信頼度の高低に応じてバイブレーション動作の強弱又は期間を変える。
前記バイブレーション動作部14は、音声信頼度の高低に対応したバイブレーション動作を行うほかに、音声信頼度の低いときのみバイブレーション動作を行ってもよいし、或いは逆に、音声信頼度の高いときのみバイブレーション動作を行うようにしてもよい。すなわち、音声信頼度が低く発生したおとが聴き取りにくいほど、換言すれば音声認識されにくいほど、ユーザにフィードバックするバイブレーションを強くしたり、或いは逆に聴き取りやすいほど、換言すれば音声認識されやすいほど、フィードバックするバイブレーションを強くするようにしてもよい。特に、音声信頼度が低く聴き取りずらいほど強くユーザにバイブレーション(フィードバック)で知らせるようにすると、ユーザが認識されやすい言葉を自然に話すようなフィードバックになる、というメリットも生じる。
以上述べた本発明の実施形態によれば、ユーザが画面をみることなく、ユーザ発声に対して音声認識処理側からのフィードバックを受け取ることが可能となる。
本発明の一実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
10…音声認識装置、11…音声入力部、12…音声認識処理部、13…バイブレーション動作パターンモデル保持部、14…バイブレーション動作部。
本発明の実施形態の音声認識装置は、音声を入力し、デジタル信号に変換し出力する音声入力部と、前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力すると共に、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、前記音声信頼度を複数のパターンにモデル化して複数の信頼度パターンモデルとして記憶すると共に、前記複数の信頼度パターンモデルに夫々対応したバイブレーション動作の複数のパターンを保持するバイブレーション動作パターンモデル保持部と、前記音声認識処理部から出力される音声信頼度のパターンモデルが、前記バイブレーション動作パターンモデル保持部が記憶する前記複数の信頼度パターンモデルのうちのいずれかにマッチングするか否かを検出し、マッチングした信頼度パターンモデルが存在する場合には、マッチングした前記信頼度パターンモデルに対応した前記バイブレーション動作のパターンに応じたバイブレーション動作を行うバイブレーション動作部と、を具備する。
Claims (8)
- 音声を入力し、デジタル信号に変換し出力する音声入力部と、
前記音声入力部から出力されたデジタル信号を用いて音声認識処理を行い、音声認識結果を出力する一方、入力された音声信号に対する音声信頼度を出力する音声認識処理部と、
前記音声認識処理部から出力される音声信頼度を幾つかのパターンに対してモデル化しておき、それぞれのモデルに対応したバイブレーション動作を保持しておくバイブレーション動作パターンモデル保持部と、
前記音声認識処理部から出力される音声信頼度を用いて、前記バイブレーション動作パターンモデル保持部のモデルとマッチングするか否かを検出し、マッチングされたモデルに対して予め定められたバイブレーション動作を行うバイブレーション動作部と、
を具備したことを特徴とする音声認識装置。 - 前記音声信頼度は、音声認識結果の尤度により定義される尺度であることを特徴とする請求項1に記載の音声認識装置。
- 前記音声信頼度は、音声のSN比により定義される尺度であることを特徴とする請求項1に記載の音声認識装置。
- 前記バイブレーション動作部は、前記音声信頼度の高低に応じてバイブレーション動作の期間又は強弱を変えることを特徴とする請求項1に記載の音声認識装置。
- 前記バイブレーション動作部は、前記音声信頼度の低いときのみバイブレーション動作を行うことを特徴とする請求項1に記載の音声認識装置。
- 前記バイブレーション動作部は、前記音声信頼度の高いときのみバイブレーション動作を行うことを特徴とする請求項1に記載の音声認識装置。
- 前記音声認識処理は、音声をコマンドとして受付けそのコマンドにより予め定められたアプリケーションを操作する処理と、音声をテキストに変換する処理との少なくとも1つを含むことを特徴とする請求項1に記載の音声認識装置。
- 音声を入力し、デジタル信号に変換して出力し、
この出力された音声のデジタル信号を用いて音声認識処理を行い、音声認識結果と入力された音声信号に対する音声信頼度を出力し、
前記出力される音声信頼度と、予め定めた音声信頼度パターンモデルとそれに対応する予め定めたバイブレーション動作のパターンとを記憶した保持部に記憶されている前記音声信頼度パターンモデルとがマッチングするか否かを、音声認識の状態または環境を変化させながら検出し、
マッチングをを検出したとき、そのマッチングした音声信頼度パターンモデルに対応したバイブレーション動作を実行する
ことを特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011080107A JP2015038525A (ja) | 2011-03-31 | 2011-03-31 | 音声認識装置及び音声認識方法 |
US13/274,969 US20120253808A1 (en) | 2011-03-31 | 2011-10-17 | Voice Recognition Device and Voice Recognition Method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011080107A JP2015038525A (ja) | 2011-03-31 | 2011-03-31 | 音声認識装置及び音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015038525A true JP2015038525A (ja) | 2015-02-26 |
Family
ID=46928419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011080107A Pending JP2015038525A (ja) | 2011-03-31 | 2011-03-31 | 音声認識装置及び音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120253808A1 (ja) |
JP (1) | JP2015038525A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102443087B1 (ko) | 2015-09-23 | 2022-09-14 | 삼성전자주식회사 | 전자 기기 및 그의 음성 인식 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242464A (ja) * | 1999-02-23 | 2000-09-08 | Sharp Corp | 音声情報処理装置及び方法並びに音声情報処理プログラムを記憶した記憶媒体 |
JP2006337480A (ja) * | 2005-05-31 | 2006-12-14 | Kubo Kogyo Kk | 業務支援システムおよび業務支援方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5400408A (en) * | 1993-06-23 | 1995-03-21 | Apple Computer, Inc. | High performance stereo sound enclosure for computer visual display monitor and method for construction |
EP1024435A1 (en) * | 1999-01-28 | 2000-08-02 | Atr Human Information Processing Research Laboratories | A mellin-transform information extractor for vibration sources |
US20070037605A1 (en) * | 2000-08-29 | 2007-02-15 | Logan James D | Methods and apparatus for controlling cellular and portable phones |
DE60325901D1 (de) * | 2003-04-07 | 2009-03-05 | Nokia Corp | Prachgesteuerter eingabe für eine elektronische vorrichtung mit einer benutzerschnittstelle |
US20060080092A1 (en) * | 2004-07-28 | 2006-04-13 | Sherman Edward S | Telecommunication device and method |
-
2011
- 2011-03-31 JP JP2011080107A patent/JP2015038525A/ja active Pending
- 2011-10-17 US US13/274,969 patent/US20120253808A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242464A (ja) * | 1999-02-23 | 2000-09-08 | Sharp Corp | 音声情報処理装置及び方法並びに音声情報処理プログラムを記憶した記憶媒体 |
JP2006337480A (ja) * | 2005-05-31 | 2006-12-14 | Kubo Kogyo Kk | 業務支援システムおよび業務支援方法 |
Also Published As
Publication number | Publication date |
---|---|
US20120253808A1 (en) | 2012-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11393472B2 (en) | Method and apparatus for executing voice command in electronic device | |
US10079014B2 (en) | Name recognition system | |
CN102971725B (zh) | 语音输入的字词级纠正 | |
US9384732B2 (en) | Voice command definitions used in launching application with a command | |
US9293129B2 (en) | Speech recognition assisted evaluation on text-to-speech pronunciation issue detection | |
KR101295711B1 (ko) | 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법 | |
US9218052B2 (en) | Framework for voice controlling applications | |
JP2014191272A (ja) | 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法 | |
US10964322B2 (en) | Voice interaction tool for voice-assisted application prototypes | |
US10311878B2 (en) | Incorporating an exogenous large-vocabulary model into rule-based speech recognition | |
CN107147767B (zh) | 通话音量控制方法、装置、存储介质及终端 | |
JP2018063271A (ja) | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 | |
JP6624476B2 (ja) | 翻訳装置および翻訳システム | |
US20190073994A1 (en) | Self-correcting computer based name entity pronunciations for speech recognition and synthesis | |
JP2015038525A (ja) | 音声認識装置及び音声認識方法 | |
CN111862959B (zh) | 发音错误检测方法、装置、电子设备及存储介质 | |
US9613311B2 (en) | Receiving voice/speech, replacing elements including characters, and determining additional elements by pronouncing a first element | |
CN112002313B (zh) | 交互方法及装置、音箱、电子设备和存储介质 | |
JP2015041243A (ja) | 電子機器およびこれに接続された携帯端末の音声認識操作方法、車載システム | |
KR20200101103A (ko) | 사용자 입력을 처리하는 전자 장치 및 방법 | |
JP2020119043A (ja) | 音声翻訳システムおよび音声翻訳方法 | |
TW201351205A (zh) | 語音輔助鍵盤輸入 | |
CN103365733B (zh) | 一种处理指令的方法及电子设备 | |
JP2015036826A (ja) | コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム | |
Matthews | Dragon dictation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120807 |