JP6522009B2 - 音声認識システム - Google Patents
音声認識システム Download PDFInfo
- Publication number
- JP6522009B2 JP6522009B2 JP2016565813A JP2016565813A JP6522009B2 JP 6522009 B2 JP6522009 B2 JP 6522009B2 JP 2016565813 A JP2016565813 A JP 2016565813A JP 2016565813 A JP2016565813 A JP 2016565813A JP 6522009 B2 JP6522009 B2 JP 6522009B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- recognition
- voice
- recognition result
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006870 function Effects 0.000 description 125
- 238000012545 processing Methods 0.000 description 32
- 238000000034 method Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 16
- 238000013500 data storage Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04817—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Computational Linguistics (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Description
なお、以下の実施の形態では、この発明に係る音声認識システムを車両等の移動体用のナビゲーションシステム(被制御装置)に適用した場合を例に挙げて説明するが、音声操作機能を有するシステムであれば、どのようなシステムに適用してもよい。
図1は、この発明の実施の形態1に係る音声認識システム2を適用したナビゲーションシステム1の一例を示すブロック図である。このナビゲーションシステム1は、制御部3、入力受信部5、ナビゲーション部6、音声制御部7、音声取得部10、音声認識部11、判定部14および表示制御部15を備えている。なお、ナビゲーションシステム1の構成要件は、ネットワーク上のサーバ、スマートフォン等の携帯端末、車載器に分散されていてもよい。
音声認識システム2は、マイク9により集音された音声を予め設定された音声取得期間に亘って連続的に取り込んで、予め定められたキーワードを認識し、認識結果を保持する。そして、音声認識システム2は、移動体のユーザによりナビゲーションシステム1に対して予め定められた操作が行われたか否か判定し、当該操作が行われると、保持している認識結果を用いて認識結果に対応する機能を実行するための機能実行ボタンを生成し、生成した機能実行ボタンを表示部18へ出力する。
予め設定された音声取得期間については後述する。
A:「この曲終わったら次は何再生しよう?」
B:「ミスチャイルドを久しぶりに聞きたいなぁ」
A:「いいねー。そういえば、昼食はレストランでいい?」
B:「コンビニで何か買えばいいかなぁ」
A:「わかったー」
ここで、音声認識システム2は、キーワードとしてアーティスト名「ミスチャイルド」と施設ジャンル名「レストラン」「コンビニ」とを認識するが、この段階では、これらの認識結果に対応する機能実行ボタンを表示部18に表示しない。なお、図3に示す「メニュー」ボタンHW1、「目的地」ボタンHW2、「AV(Audio Visual)」ボタンHW3および「現在地」ボタンHW4は、表示部18のディスプレイ筐体に設置されたハードウェア(HW)キーである。
一方、「コンビニ」ボタンSW3を使用せずに現在地周辺のコンビニの検索を実行しようとした場合、ユーザBは、例えば「メニュー」ボタンHW1を押下操作してメニュー画面を表示させ、メニュー画面の「目的地設定」ボタンSW11を押下操作して目的地検索画面を表示させ、目的地検索画面の「周辺施設検索」ボタンを押下操作して周辺施設検索画面を表示させ、検索キーとして「コンビニ」を設定して検索実行を指示することになる。つまり、通常であれば複数回の操作を行って呼び出して実行することとなる機能を、機能実行ボタン1回の操作で呼び出して実行することができる。
マイク9は、ユーザが発話した音声を集音する。マイク9には、例えば、全指向性(無指向性)のマイク、複数の全指向性(無指向性)のマイクをアレイ状に配列して指向特性を調整可能としたアレイマイク、または一方向のみに指向性を有しており指向特性を調整できない単一指向性マイクなどがある。
入力受信部5は、指示入力部4により入力された指示を受信して、制御部3へ出力する。
音声取得部10は、マイク9により集音された音声を連続的に取り込み、例えば、PCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換する。
処理部12は、音声取得部10によりデジタル化された音声データから、ユーザが発話した内容に該当する音声区間(以下、「発話区間」と記載する)を検出し、該発話区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書を用いて認識処理を行い、認識結果を認識結果格納部13へ出力する。認識処理の方法としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよいため詳細な説明を省略する。
ここでは、音声取得部10は、ナビゲーションシステム1が起動してから停止するまでの音声取得期間、常に、マイク9により集音された音声を取り込むものとして説明する。まず、音声取得部10は、マイク9により集音されたユーザ発話、すなわち、入力された音声を取り込み、例えばPCMによりA/D変換する(ステップST01)。
まず、判定部14は、入力受信部5からユーザの操作内容を取得する(ステップST11)。操作内容が取得できた場合すなわち何らかのユーザ操作があった場合(ステップST12「YES」)、判定部14はステップST13の処理へ進む。一方、操作内容が取得できなかった場合(ステップST12「NO」)、判定部14はステップST11の処理へ戻る。
その後、生成部16は、認識結果格納部13から取得した認識結果に対応する機能実行ボタンを生成し(ステップST15)、当該生成した機能実行ボタンを表示部18へ表示するよう描画部17に対して指示する。最後に、描画部17は機能実行ボタンを表示部18に表示させる(ステップST16)。
具体的には、手動でのジャンル名による施設検索の回数がアーティスト名検索の回数より多い場合は、優先度付与部19は、認識結果種別が「施設ジャンル名」である認識結果の優先度を、認識結果種別が「アーティスト名」である認識結果の優先度より高くする。そして、生成部16は、例えば、優先度が高い認識結果に対する機能実行ボタンの大きさが、優先度が低い認識結果に対する機能実行ボタンの大きさより大きくなるように、各機能実行ボタンを生成する。このようにすることでも、ユーザが必要としていそうな機能実行ボタンを目立たせることができるので、利便性が向上する。
この発明の実施の形態2による音声認識システムを適用したナビゲーションシステムの一例を示すブロック図は、実施の形態1において示した図1と同じであるため、図示および説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、判定部14が、例えば図12に示すように、ユーザの操作と認識結果種別とを対応付けて記憶している点が異なる。図12のハードウェアキーとは、例えば図3(a)に示すようなディスプレイの辺縁に設置されている「メニュー」ボタンHW1、「目的地」ボタンHW2、「AV」ボタンHW3などである。また、図12のソフトウェアキーとは、例えば図3(b)に示すようなディスプレイ上に表示されている「目的地設定」ボタンSW11、「AV」ボタンSW12などである。
図16は、この発明の実施の形態3による音声認識システム2を適用したナビゲーションシステム1の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。
Claims (6)
- 会話中の音声を、予め設定された音声取得期間に亘って取得する音声取得部と、
音声認識開始指示がなくても、予め定義されている機能が割り当てられた機能実行ボタンの表示内容に対応して前記音声取得部が前記音声取得期間に亘って取得した会話中の音声を認識し、認識結果として保持する音声認識部と、
前記音声認識部の認識結果に対して予め定義されている機能が割り当てられた機能実行ボタンを表示部に表示するきっかけとなる、予め定められた操作または動作を行ったか否かを判定する判定部と、
前記判定部において、前記予め定められた操作または動作を行ったと判定された場合、前記音声認識部に保持されている前記認識結果に対して予め定義されている機能を被制御装置に実行させる前記機能実行ボタンを前記表示部に表示させる表示制御部と、
を備えることを特徴とする音声認識システム。 - 前記音声認識部は、前記認識結果を複数保持し、
前記表示制御部は、前記音声認識部に保持されている複数の前記認識結果の各々に対する前記機能実行ボタンを前記表示部に表示させることを特徴とする請求項1記載の音声認識システム。 - 前記認識結果に対して優先度を付与する優先度付与部を備え、
前記表示制御部は、前記優先度が高い認識結果に対応する機能実行ボタンを優先して出力することを特徴とする請求項1記載の音声認識システム。 - 前記判定部は、ユーザが行う操作または動作と前記音声認識部の認識結果の種別との対応関係を示す情報を用いて、前記操作また前記動作を行ったと判定した場合に対応する種別を判定し、
前記表示制御部は、前記音声認識部の認識結果の中から前記判定部が判定した種別に一致する認識結果を選択し、当該選択した認識結果に対して予め定義されている機能を前記被制御装置に実行させる前記機能実行ボタンを前記表示部に表示させることを特徴とする請求項1記載の音声認識システム。 - 前記表示制御部は、前記音声認識部の認識結果の種別に応じて、前記機能実行ボタンの表示態様を変更することを特徴とする請求項1記載の音声認識システム。
- 前記音声認識部の認識結果に対して、種別ごとに優先度を付与する優先度付与部を備え、前記表示制御部は、前記優先度付与部が前記音声認識部の認識結果に対して付与した優先度に基づいて、前記機能実行ボタンの表示態様を変更することを特徴とする請求項5記載の音声認識システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/084571 WO2016103465A1 (ja) | 2014-12-26 | 2014-12-26 | 音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016103465A1 JPWO2016103465A1 (ja) | 2017-04-27 |
JP6522009B2 true JP6522009B2 (ja) | 2019-05-29 |
Family
ID=56149553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016565813A Expired - Fee Related JP6522009B2 (ja) | 2014-12-26 | 2014-12-26 | 音声認識システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170301349A1 (ja) |
JP (1) | JP6522009B2 (ja) |
CN (1) | CN107110660A (ja) |
DE (1) | DE112014007288T5 (ja) |
WO (1) | WO2016103465A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6346281B2 (ja) * | 2014-07-04 | 2018-06-20 | クラリオン株式会社 | 車載対話型システム、及び車載情報機器 |
US11176930B1 (en) | 2016-03-28 | 2021-11-16 | Amazon Technologies, Inc. | Storing audio commands for time-delayed execution |
DE102018006480A1 (de) * | 2018-08-16 | 2020-02-20 | Daimler Ag | Schlüsselvorrichtung zum Einstellen eines Fahrzeugparameters |
JP2020144209A (ja) * | 2019-03-06 | 2020-09-10 | シャープ株式会社 | 音声処理装置、会議システム、及び音声処理方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3380992B2 (ja) * | 1994-12-14 | 2003-02-24 | ソニー株式会社 | ナビゲーションシステム |
US8768286B2 (en) * | 2001-10-24 | 2014-07-01 | Mouhamad Ahmad Naboulsi | Hands on steering wheel vehicle safety control system |
JP3948357B2 (ja) * | 2002-07-02 | 2007-07-25 | 株式会社デンソー | ナビゲーション支援システム、移動装置、ナビゲーション支援サーバおよびコンピュータプログラム |
JP2004239963A (ja) * | 2003-02-03 | 2004-08-26 | Mitsubishi Electric Corp | 車載制御装置 |
US20120253823A1 (en) * | 2004-09-10 | 2012-10-04 | Thomas Barton Schalk | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing |
JP2010205130A (ja) * | 2009-03-05 | 2010-09-16 | Denso Corp | 制御装置 |
US9213466B2 (en) * | 2009-07-20 | 2015-12-15 | Apple Inc. | Displaying recently used functions in context sensitive menu |
JP2011080824A (ja) * | 2009-10-06 | 2011-04-21 | Clarion Co Ltd | ナビゲーション装置 |
JP2011113483A (ja) * | 2009-11-30 | 2011-06-09 | Fujitsu Ten Ltd | 情報処理装置、オーディオ装置及び情報処理方法 |
US9417754B2 (en) * | 2011-08-05 | 2016-08-16 | P4tents1, LLC | User interface system, method, and computer program product |
US20180032997A1 (en) * | 2012-10-09 | 2018-02-01 | George A. Gordon | System, method, and computer program product for determining whether to prompt an action by a platform in connection with a mobile device |
CN103917847B (zh) * | 2011-11-10 | 2017-03-01 | 三菱电机株式会社 | 导航装置及方法 |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
US9767799B2 (en) * | 2013-05-21 | 2017-09-19 | Mitsubishi Electric Corporation | Voice recognition system and recognition result display apparatus |
US20150052459A1 (en) * | 2013-08-13 | 2015-02-19 | Unisys Corporation | Shortcut command button for a hierarchy tree |
KR20150025214A (ko) * | 2013-08-28 | 2015-03-10 | 삼성전자주식회사 | 동영상에 비주얼 객체를 중첩 표시하는 방법, 저장 매체 및 전자 장치 |
KR102231105B1 (ko) * | 2013-09-05 | 2021-03-24 | 삼성전자주식회사 | 제어 장치 및 그 제어 방법 |
US9383827B1 (en) * | 2014-04-07 | 2016-07-05 | Google Inc. | Multi-modal command display |
US9576575B2 (en) * | 2014-10-27 | 2017-02-21 | Toyota Motor Engineering & Manufacturing North America, Inc. | Providing voice recognition shortcuts based on user verbal input |
-
2014
- 2014-12-26 US US15/509,981 patent/US20170301349A1/en not_active Abandoned
- 2014-12-26 DE DE112014007288.5T patent/DE112014007288T5/de not_active Ceased
- 2014-12-26 CN CN201480084386.7A patent/CN107110660A/zh active Pending
- 2014-12-26 WO PCT/JP2014/084571 patent/WO2016103465A1/ja active Application Filing
- 2014-12-26 JP JP2016565813A patent/JP6522009B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN107110660A (zh) | 2017-08-29 |
DE112014007288T5 (de) | 2017-09-07 |
WO2016103465A1 (ja) | 2016-06-30 |
US20170301349A1 (en) | 2017-10-19 |
JPWO2016103465A1 (ja) | 2017-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6400109B2 (ja) | 音声認識システム | |
JP6570651B2 (ja) | 音声対話装置および音声対話方法 | |
JP5762660B2 (ja) | 音声認識装置、認識結果表示装置および表示方法 | |
JP5925313B2 (ja) | 音声認識装置 | |
JP5637131B2 (ja) | 音声認識装置 | |
WO2015128960A1 (ja) | 車載制御装置および車載制御方法 | |
CN105355202A (zh) | 语音识别装置、具有语音识别装置的车辆及其控制方法 | |
JP6522009B2 (ja) | 音声認識システム | |
CN105448293B (zh) | 语音监听及处理方法和设备 | |
JP2014071446A (ja) | 音声認識システム | |
JP6214297B2 (ja) | ナビゲーション装置および方法 | |
WO2021208531A1 (zh) | 一种语音处理方法、装置和电子设备 | |
WO2004019197A1 (ja) | リズムパターンを用いた制御システム、方法およびプログラム | |
JP6281202B2 (ja) | 応答制御システム、およびセンター | |
JP6832503B2 (ja) | 情報提示方法、情報提示プログラム及び情報提示システム | |
JP2014065359A (ja) | 表示制御装置、表示システム及び表示制御方法 | |
JP2007286376A (ja) | 音声案内システム | |
JP3296783B2 (ja) | 車載用ナビゲーション装置および音声認識方法 | |
JP2015129672A (ja) | 施設検索装置および方法 | |
JP5446540B2 (ja) | 情報検索装置、制御方法及びプログラム | |
JP4093394B2 (ja) | 音声認識装置 | |
WO2015102039A1 (ja) | 音声認識装置 | |
JP2017102320A (ja) | 音声認識装置 | |
JP2008233009A (ja) | カーナビゲーション装置及びカーナビゲーション装置用プログラム | |
JP7010585B2 (ja) | 音コマンド入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181002 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6522009 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |