JP6244560B2 - 音声認識処理装置、音声認識処理方法、および表示装置 - Google Patents
音声認識処理装置、音声認識処理方法、および表示装置 Download PDFInfo
- Publication number
- JP6244560B2 JP6244560B2 JP2015554558A JP2015554558A JP6244560B2 JP 6244560 B2 JP6244560 B2 JP 6244560B2 JP 2015554558 A JP2015554558 A JP 2015554558A JP 2015554558 A JP2015554558 A JP 2015554558A JP 6244560 B2 JP6244560 B2 JP 6244560B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- command
- unit
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 71
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000002950 deficient Effects 0.000 claims 1
- 230000003287 optical effect Effects 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 239000002245 particle Substances 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Description
以下、図1〜図7を用いて、実施の形態1を説明する。なお、本実施の形態では、音声認識処理装置を備えた表示装置の一例としてテレビジョン受像機(テレビ)10を挙げているが、表示装置は何らテレビ10に限定されるものではない。例えば、PCやタブレット端末等であってもよい。
図1は、実施の形態1における音声認識処理システム11を概略的に示す図である。本実施の形態では、表示装置の一例であるテレビ10に音声認識処理装置が内蔵されている。
次に、本実施の形態におけるテレビ10の音声認識処理装置100の動作について説明する。
以上のように、本実施の形態において、音声認識処理装置100は、音声取得部101と、第1音声認識部の一例である音声処理部102と、第2音声認識部の一例である音声認識部50と、選別部の一例である意図解釈処理部104と、記憶部170と、処理部の一例であるコマンド処理部106および検索処理部107と、を備えている。音声取得部101は、ユーザが発する音声を取得して音声情報を出力するように構成されている。音声処理部102は、音声情報を第1情報の一例であるコマンド情報に変換するように構成されている。音声認識部50は、音声情報を第2情報の一例である文字列情報に変換するように構成されている。意図解釈処理部104は、文字列情報から第3情報の一例である予約語情報と第4情報の一例であるフリーワード情報とを選別するように構成されている。記憶部170は、コマンド情報、予約語情報、およびフリーワード情報を記憶するように構成されている。コマンド処理部106は、コマンド情報、予約語情報、およびフリーワード情報にもとづく処理を実行するように構成されている。そして、コマンド処理部106および検索処理部107は、コマンド情報、予約語情報、およびフリーワード情報のうち1つまたは2つの不足情報があれば、その不足情報を記憶部170に記憶された情報を用いて補完して処理を実行するように構成されている。
以上のように、本出願において開示する技術の例示として、実施の形態1を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態1で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
11 音声認識処理システム
20 リモートコントローラ
21,31 マイク
22,32 入力部
30 携帯端末
40 ネットワーク
50 音声認識部
100 音声認識処理装置
101 音声取得部
102 音声処理部
103 認識結果取得部
104 意図解釈処理部
105 ワード記憶処理部
106 コマンド処理部
107 検索処理部
108 表示制御部
110 操作受付部
130 内蔵マイク
140 表示部
150 送受信部
160 チューナ
170,171 記憶部
180 無線通信部
201 音声認識アイコン
202 インジケータ
700 ユーザ
Claims (8)
- ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
前記音声情報からあらかじめ定められた命令を特定し、前記命令を示す第1情報に変換するように構成された第1音声認識部と、
前記音声情報を音声認識により文字列情報である第2情報に変換するように構成された第2音声認識部と、
前記第2情報からあらかじめ定められた予約語を示す第3情報を選別し、残りの前記文字列情報からフリーワードを示す第4情報を選別するように構成された選別部と、
前記第1情報、前記第3情報、および前記第4情報を記憶するように構成された記憶部と、
前記第1情報、前記第3情報、および前記第4情報にもとづく処理を実行するように構成された処理部と、
を備え、
前記処理部は、前記第1情報、前記第3情報、および前記第4情報のうち、前記第4情報を含む1つまたは2つの不足情報があれば、前記不足情報を前記記憶部に記憶された情報を用いて補完して処理を実行するように構成された、
音声認識処理装置。 - 前記処理部は、
前記第1情報が検索コマンドであるとき、
前記検索コマンドにもとづく検索処理を実行するように構成された、
請求項1に記載の音声認識処理装置。 - 前記第2音声認識部はネットワーク上に設置され、
前記ネットワークを介して、前記第2音声認識部と通信を行うように構成された送受信部を備えた、
請求項1に記載の音声認識処理装置。 - 前記第1音声認識部は、
あらかじめ設定された複数の第1情報と前記音声情報とを対応付けた情報、を用いて前記音声情報を前記第1情報に変換するように構成された、
請求項1に記載の音声認識処理装置。 - 前記記憶部は、前記音声情報を前記第1情報に変換するための対応情報を記憶し、
前記第1音声認識部は、前記対応情報に基づいて前記音声情報を前記第1情報に変換し、
前記対応情報は、前記第1情報が示す命令の処理のために前記第3情報および前記第4情報の各々が必要か否かを特定するための第5情報を含み、
前記処理部は、前記第5情報に基づいて前記不足情報を特定する、
請求項1に記載の音声認識処理装置。 - 前記処理部は、前記第3情報に基づいて処理対象の範囲を限定する、
請求項1に記載の音声認識処理装置。 - ユーザが発する音声を取得して音声情報に変換するステップと、
前記音声情報からあらかじめ定められた命令を特定し、前記命令を示す第1情報に変換するステップと、
前記音声情報を音声認識により文字列情報である第2情報に変換するステップと、
前記第2情報からあらかじめ定められた予約語を示す第3情報を選別し、残りの前記文字列情報からフリーワードを示す第4情報を選別するステップと、
前記第1情報、前記第3情報、および前記第4情報を記憶部に記憶するステップと、
前記第1情報、前記第3情報、および前記第4情報にもとづく処理を実行するステップと、
前記第1情報、前記第3情報、および前記第4情報のうち、前記第4情報を含む1つまたは2つの不足情報があれば、前記記憶部に記憶された情報を用いて補完するステップと、
を備えた音声認識処理方法。 - ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
前記音声情報からあらかじめ定められた命令を特定し、前記命令を示す第1情報に変換するように構成された第1音声認識部と、
前記音声情報を音声認識により文字列情報である第2情報に変換するように構成された第2音声認識部と、
前記第2情報からあらかじめ定められた予約語を示す第3情報を選別し、残りの前記文字列情報からフリーワードを示す第4情報を選別するように構成された選別部と、
前記第1情報、前記第3情報、および前記第4情報を記憶するように構成された記憶部と、
前記第1情報、前記第3情報、および前記第4情報にもとづく処理を実行するように構成された処理部と、
前記処理部における処理結果を表示するように構成された表示部と、
を備え、
前記処理部は、前記第1情報、前記第3情報、および前記第4情報のうち、前記第4情報を含む1つまたは2つの不足情報があれば、前記不足情報を前記記憶部に記憶された情報を用いて補完して処理を実行するように構成された、
表示装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013268669 | 2013-12-26 | ||
JP2013268669 | 2013-12-26 | ||
PCT/JP2014/006367 WO2015098079A1 (ja) | 2013-12-26 | 2014-12-22 | 音声認識処理装置、音声認識処理方法、および表示装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015098079A1 JPWO2015098079A1 (ja) | 2017-03-23 |
JP6244560B2 true JP6244560B2 (ja) | 2017-12-13 |
Family
ID=53477977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015554558A Active JP6244560B2 (ja) | 2013-12-26 | 2014-12-22 | 音声認識処理装置、音声認識処理方法、および表示装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9905225B2 (ja) |
EP (1) | EP3089157B1 (ja) |
JP (1) | JP6244560B2 (ja) |
CN (1) | CN105659318B (ja) |
WO (1) | WO2015098079A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10424291B2 (en) * | 2012-12-28 | 2019-09-24 | Saturn Licensing Llc | Information processing device, information processing method, and program |
KR20160090584A (ko) * | 2015-01-22 | 2016-08-01 | 엘지전자 주식회사 | 디스플레이 디바이스 및 그 제어 방법 |
US9858927B2 (en) * | 2016-02-12 | 2018-01-02 | Amazon Technologies, Inc | Processing spoken commands to control distributed audio outputs |
US9898250B1 (en) * | 2016-02-12 | 2018-02-20 | Amazon Technologies, Inc. | Controlling distributed audio outputs to enable voice output |
US10409550B2 (en) * | 2016-03-04 | 2019-09-10 | Ricoh Company, Ltd. | Voice control of interactive whiteboard appliances |
US10409552B1 (en) * | 2016-09-19 | 2019-09-10 | Amazon Technologies, Inc. | Speech-based audio indicators |
JP7339310B2 (ja) * | 2017-06-13 | 2023-09-05 | グーグル エルエルシー | 登録されていないリソースによるオーディオベースのネットワークセッションの確立 |
JP7044633B2 (ja) * | 2017-12-28 | 2022-03-30 | シャープ株式会社 | 操作支援装置、操作支援システム、及び操作支援方法 |
CN109147784B (zh) * | 2018-09-10 | 2021-06-08 | 百度在线网络技术(北京)有限公司 | 语音交互方法、设备以及存储介质 |
JP7227093B2 (ja) * | 2019-07-05 | 2023-02-21 | Tvs Regza株式会社 | 電子機器、プログラムおよび検索サービス選定方法 |
US10972802B1 (en) * | 2019-09-26 | 2021-04-06 | Dish Network L.L.C. | Methods and systems for implementing an elastic cloud based voice search using a third-party search provider |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4812941B2 (ja) | 1999-01-06 | 2011-11-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 注目期間を有する音声入力装置 |
JP2000356999A (ja) | 1999-06-16 | 2000-12-26 | Ishikawajima Harima Heavy Ind Co Ltd | 音声によるコマンド入力装置及び方法 |
JP3827058B2 (ja) * | 2000-03-03 | 2006-09-27 | アルパイン株式会社 | 音声対話装置 |
DE60228716D1 (de) * | 2001-07-05 | 2008-10-16 | Koninkl Philips Electronics Nv | Verfahren zum bereitstellen von kontoinformation und system zum aufschreiben von diktiertem text |
FR2833103B1 (fr) * | 2001-12-05 | 2004-07-09 | France Telecom | Systeme de detection de parole dans le bruit |
JP4433273B2 (ja) | 2003-08-19 | 2010-03-17 | ソニー株式会社 | ロボット装置及びロボット装置の制御方法 |
JP4849662B2 (ja) * | 2005-10-21 | 2012-01-11 | 株式会社ユニバーサルエンターテインメント | 会話制御装置 |
JP4131978B2 (ja) | 2006-02-24 | 2008-08-13 | 本田技研工業株式会社 | 音声認識機器制御装置 |
JP2008076811A (ja) * | 2006-09-22 | 2008-04-03 | Honda Motor Co Ltd | 音声認識装置、音声認識方法及び音声認識プログラム |
US20090144056A1 (en) * | 2007-11-29 | 2009-06-04 | Netta Aizenbud-Reshef | Method and computer program product for generating recognition error correction information |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US7933777B2 (en) | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
US8751229B2 (en) * | 2008-11-21 | 2014-06-10 | At&T Intellectual Property I, L.P. | System and method for handling missing speech data |
JP5616390B2 (ja) * | 2012-03-27 | 2014-10-29 | ヤフー株式会社 | 応答生成装置、応答生成方法および応答生成プログラム |
KR20130125067A (ko) * | 2012-05-08 | 2013-11-18 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
KR101914708B1 (ko) * | 2012-06-15 | 2019-01-14 | 삼성전자주식회사 | 서버 및 서버의 제어 방법 |
CN102833633B (zh) * | 2012-09-04 | 2016-01-20 | 深圳创维-Rgb电子有限公司 | 一种电视机语音控制系统及方法 |
-
2014
- 2014-12-22 EP EP14874773.6A patent/EP3089157B1/en active Active
- 2014-12-22 US US15/023,385 patent/US9905225B2/en active Active
- 2014-12-22 JP JP2015554558A patent/JP6244560B2/ja active Active
- 2014-12-22 WO PCT/JP2014/006367 patent/WO2015098079A1/ja active Application Filing
- 2014-12-22 CN CN201480057905.0A patent/CN105659318B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
WO2015098079A1 (ja) | 2015-07-02 |
EP3089157B1 (en) | 2020-09-16 |
US20160210966A1 (en) | 2016-07-21 |
JPWO2015098079A1 (ja) | 2017-03-23 |
CN105659318B (zh) | 2019-08-30 |
US9905225B2 (en) | 2018-02-27 |
EP3089157A4 (en) | 2017-01-18 |
CN105659318A (zh) | 2016-06-08 |
EP3089157A1 (en) | 2016-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6244560B2 (ja) | 音声認識処理装置、音声認識処理方法、および表示装置 | |
JP6375521B2 (ja) | 音声検索装置、音声検索方法、および表示装置 | |
USRE48423E1 (en) | Display apparatus, electronic device, interactive system, and controlling methods thereof | |
CN106796496B (zh) | 显示设备及其操作方法 | |
JP5746111B2 (ja) | 電子装置及びその制御方法 | |
JP5819269B2 (ja) | 電子装置及びその制御方法 | |
JP6111030B2 (ja) | 電子装置及びその制御方法 | |
JP6603754B2 (ja) | 情報処理装置 | |
US9880808B2 (en) | Display apparatus and method of controlling a display apparatus in a voice recognition system | |
US20150310856A1 (en) | Speech recognition apparatus, speech recognition method, and television set | |
WO2015098109A1 (ja) | 音声認識処理装置、音声認識処理方法、および表示装置 | |
KR20130018464A (ko) | 전자 장치 및 그의 제어 방법 | |
JP2013037689A (ja) | 電子装置及びその制御方法 | |
JP2014532933A (ja) | 電子装置及びその制御方法 | |
KR20150089145A (ko) | 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법 | |
KR20140089836A (ko) | 대화형 서버, 디스플레이 장치 및 그 제어 방법 | |
CN103546763A (zh) | 用于提供内容信息的方法和广播接收设备 | |
CN108111922B (zh) | 电子设备和用于更新其频道映射表的方法 | |
JP2016029495A (ja) | 映像表示装置および映像表示方法 | |
KR102089593B1 (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
KR102124396B1 (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
KR20190099676A (ko) | 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템 | |
KR102051480B1 (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 | |
KR102045539B1 (ko) | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170307 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171016 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6244560 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |