JP2020101603A - 制御装置、音声対話装置、音声認識サーバ及びプログラム - Google Patents
制御装置、音声対話装置、音声認識サーバ及びプログラム Download PDFInfo
- Publication number
- JP2020101603A JP2020101603A JP2018238093A JP2018238093A JP2020101603A JP 2020101603 A JP2020101603 A JP 2020101603A JP 2018238093 A JP2018238093 A JP 2018238093A JP 2018238093 A JP2018238093 A JP 2018238093A JP 2020101603 A JP2020101603 A JP 2020101603A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- utterance
- identification level
- recognition server
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 claims abstract description 44
- 230000003993 interaction Effects 0.000 claims description 62
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 13
- 230000004044 response Effects 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000002452 interceptive effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
まず、実施の形態1に係る制御装置を含む音声対話システムの構成について説明する。
図1は、実施の形態1に係る制御装置30を含む音声対話システム1の構成について説明するブロック図である。図1に示すように、音声対話システム1は、音声対話ロボット10と、音声認識サーバ40と、を有する。
図6は、制御装置30の処理の流れを示すフローチャートである。図6に示すように、音声認識サーバ40より、取得された音声に対象者による発話が含まれている可能性が高いとの推定結果を取得したか、監視する(ステップS101)。ステップS101において、音声認識サーバ40より、音声対話装置20から送られてきた音声に対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、音声対話装置20に対し、発話区間検出器25の識別レベルを下げるように設定変更するよう指示する(ステップS102)。続いて、音声対話装置20に対し、変更後の識別レベルに応じた発話区間検出で音声認識サーバ40との通信を行うよう指示する(ステップS103)。
以下、図面を参照して本発明の実施の形態2について説明する。
図7は、実施の形態2に係る音声対話装置120を含む音声対話システム101の構成について説明するブロック図である。図7に示すように、音声対話システム101は、音声対話ロボット110と、音声認識サーバ40と、を有する。
以下、図面を参照して本発明の実施の形態3について説明する。
図8は、実施の形態3に係る音声認識サーバ240を含む音声対話システム201の構成について説明するブロック図である。図8に示すように、音声対話システム201は、音声対話ロボット210と、音声認識サーバ240と、を有する。
10、110、210 音声対話ロボット
10a 頭部
10b 胴体部
11 マイク
12 スピーカ
13、43 通信部
20、120 音声対話装置
21、41、121、241 制御部
22、41a 発話解析部
23、41b 応答生成部
24 発話制御部
25 発話区間検出器
26、42 記憶部
30 制御装置
31 演算部
40、240 音声認識サーバ
125、241c 識別レベル設定変更部
Claims (7)
- 取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御する演算部を備え、
前記演算部は、音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する、制御装置。 - 前記演算部は、前記取得された音声における雑音混入の程度に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定する、請求項1に記載の制御装置。
- 前記演算部は、前記音声対話装置と前記対象者との距離に応じて、前記発話区間検出器の前記識別レベルを下げる程度を決定する、請求項1に記載の制御装置。
- 前記演算部は、前記識別レベルの設定変更を行った後、所定の期間、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を前記音声認識サーバより取得しない場合、前記音声対話装置に対し、前記識別レベルを設定変更する前の設定に戻すよう指示する、請求項1から3のいずれか一項に記載の制御装置。
- 取得された音声について、対象者の発話であるか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を含む制御部を有し、
前記制御部において、
音声認識サーバより、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記発話区間検出器における前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うようにする、音声対話装置。 - 取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置より、通信で送られてきた前記取得された音声の音声認識を行う音声認識サーバであって、
制御部を有し、
前記制御部において、前記取得された音声に前記対象者による発話が含まれている可能性が高いとの推定結果が得られた場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する、音声認識サーバ。 - 取得された音声について、対象者の発話を含むか否かを設定された識別レベルで識別して発話区間検出を行う発話区間検出器を有する音声対話装置を制御するための処理手順をコンピュータに実行させるプログラムであって、
音声認識サーバより、前記音声対話装置から送られてきた音声に前記対象者による発話が含まれている可能性が高いとの推定結果を取得した場合に、前記音声対話装置に対し、前記発話区間検出器の前記識別レベルを下げるように設定変更して変更後の識別レベルに応じた発話区間検出で前記音声認識サーバとの通信を行うよう指示する処理手順を有するプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018238093A JP7131362B2 (ja) | 2018-12-20 | 2018-12-20 | 制御装置、音声対話装置及びプログラム |
CN201911299430.7A CN111354358B (zh) | 2018-12-20 | 2019-12-17 | 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统 |
US16/717,229 US11081114B2 (en) | 2018-12-20 | 2019-12-17 | Control method, voice interaction apparatus, voice recognition server, non-transitory storage medium, and control system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018238093A JP7131362B2 (ja) | 2018-12-20 | 2018-12-20 | 制御装置、音声対話装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020101603A true JP2020101603A (ja) | 2020-07-02 |
JP7131362B2 JP7131362B2 (ja) | 2022-09-06 |
Family
ID=71097152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018238093A Active JP7131362B2 (ja) | 2018-12-20 | 2018-12-20 | 制御装置、音声対話装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11081114B2 (ja) |
JP (1) | JP7131362B2 (ja) |
CN (1) | CN111354358B (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210829A (ja) * | 2008-03-04 | 2009-09-17 | Nippon Hoso Kyokai <Nhk> | 音響モデル学習装置およびプログラム |
JP2016033530A (ja) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
JP2017097330A (ja) * | 2015-11-19 | 2017-06-01 | パナソニック株式会社 | 音声認識方法及び音声認識装置 |
JP2018109663A (ja) * | 2016-12-28 | 2018-07-12 | シャープ株式会社 | 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100705563B1 (ko) * | 2004-12-07 | 2007-04-10 | 삼성전자주식회사 | 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법 |
WO2007118030A2 (en) * | 2006-04-03 | 2007-10-18 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US9595271B2 (en) * | 2013-06-27 | 2017-03-14 | Getgo, Inc. | Computer system employing speech recognition for detection of non-speech audio |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US10223696B2 (en) * | 2014-04-25 | 2019-03-05 | Avago Technologies International Sales Pte. Limited | Adaptive biometric and environmental authentication system |
JP6614080B2 (ja) | 2016-09-16 | 2019-12-04 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
JP6553111B2 (ja) * | 2017-03-21 | 2019-07-31 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
WO2019135755A1 (en) * | 2018-01-04 | 2019-07-11 | Xinova, LLC | Dynamic workstation assignment |
-
2018
- 2018-12-20 JP JP2018238093A patent/JP7131362B2/ja active Active
-
2019
- 2019-12-17 CN CN201911299430.7A patent/CN111354358B/zh active Active
- 2019-12-17 US US16/717,229 patent/US11081114B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009210829A (ja) * | 2008-03-04 | 2009-09-17 | Nippon Hoso Kyokai <Nhk> | 音響モデル学習装置およびプログラム |
JP2016033530A (ja) * | 2014-07-30 | 2016-03-10 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
JP2017097330A (ja) * | 2015-11-19 | 2017-06-01 | パナソニック株式会社 | 音声認識方法及び音声認識装置 |
JP2018109663A (ja) * | 2016-12-28 | 2018-07-12 | シャープ株式会社 | 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111354358B (zh) | 2023-04-25 |
JP7131362B2 (ja) | 2022-09-06 |
CN111354358A (zh) | 2020-06-30 |
US11081114B2 (en) | 2021-08-03 |
US20200202865A1 (en) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108351872B (zh) | 用于响应用户语音的方法和系统 | |
KR102293063B1 (ko) | 사용자 정의 가능한 웨이크업 음성 명령 | |
US10699702B2 (en) | System and method for personalization of acoustic models for automatic speech recognition | |
US11887582B2 (en) | Training and testing utterance-based frameworks | |
CN102708855B (zh) | 利用话音识别器反馈来进行语音活动检测 | |
US9293134B1 (en) | Source-specific speech interactions | |
BR102018070673A2 (pt) | Gerar diálogo baseado em pontuações de verificação | |
KR20170046294A (ko) | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
KR102217917B1 (ko) | 음성대화 시스템, 음성대화 방법 및 프로그램 | |
US12020707B2 (en) | Response orchestrator for natural language interface | |
US20240221718A1 (en) | Systems and methods for providing low latency user feedback associated with a user speaking silently | |
JP2020101603A (ja) | 制御装置、音声対話装置、音声認識サーバ及びプログラム | |
CN111354351B (zh) | 控制装置、语音交互装置、语音识别服务器以及存储介质 | |
JP2017122815A (ja) | 会話支援システム、会話支援装置及び会話支援プログラム | |
US20240079004A1 (en) | System and method for receiving a voice command | |
JP2005122194A (ja) | 音声認識対話装置および音声認識対話処理方法 | |
US20230306986A1 (en) | Systems and methods for dynamically adjusting a listening time of a voice assistant device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220304 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220808 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7131362 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |