JP2021089376A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2021089376A JP2021089376A JP2019220035A JP2019220035A JP2021089376A JP 2021089376 A JP2021089376 A JP 2021089376A JP 2019220035 A JP2019220035 A JP 2019220035A JP 2019220035 A JP2019220035 A JP 2019220035A JP 2021089376 A JP2021089376 A JP 2021089376A
- Authority
- JP
- Japan
- Prior art keywords
- score
- voice
- unit
- information processing
- processing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 description 43
- 238000012986 modification Methods 0.000 description 27
- 230000004048 modification Effects 0.000 description 27
- 238000012360 testing method Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 18
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
図1は、実施形態にかかる音声認識システム1の構成の一例を示す図である。図1に示すように、音声認識システム1は、テレビジョン装置10及び音声認識サーバ20を備え、例えばテレビジョン装置10のユーザに音声認識サービスを提供する。音声認識サービスによって、ユーザは、例えば音声によりテレビジョン装置10の操作をすることができる。
図2は、実施形態にかかるテレビジョン装置10のハードウェア構成の一例を示す図である。
次に、図3を用いて、実施形態のテレビジョン装置10の機能構成例について説明する。図3は、実施形態にかかるテレビジョン装置10の機能構成の一例を示す図である。
次に、図4及び図5を用いて、実施形態のテレビジョン装置10の機能の詳細について説明する。図4は、実施形態にかかるテレビジョン装置10が表示するスコア表示画面110aの一例を示す図である。スコア表示画面110aは、ユーザがテスト機能を有効にすると表示パネル110に表示される。
次に、図6を用いて、実施形態のテレビジョン装置10におけるトリガワード検出処理の例について説明する。図6は、実施形態にかかるテレビジョン装置10におけるトリガワード検出処理の手順の一例を示すフロー図である。
次に、図7を用いて、実施形態の変形例1のテレビジョン装置について説明する。変形例1のテレビジョン装置は、算出したスコアを音素ごとに表示する点が、上述の実施形態とは異なる。
次に、図8〜図10を用いて、実施形態の変形例2のテレビジョン装置30について説明する。変形例2のテレビジョン装置30は、算出したスコアとともに、ユーザに対するアドバイスを表示する点が、上述の実施形態とは異なる。
次に、図11を用いて、実施形態の変形例3のテレビジョン装置について説明する。変形例3のテレビジョン装置は、複数のトリガワードについてスコアを表示する点が、上述の実施形態とは異なる。
Claims (15)
- 音声入力部に入力されたユーザの音声を音声信号として取得する取得部と、
音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出するスコア算出部と、
前記スコアを表示部に表示させる表示制御部と、を備える、
情報処理装置。 - 前記スコア算出部は、
前記音声データと前記音声信号との一致度を正規化して前記スコアを算出する、
請求項1に記載の情報処理装置。 - 前記音声信号から前記トリガワードを検出するトリガワード検出部を備え、
前記トリガワード検出部は、
前記音声データと前記音声信号とを複数の要素に分解し、前記複数の要素について前記一致度を算出し、前記一致度に基づいて前記音声信号から前記トリガワードを検出する、
請求項2に記載の情報処理装置。 - 前記スコア算出部は、
前記複数の要素ごとの前記一致度のそれぞれに対して前記スコアを算出する、
請求項3に記載の情報処理装置。 - 前記表示制御部は、
前記スコアのうち、最小のスコアを前記表示部に表示させる、
請求項4に記載の情報処理装置。 - 前記表示制御部は、
前記一致度のそれぞれに対して算出された前記スコアを前記表示部に表示させる、
請求項4に記載の情報処理装置。 - 前記表示制御部は、
前記一致度のそれぞれに対して算出された前記スコアの平均値を前記表示部に表示させる、
請求項4に記載の情報処理装置。 - 前記複数の要素は、
前記トリガワードに含まれる音素である、
請求項3乃至請求項7のいずれか1項に記載の情報処理装置。 - 前記スコア算出部は、
複数の前記トリガワードについて前記スコアを算出する、
請求項1乃至請求項8のいずれか1項に記載の情報処理装置。 - 前記表示制御部は、
複数の前記トリガワードについて算出された前記スコアを前記表示部に表示させる、
請求項9に記載の情報処理装置。 - 前記表示制御部は、
前記スコアを高めるためのアドバイスを前記表示部に表示させる、
請求項1乃至請求項10のいずれか1項に記載の情報処理装置。 - 前記取得部は、
前記表示部に前記スコアを表示させる指示の入力を受け付ける、
請求項1乃至請求項11のいずれか1項に記載の情報処理装置。 - 前記音声信号から前記トリガワードが検出されると前記音声認識サービスを開始させるアプリケーション実行部を備える、
請求項1乃至請求項12のいずれか1項に記載の情報処理装置。 - 前記音声認識サービスは、
ネットワークにより接続される音声認識サーバにより提供される、
請求項1乃至請求項13のいずれか1項に記載の情報処理装置。 - コンピュータに、
音声入力部に入力されたユーザの音声を音声信号として取得させ、
音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出させ、
前記スコアを表示部に表示させる、
プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019220035A JP7248564B2 (ja) | 2019-12-05 | 2019-12-05 | 情報処理装置及びプログラム |
CN202080005757.3A CN113228170B (zh) | 2019-12-05 | 2020-10-26 | 信息处理装置及非易失性存储介质 |
PCT/CN2020/123669 WO2021109751A1 (zh) | 2019-12-05 | 2020-10-26 | 信息处理装置及非易失性存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019220035A JP7248564B2 (ja) | 2019-12-05 | 2019-12-05 | 情報処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021089376A true JP2021089376A (ja) | 2021-06-10 |
JP7248564B2 JP7248564B2 (ja) | 2023-03-29 |
Family
ID=76220032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019220035A Active JP7248564B2 (ja) | 2019-12-05 | 2019-12-05 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7248564B2 (ja) |
CN (1) | CN113228170B (ja) |
WO (1) | WO2021109751A1 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05158493A (ja) * | 1991-12-10 | 1993-06-25 | Fujitsu Ltd | 音声認識装置 |
JP2001005480A (ja) * | 1999-06-23 | 2001-01-12 | Denso Corp | ユーザー発音判定装置及び記録媒体 |
JP2006011641A (ja) * | 2004-06-23 | 2006-01-12 | Fujitsu Ltd | 情報入力方法及びその装置 |
US20140012586A1 (en) * | 2012-07-03 | 2014-01-09 | Google Inc. | Determining hotword suitability |
WO2018047421A1 (ja) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
JP2019091472A (ja) * | 2014-09-12 | 2019-06-13 | アップル インコーポレイテッドApple Inc. | 発語トリガを常時リッスンするための動的閾値 |
JP2019518985A (ja) * | 2016-05-13 | 2019-07-04 | ボーズ・コーポレーションBose Corporation | 分散したマイクロホンからの音声の処理 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4654513B2 (ja) * | 2000-12-25 | 2011-03-23 | ヤマハ株式会社 | 楽器 |
JP2009124324A (ja) * | 2007-11-13 | 2009-06-04 | Sharp Corp | 音響機器及び音響機器の制御方法 |
CN101266593A (zh) * | 2008-02-25 | 2008-09-17 | 北京理工大学 | 一种基于网络收集意见的语音及音频质量主观评价方法 |
CN101547387A (zh) * | 2008-03-26 | 2009-09-30 | 鸿富锦精密工业(深圳)有限公司 | 耳机及使用该耳机的音频播放系统 |
CN101630448B (zh) * | 2008-07-15 | 2011-07-27 | 上海启态网络科技有限公司 | 语言学习客户端及系统 |
WO2012169679A1 (ko) * | 2011-06-10 | 2012-12-13 | 엘지전자 주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템 |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
US20160163226A1 (en) * | 2013-07-19 | 2016-06-09 | Benesse Corporation | Information processing device, information processing method, and program |
EP3089158B1 (en) * | 2013-12-26 | 2018-08-08 | Panasonic Intellectual Property Management Co., Ltd. | Speech recognition processing |
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
KR102420450B1 (ko) * | 2015-09-23 | 2022-07-14 | 삼성전자주식회사 | 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체 |
JP6608254B2 (ja) * | 2015-11-25 | 2019-11-20 | オリンパス株式会社 | 録音機器、アドバイス出力方法およびプログラム |
CN105702253A (zh) * | 2016-01-07 | 2016-06-22 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
JP6553111B2 (ja) * | 2017-03-21 | 2019-07-31 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
BR112019002636A2 (pt) * | 2017-08-02 | 2019-05-28 | Panasonic Ip Man Co Ltd | aparelho de processamento de informação, sistema de reconhecimento de fala e método de processamento de informação |
CN107358954A (zh) * | 2017-08-29 | 2017-11-17 | 成都启英泰伦科技有限公司 | 一种实时更换唤醒词的设备及方法 |
KR102485342B1 (ko) * | 2017-12-11 | 2023-01-05 | 현대자동차주식회사 | 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법 |
CN108538293B (zh) * | 2018-04-27 | 2021-05-28 | 海信视像科技股份有限公司 | 语音唤醒方法、装置及智能设备 |
CN109036393A (zh) * | 2018-06-19 | 2018-12-18 | 广东美的厨房电器制造有限公司 | 家电设备的唤醒词训练方法、装置及家电设备 |
CN109739354B (zh) * | 2018-12-28 | 2022-08-05 | 广州励丰文化科技股份有限公司 | 一种基于声音的多媒体交互方法及装置 |
-
2019
- 2019-12-05 JP JP2019220035A patent/JP7248564B2/ja active Active
-
2020
- 2020-10-26 WO PCT/CN2020/123669 patent/WO2021109751A1/zh active Application Filing
- 2020-10-26 CN CN202080005757.3A patent/CN113228170B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05158493A (ja) * | 1991-12-10 | 1993-06-25 | Fujitsu Ltd | 音声認識装置 |
JP2001005480A (ja) * | 1999-06-23 | 2001-01-12 | Denso Corp | ユーザー発音判定装置及び記録媒体 |
JP2006011641A (ja) * | 2004-06-23 | 2006-01-12 | Fujitsu Ltd | 情報入力方法及びその装置 |
US20140012586A1 (en) * | 2012-07-03 | 2014-01-09 | Google Inc. | Determining hotword suitability |
JP2019091472A (ja) * | 2014-09-12 | 2019-06-13 | アップル インコーポレイテッドApple Inc. | 発語トリガを常時リッスンするための動的閾値 |
JP2019518985A (ja) * | 2016-05-13 | 2019-07-04 | ボーズ・コーポレーションBose Corporation | 分散したマイクロホンからの音声の処理 |
WO2018047421A1 (ja) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021109751A1 (zh) | 2021-06-10 |
JP7248564B2 (ja) | 2023-03-29 |
CN113228170A (zh) | 2021-08-06 |
CN113228170B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11875820B1 (en) | Context driven device arbitration | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US10685652B1 (en) | Determining device groups | |
JP6510117B2 (ja) | 音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体 | |
JP4086280B2 (ja) | 音声入力システム、音声入力方法及び音声入力プログラム | |
JP6450139B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
KR101605862B1 (ko) | 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법 | |
JPH096390A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
US10089980B2 (en) | Sound reproduction method, speech dialogue device, and recording medium | |
WO2016194740A1 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
US11626104B2 (en) | User speech profile management | |
JP2019184694A (ja) | 会話ロボット | |
JP2019184809A (ja) | 音声認識装置、音声認識方法 | |
CN114402383A (zh) | 电子设备及其控制语音识别的方法 | |
JP6678315B2 (ja) | 音声再生方法、音声対話装置及び音声対話プログラム | |
JP2019003010A (ja) | 音声応答装置、音声応答システム、音声応答方法及びプログラム | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
JP7248564B2 (ja) | 情報処理装置及びプログラム | |
KR20210063698A (ko) | 전자장치와 그의 제어방법, 및 기록매체 | |
KR101859614B1 (ko) | 디스플레이 장치, 전자 장치, 대화형 시스템 및 이들의 제어 방법 | |
JPWO2019202351A1 (ja) | 機器制御装置及び機器を制御する制御方法 | |
JP2019053180A (ja) | 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム | |
US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
CN110738995B (zh) | 一种声音信号采集方法及装置 | |
US12125483B1 (en) | Determining device groups |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7248564 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |