JP7248564B2 - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP7248564B2 JP7248564B2 JP2019220035A JP2019220035A JP7248564B2 JP 7248564 B2 JP7248564 B2 JP 7248564B2 JP 2019220035 A JP2019220035 A JP 2019220035A JP 2019220035 A JP2019220035 A JP 2019220035A JP 7248564 B2 JP7248564 B2 JP 7248564B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- unit
- degree
- voice
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 21
- 230000005236 sound signal Effects 0.000 claims description 47
- 238000001514 detection method Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 43
- 238000012986 modification Methods 0.000 description 27
- 230000004048 modification Effects 0.000 description 27
- 238000012545 processing Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 24
- 238000012360 testing method Methods 0.000 description 23
- 238000004891 communication Methods 0.000 description 22
- 238000000034 method Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Description
図1は、実施形態にかかる音声認識システム1の構成の一例を示す図である。図1に示すように、音声認識システム1は、テレビジョン装置10及び音声認識サーバ20を備え、例えばテレビジョン装置10のユーザに音声認識サービスを提供する。音声認識サービスによって、ユーザは、例えば音声によりテレビジョン装置10の操作をすることができる。
図2は、実施形態にかかるテレビジョン装置10のハードウェア構成の一例を示す図である。
次に、図3を用いて、実施形態のテレビジョン装置10の機能構成例について説明する。図3は、実施形態にかかるテレビジョン装置10の機能構成の一例を示す図である。
次に、図4及び図5を用いて、実施形態のテレビジョン装置10の機能の詳細について説明する。図4は、実施形態にかかるテレビジョン装置10が表示するスコア表示画面110aの一例を示す図である。スコア表示画面110aは、ユーザがテスト機能を有効にすると表示パネル110に表示される。
次に、図6を用いて、実施形態のテレビジョン装置10におけるトリガワード検出処理の例について説明する。図6は、実施形態にかかるテレビジョン装置10におけるトリガワード検出処理の手順の一例を示すフロー図である。
次に、図7を用いて、実施形態の変形例1のテレビジョン装置について説明する。変形例1のテレビジョン装置は、算出したスコアを音素ごとに表示する点が、上述の実施形態とは異なる。
次に、図8~図10を用いて、実施形態の変形例2のテレビジョン装置30について説明する。変形例2のテレビジョン装置30は、算出したスコアとともに、ユーザに対するアドバイスを表示する点が、上述の実施形態とは異なる。
次に、図11を用いて、実施形態の変形例3のテレビジョン装置について説明する。変形例3のテレビジョン装置は、複数のトリガワードについてスコアを表示する点が、上述の実施形態とは異なる。
Claims (14)
- 音声入力部に入力されたユーザの音声を音声信号として取得する取得部と、
音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出するスコア算出部と、
前記スコアを表示部に表示させる表示制御部と、を備え、
前記スコア算出部は、
前記音声データと前記音声信号との一致度であり、前記音声信号を分解して得られる複数の要素の前記音声信号における出現確率を正規化して前記スコアを算出し、
前記出現確率についての正規化は、
前記複数の要素の前記出現確率の一致度Xnについて、それぞれ、前記一致度Xnが取り得る最大値An及び前記一致度Xnが満たすべき閾値Tnが設定されている場合において、前記一致度Xnが前記閾値Tn未満である場合には式(1)を適用し、前記一致度Xnが前記閾値Tn超である場合には式(2)を適用して行われる、
- 前記音声信号から前記トリガワードを検出するトリガワード検出部を備え、
前記トリガワード検出部は、
前記音声データと前記音声信号とを前記複数の要素に分解し、前記複数の要素について算出された前記一致度に基づいて前記音声信号から前記トリガワードを検出する、
請求項1に記載の情報処理装置。 - 前記スコア算出部は、
前記複数の要素ごとの前記一致度のそれぞれに対して前記スコアを算出する、
請求項1または請求項2に記載の情報処理装置。 - 前記表示制御部は、
前記スコアのうち、最小のスコアを前記表示部に表示させる、
請求項3に記載の情報処理装置。 - 前記表示制御部は、
前記一致度のそれぞれに対して算出された前記スコアを前記表示部に表示させる、
請求項3に記載の情報処理装置。 - 前記表示制御部は、
前記一致度のそれぞれに対して算出された前記スコアの平均値を前記表示部に表示させる、
請求項3に記載の情報処理装置。 - 前記複数の要素は、
前記トリガワードに含まれる音素である、
請求項2乃至請求項6のいずれか1項に記載の情報処理装置。 - 前記スコア算出部は、
複数の前記トリガワードについて前記スコアを算出する、
請求項1乃至請求項7のいずれか1項に記載の情報処理装置。 - 前記表示制御部は、
複数の前記トリガワードについて算出された前記スコアを前記表示部に表示させる、
請求項8に記載の情報処理装置。 - 前記表示制御部は、
前記スコアを高めるためのアドバイスを前記表示部に表示させる、
請求項1乃至請求項9のいずれか1項に記載の情報処理装置。 - 前記取得部は、
前記表示部に前記スコアを表示させる指示の入力を受け付ける、
請求項1乃至請求項10のいずれか1項に記載の情報処理装置。 - 前記音声信号から前記トリガワードが検出されると前記音声認識サービスを開始させるアプリケーション実行部を備える、
請求項1乃至請求項11のいずれか1項に記載の情報処理装置。 - 前記音声認識サービスは、
ネットワークにより接続される音声認識サーバにより提供される、
請求項1乃至請求項12のいずれか1項に記載の情報処理装置。 - コンピュータに、
音声入力部に入力されたユーザの音声を音声信号として取得させ、
音声認識サービスを開始させるためのトリガワードを前記音声信号から検出するための基準となる音声データに対する前記音声信号のスコアを算出させ、
前記スコアを表示部に表示させ、
前記スコアを算出させるときは、
前記音声データと前記音声信号との一致度であり、前記音声信号を分解して得られる複数の要素の前記音声信号における出現確率を正規化して前記スコアを算出させ、
前記出現確率についての正規化は、
前記複数の要素の前記出現確率の一致度Xnについて、それぞれ、前記一致度Xnが取り得る最大値An及び前記一致度Xnが満たすべき閾値Tnが設定されている場合において、前記一致度Xnが前記閾値Tn未満である場合には式(1)を適用させ、前記一致度Xnが前記閾値Tn超である場合には式(2)を適用させて行わせる、
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019220035A JP7248564B2 (ja) | 2019-12-05 | 2019-12-05 | 情報処理装置及びプログラム |
CN202080005757.3A CN113228170B (zh) | 2019-12-05 | 2020-10-26 | 信息处理装置及非易失性存储介质 |
PCT/CN2020/123669 WO2021109751A1 (zh) | 2019-12-05 | 2020-10-26 | 信息处理装置及非易失性存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019220035A JP7248564B2 (ja) | 2019-12-05 | 2019-12-05 | 情報処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021089376A JP2021089376A (ja) | 2021-06-10 |
JP7248564B2 true JP7248564B2 (ja) | 2023-03-29 |
Family
ID=76220032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019220035A Active JP7248564B2 (ja) | 2019-12-05 | 2019-12-05 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7248564B2 (ja) |
CN (1) | CN113228170B (ja) |
WO (1) | WO2021109751A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005480A (ja) | 1999-06-23 | 2001-01-12 | Denso Corp | ユーザー発音判定装置及び記録媒体 |
JP2006011641A (ja) | 2004-06-23 | 2006-01-12 | Fujitsu Ltd | 情報入力方法及びその装置 |
US20140012586A1 (en) | 2012-07-03 | 2014-01-09 | Google Inc. | Determining hotword suitability |
WO2018047421A1 (ja) | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
JP2019091472A (ja) | 2014-09-12 | 2019-06-13 | アップル インコーポレイテッドApple Inc. | 発語トリガを常時リッスンするための動的閾値 |
JP2019518985A (ja) | 2016-05-13 | 2019-07-04 | ボーズ・コーポレーションBose Corporation | 分散したマイクロホンからの音声の処理 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05158493A (ja) * | 1991-12-10 | 1993-06-25 | Fujitsu Ltd | 音声認識装置 |
JP4654513B2 (ja) * | 2000-12-25 | 2011-03-23 | ヤマハ株式会社 | 楽器 |
JP2009124324A (ja) * | 2007-11-13 | 2009-06-04 | Sharp Corp | 音響機器及び音響機器の制御方法 |
CN101266593A (zh) * | 2008-02-25 | 2008-09-17 | 北京理工大学 | 一种基于网络收集意见的语音及音频质量主观评价方法 |
CN101547387A (zh) * | 2008-03-26 | 2009-09-30 | 鸿富锦精密工业(深圳)有限公司 | 耳机及使用该耳机的音频播放系统 |
CN101630448B (zh) * | 2008-07-15 | 2011-07-27 | 上海启态网络科技有限公司 | 语言学习客户端及系统 |
WO2012169679A1 (ko) * | 2011-06-10 | 2012-12-13 | 엘지전자 주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템 |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
JP6408467B2 (ja) * | 2013-07-19 | 2018-10-17 | 株式会社ベネッセコーポレーション | 情報処理装置、情報処理方法及びプログラム |
EP3089158B1 (en) * | 2013-12-26 | 2018-08-08 | Panasonic Intellectual Property Management Co., Ltd. | Speech recognition processing |
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
KR102420450B1 (ko) * | 2015-09-23 | 2022-07-14 | 삼성전자주식회사 | 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체 |
JP6608254B2 (ja) * | 2015-11-25 | 2019-11-20 | オリンパス株式会社 | 録音機器、アドバイス出力方法およびプログラム |
CN105702253A (zh) * | 2016-01-07 | 2016-06-22 | 北京云知声信息技术有限公司 | 一种语音唤醒方法及装置 |
JP6553111B2 (ja) * | 2017-03-21 | 2019-07-31 | 株式会社東芝 | 音声認識装置、音声認識方法及び音声認識プログラム |
SG11201901419QA (en) * | 2017-08-02 | 2019-03-28 | Panasonic Ip Man Co Ltd | Information processing apparatus, speech recognition system, and information processing method |
CN107358954A (zh) * | 2017-08-29 | 2017-11-17 | 成都启英泰伦科技有限公司 | 一种实时更换唤醒词的设备及方法 |
KR102485342B1 (ko) * | 2017-12-11 | 2023-01-05 | 현대자동차주식회사 | 차량의 환경에 기반한 추천 신뢰도 판단 장치 및 방법 |
CN108538293B (zh) * | 2018-04-27 | 2021-05-28 | 海信视像科技股份有限公司 | 语音唤醒方法、装置及智能设备 |
CN109036393A (zh) * | 2018-06-19 | 2018-12-18 | 广东美的厨房电器制造有限公司 | 家电设备的唤醒词训练方法、装置及家电设备 |
CN109739354B (zh) * | 2018-12-28 | 2022-08-05 | 广州励丰文化科技股份有限公司 | 一种基于声音的多媒体交互方法及装置 |
-
2019
- 2019-12-05 JP JP2019220035A patent/JP7248564B2/ja active Active
-
2020
- 2020-10-26 CN CN202080005757.3A patent/CN113228170B/zh active Active
- 2020-10-26 WO PCT/CN2020/123669 patent/WO2021109751A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005480A (ja) | 1999-06-23 | 2001-01-12 | Denso Corp | ユーザー発音判定装置及び記録媒体 |
JP2006011641A (ja) | 2004-06-23 | 2006-01-12 | Fujitsu Ltd | 情報入力方法及びその装置 |
US20140012586A1 (en) | 2012-07-03 | 2014-01-09 | Google Inc. | Determining hotword suitability |
JP2019091472A (ja) | 2014-09-12 | 2019-06-13 | アップル インコーポレイテッドApple Inc. | 発語トリガを常時リッスンするための動的閾値 |
JP2019518985A (ja) | 2016-05-13 | 2019-07-04 | ボーズ・コーポレーションBose Corporation | 分散したマイクロホンからの音声の処理 |
WO2018047421A1 (ja) | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2021109751A1 (zh) | 2021-06-10 |
CN113228170A (zh) | 2021-08-06 |
JP2021089376A (ja) | 2021-06-10 |
CN113228170B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12080280B2 (en) | Systems and methods for determining whether to trigger a voice capable device based on speaking cadence | |
US11138977B1 (en) | Determining device groups | |
US7949523B2 (en) | Apparatus, method, and computer program product for processing voice in speech | |
JP6754184B2 (ja) | 音声認識装置及び音声認識方法 | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6510117B2 (ja) | 音声制御装置、音声制御装置の動作方法、コンピュータプログラム及び記録媒体 | |
JP6450139B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP6654611B2 (ja) | 成長型対話装置 | |
WO2016194740A1 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
JP6897677B2 (ja) | 情報処理装置及び情報処理方法 | |
JPH096390A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
CN104462912B (zh) | 改进的生物密码安全 | |
US20120278066A1 (en) | Communication interface apparatus and method for multi-user and system | |
JP2017067879A (ja) | 音声処理装置及び音声処理方法 | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP7248564B2 (ja) | 情報処理装置及びプログラム | |
US7177806B2 (en) | Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system | |
KR20210063698A (ko) | 전자장치와 그의 제어방법, 및 기록매체 | |
WO2020208972A1 (ja) | 応答生成装置及び応答生成方法 | |
WO2020017165A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
KR102661005B1 (ko) | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 | |
US12125483B1 (en) | Determining device groups | |
US20240119930A1 (en) | Artificial intelligence device and operating method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7248564 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |