JP2021140097A - 情報処理端末 - Google Patents
情報処理端末 Download PDFInfo
- Publication number
- JP2021140097A JP2021140097A JP2020039616A JP2020039616A JP2021140097A JP 2021140097 A JP2021140097 A JP 2021140097A JP 2020039616 A JP2020039616 A JP 2020039616A JP 2020039616 A JP2020039616 A JP 2020039616A JP 2021140097 A JP2021140097 A JP 2021140097A
- Authority
- JP
- Japan
- Prior art keywords
- determination
- sound pressure
- pressure level
- unit
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 11
- 230000006870 function Effects 0.000 description 46
- 238000011156 evaluation Methods 0.000 description 43
- 238000000034 method Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 17
- 230000007704 transition Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 101100161922 Dictyostelium discoideum act22 gene Proteins 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 101100215339 Arabidopsis thaliana ACT11 gene Proteins 0.000 description 1
- 101100215341 Arabidopsis thaliana ACT12 gene Proteins 0.000 description 1
- 101100108071 Dictyostelium discoideum act10 gene Proteins 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 101100217138 Mus musculus Actr10 gene Proteins 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
図1は、端末1を例示する外観図である。
端末1は、音声入力による操作を可能とする携帯型の機器である。例えば、端末1は、タブレット端末であるが、スマートフォンなどであってもよい。例えば、端末1は、レストランなどの店舗に置かれ、音声による注文を可能とする。
端末1は、上述のマイク10、スピーカ20及びディスプレイ30に加えて、プロセッサ11、メインメモリ12、補助記憶デバイス13、通信インタフェース14、入力デバイス15及びアナログデジタルコンバータ16を含むコンピュータである。端末1を構成する各部は、互いに信号を入出力可能に接続されている。図2では、インタフェースは、「I/F」と記載されている。アナログデジタルコンバータは、「ADC」と記載されている。
プロセッサ11は、第1の取得部111、計算部112、記憶制御部113、第2の取得部114、判定部115及び通知部116を実装する。プロセッサ11に実装される各部は、各機能ということもできる。プロセッサ11に実装される各部は、プロセッサ11及びメインメモリ12を含む制御部に実装されるということもできる。
計算部112は、第1の取得部111によって取得された音声信号に基づいて、マイク10に入力された音声に係る音圧レベルを計算する。
記憶制御部113は、計算部112によって計算された音圧レベルを音圧レベルデータベース131に保存する。
判定部115は、第2の取得部114によって取得された音圧レベルに基づいてマイク10が塞がれているか否かを判定する。マイク10が塞がれていることは、マイク10の全部が塞がれていることだけでなく、マイク10の一部が塞がれていることも含む。マイク10が塞がれていることは、ユーザの手などが端末1に直接触れてマイク10を塞ぐことだけでなく、端末1に直接触れることなくマイク10を覆うことも含む。マイク10が塞がれている場合の音圧レベルは、マイク10が塞がれていない場合の音圧レベルと比較して小さい傾向にある。そのため、マイク10が塞がれていることと音圧レベルとの間には、関連性がある。同様に、マイク10が塞がれている程度と音圧レベルとの間には、関連性がある。マイク10が塞がれている状態では、端末1による音声認識の精度は低下する。マイク10が塞がれていることは、マイク10が閉塞されているということもできる。
通知部116は、判定部115によるマイク10が塞がれていることを示す判定結果に応じて、マイク10が塞がれていることを通知する。
図3は、音圧レベルデータベース131を例示する図である。
「時刻」項目は、マイク10に音声が入力された時刻をセットする項目である。「時刻」項目は、一定時間間隔の時刻をセットする。例えば、一定時間間隔は、0.5秒間隔であるが、これに限定されない。一定時間間隔は、適宜変更可能である。「入力データ」項目は、「時刻」項目にセットされる時刻における音圧レベルである。「時刻」項目にセットされる時刻と「入力データ」項目にセットされる音圧レベルは、互いに関連付けられている。
まず、音圧レベルの計算処理について説明する。
図4は、音圧レベルの計算処理の手順を例示するフローチャートである。
端末1は、端末1の起動中には音圧レベルの計算処理を継続する。
図5は、閉塞判定処理の手順を例示するフローチャートである。
端末1は、端末1の起動中には音圧レベルの計算処理と並行に閉塞判定処理を継続する。
図6は、第1の閉塞判定処理の手順を例示するフローチャートである。
「入力データ」は、現在時刻から2秒前までの期間における一定時間間隔の音圧レベルを示す。「閾値」は、第1の閾値を示す。ここでは、第1の閾値は、15dBとする。「閾値以下の回数」は、音圧レベルが連続して第1の閾値以下となる回数を示す。ここでは、基準回数は、3回とする。判定部115は、現在時刻の音圧レベルが第1の閾値以下であると判定すると、第1の閾値以下となる音圧レベルが基準回数連続したと判定する。判定部115は、第1の閾値以下となる音圧レベルが基準回数連続したと判定すると、マイク10が塞がれていると判定する。
図8は、図7に示す関係を示す。
横軸は、時間を示す。縦軸は、音圧レベルを示す。
破線は、入力データのグラフである。実線は、第1の閾値のグラフである。
マイク10が塞がれていないときのマイク10に入力される音声に係る音圧レベルは、100dB付近である。他方、マイク10が塞がれているときのマイク10に入力される音声に係る音圧レベルは、0dB付近である。
図9は、第2の閉塞判定処理の手順を例示するフローチャートである。
「入力データ」は、判定期間における音圧レベルの履歴に含まれる一定時間間隔の音圧レベルを示す。ここでは、判定期間は、2秒間とする。「評価関数」は、判定期間に関する評価関数で規定される一定時間間隔の音圧レベルを示す。評価関数は、判定期間において現在時刻から離れたタイミング(2秒前及び1.5秒前)では高い音圧レベル(100dB)を示す。他方、評価関数は、判定期間において現在時刻及び現在時刻に近いタイミング(1秒前、0.5秒前及び0秒前)では低い音圧レベル(5dB)を示す。「差分」は、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を示す。
図11は、図10に示す関係を示す。
横軸は、時間を示す。縦軸は、音圧レベルを示す。
破線は、入力データのグラフである。実線は、評価関数のグラフである。
マイク10が塞がれていないときのマイク10に入力される音声に係る音圧レベルは、100dB付近である。他方、マイク10が塞がれているときのマイク10に入力される音声に係る音圧レベルは、0dB付近である。このように、判定期間中にマイク10が塞がれた場合、判定期間における音圧レベルの履歴は、判定期間に関する評価関数に類似する。
判定部115は、長さの異なる複数の判定期間のそれぞれにおける音圧レベルの履歴を、複数の判定期間のそれぞれにおいて時系列に変動する参照パターンと比較する。判定部115は、複数の判定期間のそれぞれについての比較結果に基づいて、マイク10が塞がれているか否かを判定する。
Claims (5)
- 音声を入力する音声入力部と、
前記音声入力部に入力された前記音声に係る特徴量を計算する計算部と、
前記計算部で計算された前記特徴量に基づいて前記音声入力部が塞がれているか否かを判定する判定部と、
前記判定部による前記音声入力部が塞がれていることを示す判定結果に応じて、前記音声入力部が塞がれていることを通知する通知部と、
を備える情報処理端末。 - 前記判定部は、前記特徴量を閾値と比較し、前記特徴量が連続して前記閾値以下となる回数に基づいて、前記音声入力部が塞がれているか否かを判定する、
請求項1に記載の情報処理端末。 - 前記判定部は、判定期間における前記特徴量の履歴を、前記判定期間において時系列に変動する参照パターンと比較し、前記判定期間についての比較結果に基づいて前記音声入力部が塞がれているか否かを判定する、請求項1に記載の情報処理端末。
- 前記判定部は、前記判定期間における複数のタイミングで前記特徴量と前記参照パターンとの差分を計算し、前記複数のタイミングにおける前記差分の積算値に基づいて前記音声入力部が塞がれているか否かを判定する、請求項3に記載の情報処理端末。
- 前記判定部は、長さの異なる複数の判定期間のそれぞれにおける前記特徴量の履歴を、前記複数の判定期間のそれぞれにおいて時系列に変動する参照パターンと比較し、前記複数の判定期間のそれぞれについての比較結果に基づいて、前記音声入力部が塞がれているか否かを判定する、請求項1に記載の情報処理端末。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020039616A JP2021140097A (ja) | 2020-03-09 | 2020-03-09 | 情報処理端末 |
US17/177,397 US20210280184A1 (en) | 2020-03-09 | 2021-02-17 | Information processing terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020039616A JP2021140097A (ja) | 2020-03-09 | 2020-03-09 | 情報処理端末 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021140097A true JP2021140097A (ja) | 2021-09-16 |
Family
ID=77555851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020039616A Pending JP2021140097A (ja) | 2020-03-09 | 2020-03-09 | 情報処理端末 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210280184A1 (ja) |
JP (1) | JP2021140097A (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9514746B2 (en) * | 2006-09-26 | 2016-12-06 | Storz Endoskop Produktions Gmbh | System and method for hazard mitigation in voice-driven control applications |
GB201715824D0 (en) * | 2017-07-06 | 2017-11-15 | Cirrus Logic Int Semiconductor Ltd | Blocked Microphone Detection |
JP7000268B2 (ja) * | 2018-07-18 | 2022-01-19 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
-
2020
- 2020-03-09 JP JP2020039616A patent/JP2021140097A/ja active Pending
-
2021
- 2021-02-17 US US17/177,397 patent/US20210280184A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20210280184A1 (en) | 2021-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11175698B2 (en) | Methods and systems for processing touch inputs based on touch type and touch intensity | |
US10007335B2 (en) | User interface selection based on user context | |
JP5565399B2 (ja) | 電子音響信号発生装置およびその制御方法を実現するためのプログラム | |
KR102089444B1 (ko) | 음성 인식 기능을 지원하는 전자 기기의 음성 입력 제어 방법 및 장치 장치 | |
US20170068507A1 (en) | User terminal apparatus, system, and method for controlling the same | |
CN105611458B (zh) | 一种移动终端的定向录音控制方法及装置 | |
US20150022360A1 (en) | Input device and computer system with operating pattern analysis | |
KR20130121006A (ko) | 터치 검출 방법 및 이를 이용하는 터치 제어 장치 | |
US8258946B2 (en) | Multifunctional electronic device and method for using the same | |
JP5830135B1 (ja) | ゲームプログラムおよびゲーム装置 | |
WO2015033609A1 (ja) | 情報処理装置、入力方法およびプログラム | |
CN102640092A (zh) | 基于触摸输入的音频设备设置调整 | |
CN108549518A (zh) | 一种音乐信息显示的方法、装置及终端设备 | |
US8542204B2 (en) | Method, system, and program product for no-look digit entry in a multi-touch device | |
JP2021140097A (ja) | 情報処理端末 | |
US20090078477A1 (en) | Electronic device with sound prompt function | |
CN105373323A (zh) | 用于操作电子设备的方法、操作装置和电子设备 | |
KR101251730B1 (ko) | 키보드를 이용한 컴퓨터 제어방법, 제어장치 및 이를 위한 프로그램 명령어가 기록된 기록매체 | |
US20170269687A1 (en) | Methods and apparatus to provide haptic feedback for computing devices | |
US9946368B2 (en) | Apparatus and control method | |
EP3671724A1 (en) | Playback of personalised audio | |
JP2021085952A (ja) | 音楽再生装置、音楽再生方法、及び、音楽再生プログラム | |
JP2021519122A (ja) | 呼吸障害のある被験者の検出 | |
US6748468B1 (en) | Caps lock notification | |
JP7420216B2 (ja) | 音声評価システム、音声評価方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230104 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240105 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240522 |