JP2021140097A - 情報処理端末 - Google Patents

情報処理端末 Download PDF

Info

Publication number
JP2021140097A
JP2021140097A JP2020039616A JP2020039616A JP2021140097A JP 2021140097 A JP2021140097 A JP 2021140097A JP 2020039616 A JP2020039616 A JP 2020039616A JP 2020039616 A JP2020039616 A JP 2020039616A JP 2021140097 A JP2021140097 A JP 2021140097A
Authority
JP
Japan
Prior art keywords
determination
sound pressure
pressure level
unit
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020039616A
Other languages
English (en)
Inventor
直樹 関根
Naoki Sekine
直樹 関根
将悟 綿田
Shogo Watada
将悟 綿田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2020039616A priority Critical patent/JP2021140097A/ja
Priority to US17/177,397 priority patent/US20210280184A1/en
Publication of JP2021140097A publication Critical patent/JP2021140097A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声入力部が塞がれているか否かの判定精度を向上させる。【解決手段】情報処理端末は、音声入力部と、計算部と、判定部と、通知部とを備える。前記音声入力部は、音声を入力する。前記計算部は、前記音声入力部に入力された前記音声に係る特徴量を計算する。前記判定部は、前記計算部で計算された前記特徴量に基づいて前記音声入力部が塞がれているか否かを判定する。前記通知部は、前記判定部による前記音声入力部が塞がれていることを示す判定結果に応じて、前記音声入力部が塞がれていることを通知する。【選択図】 図5

Description

本発明の実施形態は、情報処理端末に関する。
タブレット端末などの音声入力での操作を可能とする携帯型端末が普及している。このような携帯型端末は、ユーザの利便性を高めるために種々の場所で活用されている。
例えば、携帯型端末はレストランに置かれ、携帯型端末に対する音声入力での操作により注文を可能とする技術が開発されている。
一般に、ユーザは、音声入力で携帯型端末を操作する際に携帯型端末を手に持つ傾向にある。
特開2001−109492号公報
しかしながら、ユーザは、携帯型端末を持つ際に、指または手などで携帯型端末のマイクを意図せず塞いでしまうことがある。例えば、ユーザが店舗内に置かれている携帯型端末を使う場合、ユーザは、マイクの位置を気にすることなく携帯型端末を持つのでマイクを塞ぎやすい。携帯型端末が音声を認識可能な程度にマイクで音声を収集することができないと、携帯型端末は誤作動を起こす可能性がある。
本発明の実施形態が解決しようとする課題は、音声入力部が塞がれているか否かの判定精度を向上させる技術を提供しようとするものである。
一実施形態において、情報処理端末は、音声入力部と、計算部と、判定部と、通知部とを備える。前記音声入力部は、音声を入力する。前記計算部は、前記音声入力部に入力された前記音声に係る特徴量を計算する。前記判定部は、前記計算部で計算された前記特徴量に基づいて前記音声入力部が塞がれているか否かを判定する。前記通知部は、前記判定部による前記音声入力部が塞がれていることを示す判定結果に応じて、前記音声入力部が塞がれていることを通知する。
実施形態に係る端末を例示する外観図。 実施形態に係る端末を例示するブロック図。 実施形態に係る音圧レベルデータベースを例示する図。 実施形態に係る端末による音圧レベルの計算処理の手順を例示するフローチャート。 実施形態に係る端末による閉塞判定処理の手順を例示するフローチャート。 実施形態に係る端末による第1の閉塞判定処理の手順を例示するフローチャート。 実施形態に係る端末による第1の閉塞判定を例示する表。 実施形態に係る端末による第1の閉塞判定を例示するグラフ。 実施形態に係る端末による第2の閉塞判定処理の手順を例示するフローチャート。 実施形態に係る端末による第2の閉塞判定を例示する表。 実施形態に係る端末による第2の閉塞判定を例示するグラフ。
以下、図面を用いて実施形態について説明する。
図1は、端末1を例示する外観図である。
端末1は、音声入力による操作を可能とする携帯型の機器である。例えば、端末1は、タブレット端末であるが、スマートフォンなどであってもよい。例えば、端末1は、レストランなどの店舗に置かれ、音声による注文を可能とする。
端末1は、マイク10、スピーカ20及びディスプレイ30を備える。
マイク10は、端末1の周辺環境の音声を入力可能なデバイスである。マイク10に入力された音声は、端末1の置かれている環境で発せられる音及び端末1の置かれている周辺環境にいる人の声である。端末1の置かれている周辺環境で発せられる音は、物の接触音、機器の動作音及び音楽などの種々の音を含む。端末1の置かれている周辺環境にいる人の声は、端末1を使うユーザの声だけでなく、端末1の周辺にいる人の声を含む。例えば、マイク10は、端末1の長手方向の一端側に設けられているが、端末1におけるマイク10の位置は限定されない。マイク10は、音声入力部の一例である。
スピーカ20は、端末1の制御により音を出力可能なデバイスである。例えば、スピーカ20は、端末1の長手方向の一端側に設けられているが、端末1におけるスピーカ20の位置は限定されない。
ディスプレイ30は、端末1の制御により種々の画面を表示可能なデバイスである。例えば、ディスプレイ30は、液晶ディスプレイまたはEL(Electroluminescence)ディスプレイなどである。
図2は、端末1を例示するブロック図である。
端末1は、上述のマイク10、スピーカ20及びディスプレイ30に加えて、プロセッサ11、メインメモリ12、補助記憶デバイス13、通信インタフェース14、入力デバイス15及びアナログデジタルコンバータ16を含むコンピュータである。端末1を構成する各部は、互いに信号を入出力可能に接続されている。図2では、インタフェースは、「I/F」と記載されている。アナログデジタルコンバータは、「ADC」と記載されている。
プロセッサ11は、端末1の中枢部分に相当する。例えば、プロセッサ11は、CPU(Central Processing Unit)であるが、これに限定されない。プロセッサ11は、種々の回路で構成されていてもよい。プロセッサ11は、メインメモリ12または補助記憶デバイス13に予め記憶されているプログラムをメインメモリ12に展開する。プログラムは、端末1のプロセッサ11に後述する各部を実現させるプログラムである。プロセッサ11は、メインメモリ12に展開されるプログラムを実行することで、種々の動作を実行する。
メインメモリ12は、端末1の主記憶部分に相当する。メインメモリ12は、不揮発性のメモリ領域と揮発性のメモリ領域とを含む。メインメモリ12は、不揮発性のメモリ領域ではオペレーティングシステム又はプログラムを記憶する。メインメモリ12は、揮発性のメモリ領域を、プロセッサ11によってデータが適宜書き換えられるワークエリアとして使用する。例えば、メインメモリ12は、不揮発性のメモリ領域としてROM(Read Only Memory)を含む。例えば、メインメモリ12は、揮発性のメモリ領域としてRAM(Random Access Memory)を含む。
補助記憶デバイス13は、端末1の補助記憶部分に相当する。例えば、補助記憶デバイス13は、EEPROM(登録商標)(Electric Erasable Programmable Read−Only Memory)、HDD(Hard Disc Drive)またはSSD(Solid State Drive)などである。補助記憶デバイス13は、上述のプログラム、プロセッサ11が各種の処理を行う上で使用するデータ及びプロセッサ11での処理によって生成されるデータを記憶する。
補助記憶デバイス13は、音圧レベルデータベース131を記憶する。音圧レベルデータベース131は、時刻に関連付けて音圧レベルを管理するデータベースである。時刻は、マイク10に音声が入力された時刻である。音圧レベルは、20×Log10(P/P)で求まる値[dB]である。ここで、Pは、音声信号の振幅値である。Pは、基準の振幅値である。音圧レベルは、マイク10に入力された音声に係る特徴量の一例である。なお、音声に係る特徴量は、音声の程度を評価できる量であればよく音圧レベルに限定されない。音声に係る特徴量は、音量であってもよい。音圧レベルデータベース131の構成例については後述する。図2では、データベースは、「DB」と記載されている。
通信インタフェース14は、所定の通信プロトコルに従い、ネットワークを介して、端末1を他の機器と通信可能に接続する種々のインタフェースを含む。
入力デバイス15は、端末1へデータまたは指示をタッチ操作により入力可能なデバイスである。例えば、入力デバイス15は、キーボードまたはタッチパネルなどである。
アナログデジタルコンバータ16は、マイク10に入力された音声に基づくアナログの音声信号(アナログ波形)をデジタルの音声信号に変換する。
なお、端末1のハードウェア構成は、上述の構成に限定されるものではない。端末1は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。
上述のプロセッサ11に実装される各部について説明する。
プロセッサ11は、第1の取得部111、計算部112、記憶制御部113、第2の取得部114、判定部115及び通知部116を実装する。プロセッサ11に実装される各部は、各機能ということもできる。プロセッサ11に実装される各部は、プロセッサ11及びメインメモリ12を含む制御部に実装されるということもできる。
第1の取得部111は、マイク10に入力された音声に基づく音声信号を取得する。
計算部112は、第1の取得部111によって取得された音声信号に基づいて、マイク10に入力された音声に係る音圧レベルを計算する。
記憶制御部113は、計算部112によって計算された音圧レベルを音圧レベルデータベース131に保存する。
第2の取得部114は、音圧レベルを音圧レベルデータベース131から取得する。
判定部115は、第2の取得部114によって取得された音圧レベルに基づいてマイク10が塞がれているか否かを判定する。マイク10が塞がれていることは、マイク10の全部が塞がれていることだけでなく、マイク10の一部が塞がれていることも含む。マイク10が塞がれていることは、ユーザの手などが端末1に直接触れてマイク10を塞ぐことだけでなく、端末1に直接触れることなくマイク10を覆うことも含む。マイク10が塞がれている場合の音圧レベルは、マイク10が塞がれていない場合の音圧レベルと比較して小さい傾向にある。そのため、マイク10が塞がれていることと音圧レベルとの間には、関連性がある。同様に、マイク10が塞がれている程度と音圧レベルとの間には、関連性がある。マイク10が塞がれている状態では、端末1による音声認識の精度は低下する。マイク10が塞がれていることは、マイク10が閉塞されているということもできる。
通知部116は、判定部115によるマイク10が塞がれていることを示す判定結果に応じて、マイク10が塞がれていることを通知する。
なお、通知部116は、プログラムを実行することでプロセッサ11に実装されるものとして説明したが、これに限定されない。通知部116は、マイク10が塞がれていることを通知するものである。そのため、スピーカ20またはディスプレイ30などのデバイスが通知部116の一例であってもよい。通知部116は、プログラムを実行することでプロセッサ11とスピーカ20またはディスプレイ30などのデバイスとの協働で実現されてもよい。
音圧レベルデータベース131の構成例について説明する。
図3は、音圧レベルデータベース131を例示する図である。
音圧レベルデータベース131は、「時刻」項目及び「入力データ」項目を含む。
「時刻」項目は、マイク10に音声が入力された時刻をセットする項目である。「時刻」項目は、一定時間間隔の時刻をセットする。例えば、一定時間間隔は、0.5秒間隔であるが、これに限定されない。一定時間間隔は、適宜変更可能である。「入力データ」項目は、「時刻」項目にセットされる時刻における音圧レベルである。「時刻」項目にセットされる時刻と「入力データ」項目にセットされる音圧レベルは、互いに関連付けられている。
端末1は、一定時間間隔で音圧レベルを計算する毎に音圧レベルデータベース131にレコードを追加する。端末1は、音圧レベルデータベースへのレコードの追加により音圧レベルデータベースを更新し得る。
端末1による処理の手順について説明する。
まず、音圧レベルの計算処理について説明する。
図4は、音圧レベルの計算処理の手順を例示するフローチャートである。
端末1は、端末1の起動中には音圧レベルの計算処理を継続する。
第1の取得部111は、マイク10に入力された音声に基づく音声信号を取得する(ACT10)。ACT10は、例えば、第1の取得部111は、アナログデジタルコンバータ16から音声信号を時系列に取得する。例えば、第1の取得部111は、端末1の起動に基づいて音声信号の取得を開始する。
計算部112は、音圧レベルを計算する(ACT11)。ACT11では、例えば、計算部112は、ACT10で第1の取得部111によって時間経過に伴い逐次取得された音声信号に基づいて、一定時間間隔で音圧レベルを逐次計算する。
記憶制御部113は、音圧レベルを音圧レベルデータベース131に保存する(ACT12)。ACT12では、例えば、記憶制御部113は、計算部112によって一定時間間隔で計算された音圧レベルを音圧レベルデータベース131に保存する。音圧レベルデータベース131は、一定時間間隔の音圧レベルを時系列に記憶する。
プロセッサ11は、端末1の電源をオフにする入力指示を検知したか否かを判断する(ACT13)。プロセッサ11が端末1の電源をオフにする入力指示を検知しない場合(ACT13、NO)、処理は、ACT13からACT10へ遷移する。プロセッサ11が端末1の電源をオフにする入力指示を検知した場合(ACT13、YES)、処理は終了する。
次に、閉塞判定処理について説明する。
図5は、閉塞判定処理の手順を例示するフローチャートである。
端末1は、端末1の起動中には音圧レベルの計算処理と並行に閉塞判定処理を継続する。
第2の取得部114は、音圧レベルを音圧レベルデータベース131から取得する(ACT20)。ACT20では、例えば、第2の取得部114は、現在時刻の音圧レベルを、時間経過に伴って音圧レベルデータベース131から一定時間間隔で逐次取得することができる。現在時刻は、音圧レベルデータベース131に記憶されている音圧レベルの最新時刻である。現在時刻は基準時刻の一例である。例えば、第2の取得部114は、現在時刻から遡ったある期間の音圧レベルの履歴を、時間経過に伴って音圧レベルデータベース131から一定時間間隔で逐次取得することができる。音圧レベルの履歴は、時系列に沿って一定時間間隔で連続する複数のタイミングにおける音圧レベルを含む。例えば、第2の取得部114は、端末1の起動に基づいて音圧レベルの取得を開始する。
判定部115は、第2の取得部114によって取得された音圧レベルに基づいてマイク10が塞がれているか否かを判定する(ACT21)。ACT21では、例えば、判定部115は、第2の取得部114で逐次取得される現在時刻の音圧レベルの集合による履歴に基づいてマイク10が塞がれているか否かを判定することができる。例えば、判定部115は、第2の取得部114で一度に取得される音圧レベルの履歴に基づいてマイク10が塞がれているか否かを判定することができる。ACT21での判定部115による判定例については後述する。判定部115は、マイク10が塞がれていることを示す判定結果またはマイク10が塞がれていないことを示す判定結果を発生する。判定部115によるマイク10が塞がれていないことを示す判定結果に応じて(ACT21、NO)、処理はACT21からACT20へ遷移する。
判定部115によるマイク10が塞がれていることを示す判定結果に応じて(ACT21、YES)、通知部116は、マイク10が塞がれていることを通知する(ACT22)。ACT22では、例えば、通知部116は、マイク10が塞がれていることを通知するアラートをディスプレイ30に表示させることができる。例えば、通知部116は、マイク10が塞がれていることを通知するアラートをスピーカ20から出力させることができる。アラートの内容は、マイク10が塞がれていることユーザへ通知することができればよく、限定されない。
上述のように、端末1は、マイク10に入力される音声に係る特徴量に基づいてマイク10が塞がれているか否かを判定することができる。マイク10が塞がれていることと音声に係る特徴量との間には関連性があるので、端末1は、マイク10が塞がれているか否かの判定精度を向上させることができる。
上述の閉塞判定処理のいくつかの典型例について説明する。
まず、第1の閉塞判定について説明する。
図6は、第1の閉塞判定処理の手順を例示するフローチャートである。
第2の取得部114は、音圧レベルを音圧レベルデータベース131から取得する(ACT30)。ACT30では、例えば、第2の取得部114は、現在時刻の音圧レベルを、時間経過に伴って音圧レベルデータベース131から一定時間間隔で逐次取得する。
判定部115は、第2の取得部114によって取得された音圧レベルを第1の閾値と比較する(ACT31)。ACT30では、例えば、第2の取得部114によって逐次取得された音圧レベルを第1の閾値と逐次比較する。
第1の閾値は、マイク10が塞がれていることを判定するための音圧レベルの値である。第1の閾値は、端末1の置かれている環境でマイク10が塞がれていると想定される音圧レベルの値である。マイク10に入力された音声係る音圧レベルは、マイク10が同じように塞がれていても、端末1の置かれている環境に応じて異なる。そのため、第1の閾値は、端末1の置かれている環境に応じて異なる。第1の閾値は、音圧レベル0dBから、端末1の置かれている環境でマイク10が塞がれていないと想定される音圧レベルの値の間で設定される。第1の閾値は、適宜変更可能である。
音圧レベルが第1の閾値以下ではない場合(ACT31、NO)、処理はACT31からACT30へ遷移する。つまり、音圧レベルが第1の閾値以下ではない場合、判定部115は、マイク10が塞がれていないと判定する。
音圧レベルが第1の閾値以下である場合(ACT31、YES)、判定部115は、第1の閾値以下となる音圧レベルが基準回数連続したか否かを判定する(ACT32)。ACT32では、例えば、判定部115は、ACT31での音圧レベルが第1の閾値以下ではないとする判定が基準回数連続したか否かを判定する。
基準回数は、マイク10が塞がれていることを判定するための回数である。基準回数は、複数回である。基準回数が複数回であることが好ましい理由は、以下のようにも考えられる。例えば、ユーザの手がマイク10の付近を瞬間的に横切ったときなどは、音圧レベルが一時的に第1の閾値以下となることがある。この場合、端末1による音声認識の精度に影響はない。他方、時系列に沿って連続する複数のタイミングにおける音圧レベルが全て第1の閾値以下となる場合、ユーザがマイク10を継続的に塞いでいる可能性が高い。この場合、端末1による音声認識の精度に影響がある。基準回数は、適宜変更可能である。
このように、判定部115は、音圧レベルを第1の閾値と比較し、音圧レベルが連続して第1の閾値以下となる回数に基づいて、マイク10が塞がれているか否かを判定する。第1の閾値以下となる音圧レベルが基準回数連続していない場合、判定部115は、マイク10が塞がれていないと判定する。他方、第1の閾値以下となる音圧レベルが基準回数連続した場合、判定部115は、マイク10が塞がれていると判定する。
第1の閾値以下となる音圧レベルが基準回数連続していない場合(ACT32、NO)、処理はACT32からACT30へ遷移する。第1の閾値以下となる音圧レベルが基準回数連続した場合(ACT32、YES)、通知部116は、マイク10が塞がれていることを通知する(ACT33)ACT33は、上述のACT22と同様である。
なお、ACT30では、第2の取得部114が現在時刻の音圧レベルを音圧レベルデータベース131から取得する例について説明したが、これに限定されない。ACT30では、第2の取得部114は、現在時刻から時系列に遡って基準回数に相当する数の複数の音圧レベルを音圧レベルデータベース131から取得してもよい。この例では、判定部115は、第2の取得部114によって取得された複数の音圧レベルを第1の閾値と比較する。第2の取得部114によって取得された複数の音圧レベルの少なくとも1つが第1の閾値以下ではない場合、判定部115は、マイク10が塞がれていないと判定する。他方、第2の取得部114で取得された複数の音圧レベルの全てが第1の閾値以下である場合、判定部115は、マイク10が塞がれていると判定する。
なお、ACT32では、基準回数を複数回とする例について説明したが、これに限定されない。基準回数は1回でもよい。この例では、判定部115は、音圧レベルが第1の閾値以下か否かに基づいて、マイク10が塞がれているか否かを判定する。音圧レベルが第1の閾値以下である場合、判定部115は、マイク10が塞がれていると判定する。他方、音圧レベルが第1の閾値以下でない場合、判定部115は、マイク10が塞がれていないと判定する。
なお、ACT32では、判定部115は、基準回数で評価しているが、期間で評価するようにしてもよい。例えば、判定部115は、音圧レベルが連続して第1の閾値以下となる期間に基づいて、マイク10が塞がれているか否かを判定する。第1の閾値以下となる音圧レベルの継続期間が所定期間以下である場合、判定部115は、マイク10が塞がれていないと判定する。他方、第1の閾値以下となる音圧レベルの継続期間が所定期間を超える場合、判定部115は、マイク10が塞がれていると判定する。所定期間の長さは適宜変更可能である。これにより、判定部115は、音圧レベルが計算される一定時間間隔の長さに依存しない所定期間を用いることで、マイク10が塞がれているか否かの判定精度を上げることができる。例えば、音圧レベルが計算される一定時間間隔が短くなると、音圧レベルが基準回数連続して第1の閾値以下となる時間も短くなる。他方、音圧レベルが計算される一定時間間隔が長くなると、音圧レベルが基準回数連続して第1の閾値以下となる時間も長くなる。
図7は、第1の閉塞判定を例示する表である。
「入力データ」は、現在時刻から2秒前までの期間における一定時間間隔の音圧レベルを示す。「閾値」は、第1の閾値を示す。ここでは、第1の閾値は、15dBとする。「閾値以下の回数」は、音圧レベルが連続して第1の閾値以下となる回数を示す。ここでは、基準回数は、3回とする。判定部115は、現在時刻の音圧レベルが第1の閾値以下であると判定すると、第1の閾値以下となる音圧レベルが基準回数連続したと判定する。判定部115は、第1の閾値以下となる音圧レベルが基準回数連続したと判定すると、マイク10が塞がれていると判定する。
図8は、第1の閉塞判定を例示するグラフである。
図8は、図7に示す関係を示す。
横軸は、時間を示す。縦軸は、音圧レベルを示す。
破線は、入力データのグラフである。実線は、第1の閾値のグラフである。
マイク10が塞がれていないときのマイク10に入力される音声に係る音圧レベルは、100dB付近である。他方、マイク10が塞がれているときのマイク10に入力される音声に係る音圧レベルは、0dB付近である。
上述のように、第1の閉塞判定では、端末1は、音圧レベルが連続して第1の閾値以下となる回数に基づいて、マイク10が塞がれているか否かを判定する。これにより、端末1は、ユーザの手がマイク10の付近を瞬間的に横切ったことではなく、ユーザがマイク10を継続的に塞いでいることを判定することができる。
次に、第2の閉塞判定について説明する。
図9は、第2の閉塞判定処理の手順を例示するフローチャートである。
第2の取得部114は、音圧レベルの履歴を音圧レベルデータベース131から取得する(ACT40)。ACT40では、例えば、第2の取得部114は、判定期間における音圧レベルの履歴を音圧レベルデータベース131から一定時間間隔で逐次取得する。
判定期間は、マイク10が塞がれているか否かを判定するために、連続する複数のタイミングにおける音圧レベルを一定時間間隔で収集する期間である。判定期間は、現在時刻から遡った期間である。判定期間の長さは適宜変更可能である。判定期間における音圧レベルの履歴は、判定期間において時系列に沿って一定時間間隔で連続する複数のタイミングにおける音圧レベルである。判定期間における音圧レベルの履歴は、現在時刻から遡った複数の時間(複数のタイミング)と音圧レベルとを紐付けている。例えば、判定期間は2秒間であるが、これに限定されない。
判定部115は、評価関数を取得する(ACT41)。ACT41では、例えば、判定部115は、評価関数を補助記憶デバイス13から取得する。この例では、補助記憶デバイス13は、判定期間に関する評価関数を記憶している。評価関数は、マイク10が塞がれていることを判定するために、音圧レベルの履歴の評価に用いられる関数である。評価関数は、マイク10が塞がれていない状態からマイク10が塞がれた状態への遷移を時系列に変動する音圧レベルで規定するモデルである。評価関数は、時間経過に伴って音圧レベルが高い状態から低い状態へ変動するモデルである。
判定期間に関する評価関数は、判定期間における複数のタイミングと音圧レベルとを紐付けたモデルである。判定期間における複数のタイミングは、判定期間において時系列に沿って一定時間間隔で連続する複数のタイミングである。判定期間に関する評価関数は、少なくとも判定期間において時系列に沿って一定時間間隔で連続する複数のタイミングと音圧レベルとを紐付けたモデルである。なお、マイク10に入力される音声に係る音声レベルは、端末1が置かれている環境に応じて異なる。そのため、判定期間に関する評価関数は、端末1が置かれている環境において音圧レベルの履歴との比較に適した平均的なモデルである。判定期間に関する評価関数は、適宜変更可能である。判定期間に関する評価関数は、判定期間において時系列に変動する参照パターンの一例である。
判定部115は、判定期間における音圧レベルの履歴を、判定期間に関する評価関数と比較する(ACT42)。ACT42では、例えは、判定部115は、判定期間における複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルを、評価関数で規定される音圧レベルと比較する。
判定部115は、判定期間における複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を計算する(ACT43)。ACT43では、例えば、判定部115は、複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルと評価関数で規定される音圧レベルとの差分を計算する。例えば、判定期間が2秒間であり、一定時間間隔が0.5秒間である場合、判定期間における複数のタイミングは、5つのタイミングである。例えば、差分は、音圧レベルの履歴に含まれる音圧レベルから評価関数で規定される音圧レベルを引いた値そのものである。差分は、音圧レベルの履歴に含まれる音圧レベルから評価関数で規定される音圧レベルを引いた値の絶対値であってもよい。判定期間における複数のタイミングについての音圧レベルの履歴と判定期間に関する評価関数との差分は、判定期間についての比較結果の一例である。
判定部115は、複数のタイミングについての差分の積算値を計算する(ACT44)。ACT44では、例えば、判定部115は、ACT43で計算した複数のタイミングのそれぞれについての差分を積算し、積算値を求める。積算値は、評価関数に対する音圧レベルの履歴の類似度に関連する。積算値が小さくなれにつれ、音圧レベルの履歴は、評価関数に類似する傾向が強くなる。つまり、積算値が小さくなるにつれ、マイク10は、判定期間中に塞がれた可能性が高くなる。他方、積算値が大きくなるにつれ、マイク10は、判定期間中継続して塞がれていない可能性が高くなる。
判定部115は、積算値が第2の閾値以下か否かを判定する(ACT45)。第2の閾値は、マイク10が塞がれていることを判定するための値である。第2の閾値は、端末1の置かれている環境に応じて異なっていてもよい。第2の閾値は、適宜変更可能である。
このように、判定部115は、積算値を第2の閾値と比較し、積算値が第2の閾値以下か否かに基づいて、マイク10が塞がれているか否かを判定する。積算値が第2の閾値以下である場合、音圧レベルの履歴は、評価関数に類似するといえる。そのため、積算値が第2の閾値以下である場合、判定部115は、マイク10が塞がれていると判定する。他方、積算値が第2の閾値以下ではない場合、音圧レベルの履歴は、評価関数に類似しないといえる。そのため、積算値が第2の閾値以下ではない場合、判定部115は、マイク10が塞がれていないと判定する。
積算値が第2の閾値以下ではない場合(ACT45、NO)、処理はACT45からACT40へ遷移する。積算値が第2の閾値以下である場合(ACT45、YES)、通知部116は、マイク10が塞がれていることを通知する(ACT46)。ACT46は、上述のACT22と同様である。
なお、図9に示す例では、判定部115は、積算値が第2の閾値以下か否かに基づいてマイク10が塞がれているか否かを判定しているが、これに限定されない。判定部115は、第2の閾値によらず、積算値に基づいてマイク10が塞がれているか否かを判定してもよい。例えば、判定部115は、一定時間間隔で計算される積算値の遷移に基づいてマイク10が塞がれているか否かを判定してもよい。上述のように、積算値が小さくなるにつれ、マイク10は、判定期間中に塞がれた可能性が高くなる。他方、積算値が大きくなるにつれ、マイク10は、判定期間中継続して塞がれていない可能性が高くなる。そのため、積算値の遷移量が大きくなるにつれ、マイク10は、塞がれていない状態から塞がれた状態へ遷移した可能性が高くなる。この例では、積算値の遷移量が基準量より大きい場合、判定部115は、マイク10が塞がれていると判定する。他方、積算値の変動量が基準量以下である場合、判定部115は、マイク10が塞がれていないと判定する。基準量は、適宜変更可能である。
なお、図9に示す例では、判定部115は、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を計算しているが、これに限定されない。判定部115は、差分によらず、判定期間についての比較結果に基づいてマイク10が塞がれているか否かを判定してもよい。判定期間についての比較結果は、判定期間における音圧レベルの履歴と、判定期間に関する評価関数との比較である。例えば、判定部115は、判定期間における音圧レベルの履歴によるグラフと、判定期間に関する評価関数によるグラフの類似度を求めてもよい。類似度は、判定期間についての比較結果の一例である。判定部115は、類似度に基づいてマイク10が塞がれているか否かを判定してもよい。類似度が高くなるにつれ、マイク10は、判定期間中に塞がれた可能性が高くなる。
図10は、第2の閉塞判定を例示する表である。
「入力データ」は、判定期間における音圧レベルの履歴に含まれる一定時間間隔の音圧レベルを示す。ここでは、判定期間は、2秒間とする。「評価関数」は、判定期間に関する評価関数で規定される一定時間間隔の音圧レベルを示す。評価関数は、判定期間において現在時刻から離れたタイミング(2秒前及び1.5秒前)では高い音圧レベル(100dB)を示す。他方、評価関数は、判定期間において現在時刻及び現在時刻に近いタイミング(1秒前、0.5秒前及び0秒前)では低い音圧レベル(5dB)を示す。「差分」は、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を示す。
判定部115は、評価期間における一定時間間隔の5つのタイミングについて、音圧レベルの履歴に含まれる音圧レベルと評価関数で規定される音圧レベルとの差分を計算する。判定部115は、5つのタイミングについての差分の積算値(36dB)を計算する。判定部115は、積算値を第2の閾値と比較し、積算値が第2の閾値以下か否かに基づいて、マイク10が塞がれているか否かを判定する。
図11は、第2の閉塞判定を例示するグラフである。
図11は、図10に示す関係を示す。
横軸は、時間を示す。縦軸は、音圧レベルを示す。
破線は、入力データのグラフである。実線は、評価関数のグラフである。
マイク10が塞がれていないときのマイク10に入力される音声に係る音圧レベルは、100dB付近である。他方、マイク10が塞がれているときのマイク10に入力される音声に係る音圧レベルは、0dB付近である。このように、判定期間中にマイク10が塞がれた場合、判定期間における音圧レベルの履歴は、判定期間に関する評価関数に類似する。
上述のように、第2の閉塞判定によれば、端末1は、判定期間についての比較結果に基づいてマイク10が塞がれているか否かを判定する。端末1は、判定期間における複数のタイミングでの差分の積算値に基づいてマイク10が塞がれているか否かを判定する。これにより、端末1は、マイク10が判定期間中に塞がれたことの判定精度を向上させることができる。
第2の閉塞判定の変形例について説明する。
判定部115は、長さの異なる複数の判定期間のそれぞれにおける音圧レベルの履歴を、複数の判定期間のそれぞれにおいて時系列に変動する参照パターンと比較する。判定部115は、複数の判定期間のそれぞれについての比較結果に基づいて、マイク10が塞がれているか否かを判定する。
この例では、第2の取得部114は、長さの異なる複数の判定期間における音圧レベルの履歴を音圧レベルデータベース131から一定時間間隔で逐次取得する。ここでは、第1の判定期間、第2の判定期間及び第3の判定期間の3つの判定期間の例を説明するが、複数の判定期間は、2つ以上の判定期間であればよい。例えば、第1の判定期間は2秒間、第2の判定期間は4秒間、第3の判定期間は6秒間であるものとする。
判定部115は、複数の判定期間に関する複数の評価関数を補助記憶デバイス13から取得する。例えば、判定部115は、第1の判定期間に関する評価関数、第2の判定期間に関する評価関数及び第3の判定期間に関する評価関数を補助記憶デバイス13から取得する。
判定部115は、複数の判定期間における音圧レベルの履歴のそれぞれを、複数の判定期間に関する評価関数と比較する。例えは、判定部115は、第1の判定期間における複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルを、評価関数で規定される音圧レベルと比較する。第2の判定期間及び第3の判定期間についても同様である。
判定部115は、複数の判定期間のそれぞれにおける複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を計算する。例えば、判定部115は、第1の判定期間における複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルと評価関数で規定される音圧レベルとの差分を計算する。第1の判定期間における複数のタイミングについての音圧レベルの履歴と第1の判定期間に関する評価関数との差分は、第1の判定期間についての比較結果の一例である。第2の判定期間及び第3の判定期間についても同様である。
判定部115は、複数の判定期間のそれぞれについて、複数のタイミングについての差分の積算値を計算する。例えば、判定部115は、第1の判定期間について、複数のタイミングのそれぞれについての差分を積算し、積算値を求める。第2の判定期間及び第3の判定期間についても同様である。
判定部115は、複数の判定期間のそれぞれについて、積算値が第2の閾値以下か否かを判定する。例えば、判定部115は、第1の判定期間について、積算値が第2の閾値以下か否かを判定する。第2の判定期間及び第3の判定期間についても同様である。なお、第2の閾値は、同じでもいいし、複数の判定期間のそれぞれで異なっていてもよい。例えば、判定期間の長さが長くなるにつれ、第2の閾値は大きくなってもよい。これは、判定期間の長さが長くなるにつれ、差分を求める複数のタイミングの数が増えるからである。差分を求める複数のタイミングの数と、積算値は大きくなり得る。
判定部115は、複数の判定期間のそれぞれについての積算値が第2の閾値以下か否かに基づいて、マイク10が塞がれているか否かを判定する。例えば、判定部115は、複数の判定期間の全ての積算値が第2の閾値以下である場合、マイク10が塞がれていると判定してもよい。他方、判定部115は、複数の判定期間のうちの少なくとも1つの判定期間の積算値が第2の閾値以下ではない場合、マイク10が塞がれていないと判定してもよい。
変形例によれば、端末1は、1つの判定期間についての比較結果を用いるよりも、マイク10が塞がれているか否かの判定精度を向上させることができる。
なお、端末の譲渡は一般に、プログラムがメインメモリまたは補助記憶デバイスに記憶された状態にて行われる。しかしこれに限らず、プログラムがメインメモリまたは補助記憶デバイスに記憶されていない状態で譲渡されてもよい。そしてこの場合は、端末が備える書き込み可能な記憶デバイスに、この端末とは個別に譲渡されたプログラムがユーザ等の操作に応じて書き込まれる。プログラムの譲渡は、リムーバブルな記録媒体に記録して、あるいはネットワークを介した通信により行うことができる。記録媒体は、CD−ROM、メモリカード等のようにプログラムを記憶でき、かつ端末が読取可能であれば、その形態は問わない。また、プログラムのインストールやダウンロードにより得る機能は、端末内部のOS(オペレーティング・システム)等と協働してその機能を実現させるものであってもよい。
この他、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…端末、10…マイク、11…プロセッサ、12…メインメモリ、13…補助記憶デバイス、14…通信インタフェース、15…入力デバイス、16…アナログデジタルコンバータ、20…スピーカ、30…ディスプレイ、111…第1の取得部、112…計算部、113…記憶制御部、114…第2の取得部、115…判定部、116…通知部、131…音圧レベルデータベース。

Claims (5)

  1. 音声を入力する音声入力部と、
    前記音声入力部に入力された前記音声に係る特徴量を計算する計算部と、
    前記計算部で計算された前記特徴量に基づいて前記音声入力部が塞がれているか否かを判定する判定部と、
    前記判定部による前記音声入力部が塞がれていることを示す判定結果に応じて、前記音声入力部が塞がれていることを通知する通知部と、
    を備える情報処理端末。
  2. 前記判定部は、前記特徴量を閾値と比較し、前記特徴量が連続して前記閾値以下となる回数に基づいて、前記音声入力部が塞がれているか否かを判定する、
    請求項1に記載の情報処理端末。
  3. 前記判定部は、判定期間における前記特徴量の履歴を、前記判定期間において時系列に変動する参照パターンと比較し、前記判定期間についての比較結果に基づいて前記音声入力部が塞がれているか否かを判定する、請求項1に記載の情報処理端末。
  4. 前記判定部は、前記判定期間における複数のタイミングで前記特徴量と前記参照パターンとの差分を計算し、前記複数のタイミングにおける前記差分の積算値に基づいて前記音声入力部が塞がれているか否かを判定する、請求項3に記載の情報処理端末。
  5. 前記判定部は、長さの異なる複数の判定期間のそれぞれにおける前記特徴量の履歴を、前記複数の判定期間のそれぞれにおいて時系列に変動する参照パターンと比較し、前記複数の判定期間のそれぞれについての比較結果に基づいて、前記音声入力部が塞がれているか否かを判定する、請求項1に記載の情報処理端末。
JP2020039616A 2020-03-09 2020-03-09 情報処理端末 Pending JP2021140097A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020039616A JP2021140097A (ja) 2020-03-09 2020-03-09 情報処理端末
US17/177,397 US20210280184A1 (en) 2020-03-09 2021-02-17 Information processing terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020039616A JP2021140097A (ja) 2020-03-09 2020-03-09 情報処理端末

Publications (1)

Publication Number Publication Date
JP2021140097A true JP2021140097A (ja) 2021-09-16

Family

ID=77555851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020039616A Pending JP2021140097A (ja) 2020-03-09 2020-03-09 情報処理端末

Country Status (2)

Country Link
US (1) US20210280184A1 (ja)
JP (1) JP2021140097A (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514746B2 (en) * 2006-09-26 2016-12-06 Storz Endoskop Produktions Gmbh System and method for hazard mitigation in voice-driven control applications
GB201715824D0 (en) * 2017-07-06 2017-11-15 Cirrus Logic Int Semiconductor Ltd Blocked Microphone Detection
JP7000268B2 (ja) * 2018-07-18 2022-01-19 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US20210280184A1 (en) 2021-09-09

Similar Documents

Publication Publication Date Title
US11175698B2 (en) Methods and systems for processing touch inputs based on touch type and touch intensity
US10007335B2 (en) User interface selection based on user context
JP5565399B2 (ja) 電子音響信号発生装置およびその制御方法を実現するためのプログラム
KR102089444B1 (ko) 음성 인식 기능을 지원하는 전자 기기의 음성 입력 제어 방법 및 장치 장치
US20170068507A1 (en) User terminal apparatus, system, and method for controlling the same
CN105611458B (zh) 一种移动终端的定向录音控制方法及装置
US20150022360A1 (en) Input device and computer system with operating pattern analysis
KR20130121006A (ko) 터치 검출 방법 및 이를 이용하는 터치 제어 장치
US8258946B2 (en) Multifunctional electronic device and method for using the same
JP5830135B1 (ja) ゲームプログラムおよびゲーム装置
WO2015033609A1 (ja) 情報処理装置、入力方法およびプログラム
CN102640092A (zh) 基于触摸输入的音频设备设置调整
CN108549518A (zh) 一种音乐信息显示的方法、装置及终端设备
US8542204B2 (en) Method, system, and program product for no-look digit entry in a multi-touch device
JP2021140097A (ja) 情報処理端末
US20090078477A1 (en) Electronic device with sound prompt function
CN105373323A (zh) 用于操作电子设备的方法、操作装置和电子设备
KR101251730B1 (ko) 키보드를 이용한 컴퓨터 제어방법, 제어장치 및 이를 위한 프로그램 명령어가 기록된 기록매체
US20170269687A1 (en) Methods and apparatus to provide haptic feedback for computing devices
US9946368B2 (en) Apparatus and control method
EP3671724A1 (en) Playback of personalised audio
JP2021085952A (ja) 音楽再生装置、音楽再生方法、及び、音楽再生プログラム
JP2021519122A (ja) 呼吸障害のある被験者の検出
US6748468B1 (en) Caps lock notification
JP7420216B2 (ja) 音声評価システム、音声評価方法、及びコンピュータプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240522