JP2021140097A

JP2021140097A - 情報処理端末

Info

Publication number: JP2021140097A
Application number: JP2020039616A
Authority: JP
Inventors: 直樹関根; Naoki Sekine; 将悟綿田; Shogo Watada
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2021-09-16
Also published as: US20210280184A1

Abstract

【課題】音声入力部が塞がれているか否かの判定精度を向上させる。【解決手段】情報処理端末は、音声入力部と、計算部と、判定部と、通知部とを備える。前記音声入力部は、音声を入力する。前記計算部は、前記音声入力部に入力された前記音声に係る特徴量を計算する。前記判定部は、前記計算部で計算された前記特徴量に基づいて前記音声入力部が塞がれているか否かを判定する。前記通知部は、前記判定部による前記音声入力部が塞がれていることを示す判定結果に応じて、前記音声入力部が塞がれていることを通知する。【選択図】図５

Description

本発明の実施形態は、情報処理端末に関する。

タブレット端末などの音声入力での操作を可能とする携帯型端末が普及している。このような携帯型端末は、ユーザの利便性を高めるために種々の場所で活用されている。

例えば、携帯型端末はレストランに置かれ、携帯型端末に対する音声入力での操作により注文を可能とする技術が開発されている。

一般に、ユーザは、音声入力で携帯型端末を操作する際に携帯型端末を手に持つ傾向にある。

特開２００１−１０９４９２号公報

しかしながら、ユーザは、携帯型端末を持つ際に、指または手などで携帯型端末のマイクを意図せず塞いでしまうことがある。例えば、ユーザが店舗内に置かれている携帯型端末を使う場合、ユーザは、マイクの位置を気にすることなく携帯型端末を持つのでマイクを塞ぎやすい。携帯型端末が音声を認識可能な程度にマイクで音声を収集することができないと、携帯型端末は誤作動を起こす可能性がある。

本発明の実施形態が解決しようとする課題は、音声入力部が塞がれているか否かの判定精度を向上させる技術を提供しようとするものである。

一実施形態において、情報処理端末は、音声入力部と、計算部と、判定部と、通知部とを備える。前記音声入力部は、音声を入力する。前記計算部は、前記音声入力部に入力された前記音声に係る特徴量を計算する。前記判定部は、前記計算部で計算された前記特徴量に基づいて前記音声入力部が塞がれているか否かを判定する。前記通知部は、前記判定部による前記音声入力部が塞がれていることを示す判定結果に応じて、前記音声入力部が塞がれていることを通知する。

実施形態に係る端末を例示する外観図。実施形態に係る端末を例示するブロック図。実施形態に係る音圧レベルデータベースを例示する図。実施形態に係る端末による音圧レベルの計算処理の手順を例示するフローチャート。実施形態に係る端末による閉塞判定処理の手順を例示するフローチャート。実施形態に係る端末による第１の閉塞判定処理の手順を例示するフローチャート。実施形態に係る端末による第１の閉塞判定を例示する表。実施形態に係る端末による第１の閉塞判定を例示するグラフ。実施形態に係る端末による第２の閉塞判定処理の手順を例示するフローチャート。実施形態に係る端末による第２の閉塞判定を例示する表。実施形態に係る端末による第２の閉塞判定を例示するグラフ。

以下、図面を用いて実施形態について説明する。
図１は、端末１を例示する外観図である。
端末１は、音声入力による操作を可能とする携帯型の機器である。例えば、端末１は、タブレット端末であるが、スマートフォンなどであってもよい。例えば、端末１は、レストランなどの店舗に置かれ、音声による注文を可能とする。

端末１は、マイク１０、スピーカ２０及びディスプレイ３０を備える。

マイク１０は、端末１の周辺環境の音声を入力可能なデバイスである。マイク１０に入力された音声は、端末１の置かれている環境で発せられる音及び端末１の置かれている周辺環境にいる人の声である。端末１の置かれている周辺環境で発せられる音は、物の接触音、機器の動作音及び音楽などの種々の音を含む。端末１の置かれている周辺環境にいる人の声は、端末１を使うユーザの声だけでなく、端末１の周辺にいる人の声を含む。例えば、マイク１０は、端末１の長手方向の一端側に設けられているが、端末１におけるマイク１０の位置は限定されない。マイク１０は、音声入力部の一例である。

スピーカ２０は、端末１の制御により音を出力可能なデバイスである。例えば、スピーカ２０は、端末１の長手方向の一端側に設けられているが、端末１におけるスピーカ２０の位置は限定されない。

ディスプレイ３０は、端末１の制御により種々の画面を表示可能なデバイスである。例えば、ディスプレイ３０は、液晶ディスプレイまたはＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどである。

図２は、端末１を例示するブロック図である。
端末１は、上述のマイク１０、スピーカ２０及びディスプレイ３０に加えて、プロセッサ１１、メインメモリ１２、補助記憶デバイス１３、通信インタフェース１４、入力デバイス１５及びアナログデジタルコンバータ１６を含むコンピュータである。端末１を構成する各部は、互いに信号を入出力可能に接続されている。図２では、インタフェースは、「Ｉ／Ｆ」と記載されている。アナログデジタルコンバータは、「ＡＤＣ」と記載されている。

プロセッサ１１は、端末１の中枢部分に相当する。例えば、プロセッサ１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であるが、これに限定されない。プロセッサ１１は、種々の回路で構成されていてもよい。プロセッサ１１は、メインメモリ１２または補助記憶デバイス１３に予め記憶されているプログラムをメインメモリ１２に展開する。プログラムは、端末１のプロセッサ１１に後述する各部を実現させるプログラムである。プロセッサ１１は、メインメモリ１２に展開されるプログラムを実行することで、種々の動作を実行する。

メインメモリ１２は、端末１の主記憶部分に相当する。メインメモリ１２は、不揮発性のメモリ領域と揮発性のメモリ領域とを含む。メインメモリ１２は、不揮発性のメモリ領域ではオペレーティングシステム又はプログラムを記憶する。メインメモリ１２は、揮発性のメモリ領域を、プロセッサ１１によってデータが適宜書き換えられるワークエリアとして使用する。例えば、メインメモリ１２は、不揮発性のメモリ領域としてＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）を含む。例えば、メインメモリ１２は、揮発性のメモリ領域としてＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。

補助記憶デバイス１３は、端末１の補助記憶部分に相当する。例えば、補助記憶デバイス１３は、ＥＥＰＲＯＭ（登録商標）（ＥｌｅｃｔｒｉｃＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などである。補助記憶デバイス１３は、上述のプログラム、プロセッサ１１が各種の処理を行う上で使用するデータ及びプロセッサ１１での処理によって生成されるデータを記憶する。

補助記憶デバイス１３は、音圧レベルデータベース１３１を記憶する。音圧レベルデータベース１３１は、時刻に関連付けて音圧レベルを管理するデータベースである。時刻は、マイク１０に音声が入力された時刻である。音圧レベルは、２０×Ｌｏｇ_１０（Ｐ／Ｐ_０）で求まる値［ｄＢ］である。ここで、Ｐは、音声信号の振幅値である。Ｐ_０は、基準の振幅値である。音圧レベルは、マイク１０に入力された音声に係る特徴量の一例である。なお、音声に係る特徴量は、音声の程度を評価できる量であればよく音圧レベルに限定されない。音声に係る特徴量は、音量であってもよい。音圧レベルデータベース１３１の構成例については後述する。図２では、データベースは、「ＤＢ」と記載されている。

通信インタフェース１４は、所定の通信プロトコルに従い、ネットワークを介して、端末１を他の機器と通信可能に接続する種々のインタフェースを含む。

入力デバイス１５は、端末１へデータまたは指示をタッチ操作により入力可能なデバイスである。例えば、入力デバイス１５は、キーボードまたはタッチパネルなどである。

アナログデジタルコンバータ１６は、マイク１０に入力された音声に基づくアナログの音声信号（アナログ波形）をデジタルの音声信号に変換する。

なお、端末１のハードウェア構成は、上述の構成に限定されるものではない。端末１は、適宜、上述の構成要素の省略及び変更並びに新たな構成要素の追加を可能とする。

上述のプロセッサ１１に実装される各部について説明する。
プロセッサ１１は、第１の取得部１１１、計算部１１２、記憶制御部１１３、第２の取得部１１４、判定部１１５及び通知部１１６を実装する。プロセッサ１１に実装される各部は、各機能ということもできる。プロセッサ１１に実装される各部は、プロセッサ１１及びメインメモリ１２を含む制御部に実装されるということもできる。

第１の取得部１１１は、マイク１０に入力された音声に基づく音声信号を取得する。
計算部１１２は、第１の取得部１１１によって取得された音声信号に基づいて、マイク１０に入力された音声に係る音圧レベルを計算する。
記憶制御部１１３は、計算部１１２によって計算された音圧レベルを音圧レベルデータベース１３１に保存する。

第２の取得部１１４は、音圧レベルを音圧レベルデータベース１３１から取得する。
判定部１１５は、第２の取得部１１４によって取得された音圧レベルに基づいてマイク１０が塞がれているか否かを判定する。マイク１０が塞がれていることは、マイク１０の全部が塞がれていることだけでなく、マイク１０の一部が塞がれていることも含む。マイク１０が塞がれていることは、ユーザの手などが端末１に直接触れてマイク１０を塞ぐことだけでなく、端末１に直接触れることなくマイク１０を覆うことも含む。マイク１０が塞がれている場合の音圧レベルは、マイク１０が塞がれていない場合の音圧レベルと比較して小さい傾向にある。そのため、マイク１０が塞がれていることと音圧レベルとの間には、関連性がある。同様に、マイク１０が塞がれている程度と音圧レベルとの間には、関連性がある。マイク１０が塞がれている状態では、端末１による音声認識の精度は低下する。マイク１０が塞がれていることは、マイク１０が閉塞されているということもできる。
通知部１１６は、判定部１１５によるマイク１０が塞がれていることを示す判定結果に応じて、マイク１０が塞がれていることを通知する。

なお、通知部１１６は、プログラムを実行することでプロセッサ１１に実装されるものとして説明したが、これに限定されない。通知部１１６は、マイク１０が塞がれていることを通知するものである。そのため、スピーカ２０またはディスプレイ３０などのデバイスが通知部１１６の一例であってもよい。通知部１１６は、プログラムを実行することでプロセッサ１１とスピーカ２０またはディスプレイ３０などのデバイスとの協働で実現されてもよい。

音圧レベルデータベース１３１の構成例について説明する。
図３は、音圧レベルデータベース１３１を例示する図である。

音圧レベルデータベース１３１は、「時刻」項目及び「入力データ」項目を含む。
「時刻」項目は、マイク１０に音声が入力された時刻をセットする項目である。「時刻」項目は、一定時間間隔の時刻をセットする。例えば、一定時間間隔は、０．５秒間隔であるが、これに限定されない。一定時間間隔は、適宜変更可能である。「入力データ」項目は、「時刻」項目にセットされる時刻における音圧レベルである。「時刻」項目にセットされる時刻と「入力データ」項目にセットされる音圧レベルは、互いに関連付けられている。

端末１は、一定時間間隔で音圧レベルを計算する毎に音圧レベルデータベース１３１にレコードを追加する。端末１は、音圧レベルデータベースへのレコードの追加により音圧レベルデータベースを更新し得る。

端末１による処理の手順について説明する。
まず、音圧レベルの計算処理について説明する。
図４は、音圧レベルの計算処理の手順を例示するフローチャートである。
端末１は、端末１の起動中には音圧レベルの計算処理を継続する。

第１の取得部１１１は、マイク１０に入力された音声に基づく音声信号を取得する（ＡＣＴ１０）。ＡＣＴ１０は、例えば、第１の取得部１１１は、アナログデジタルコンバータ１６から音声信号を時系列に取得する。例えば、第１の取得部１１１は、端末１の起動に基づいて音声信号の取得を開始する。

計算部１１２は、音圧レベルを計算する（ＡＣＴ１１）。ＡＣＴ１１では、例えば、計算部１１２は、ＡＣＴ１０で第１の取得部１１１によって時間経過に伴い逐次取得された音声信号に基づいて、一定時間間隔で音圧レベルを逐次計算する。

記憶制御部１１３は、音圧レベルを音圧レベルデータベース１３１に保存する（ＡＣＴ１２）。ＡＣＴ１２では、例えば、記憶制御部１１３は、計算部１１２によって一定時間間隔で計算された音圧レベルを音圧レベルデータベース１３１に保存する。音圧レベルデータベース１３１は、一定時間間隔の音圧レベルを時系列に記憶する。

プロセッサ１１は、端末１の電源をオフにする入力指示を検知したか否かを判断する（ＡＣＴ１３）。プロセッサ１１が端末１の電源をオフにする入力指示を検知しない場合（ＡＣＴ１３、ＮＯ）、処理は、ＡＣＴ１３からＡＣＴ１０へ遷移する。プロセッサ１１が端末１の電源をオフにする入力指示を検知した場合（ＡＣＴ１３、ＹＥＳ）、処理は終了する。

次に、閉塞判定処理について説明する。
図５は、閉塞判定処理の手順を例示するフローチャートである。
端末１は、端末１の起動中には音圧レベルの計算処理と並行に閉塞判定処理を継続する。

第２の取得部１１４は、音圧レベルを音圧レベルデータベース１３１から取得する（ＡＣＴ２０）。ＡＣＴ２０では、例えば、第２の取得部１１４は、現在時刻の音圧レベルを、時間経過に伴って音圧レベルデータベース１３１から一定時間間隔で逐次取得することができる。現在時刻は、音圧レベルデータベース１３１に記憶されている音圧レベルの最新時刻である。現在時刻は基準時刻の一例である。例えば、第２の取得部１１４は、現在時刻から遡ったある期間の音圧レベルの履歴を、時間経過に伴って音圧レベルデータベース１３１から一定時間間隔で逐次取得することができる。音圧レベルの履歴は、時系列に沿って一定時間間隔で連続する複数のタイミングにおける音圧レベルを含む。例えば、第２の取得部１１４は、端末１の起動に基づいて音圧レベルの取得を開始する。

判定部１１５は、第２の取得部１１４によって取得された音圧レベルに基づいてマイク１０が塞がれているか否かを判定する（ＡＣＴ２１）。ＡＣＴ２１では、例えば、判定部１１５は、第２の取得部１１４で逐次取得される現在時刻の音圧レベルの集合による履歴に基づいてマイク１０が塞がれているか否かを判定することができる。例えば、判定部１１５は、第２の取得部１１４で一度に取得される音圧レベルの履歴に基づいてマイク１０が塞がれているか否かを判定することができる。ＡＣＴ２１での判定部１１５による判定例については後述する。判定部１１５は、マイク１０が塞がれていることを示す判定結果またはマイク１０が塞がれていないことを示す判定結果を発生する。判定部１１５によるマイク１０が塞がれていないことを示す判定結果に応じて（ＡＣＴ２１、ＮＯ）、処理はＡＣＴ２１からＡＣＴ２０へ遷移する。

判定部１１５によるマイク１０が塞がれていることを示す判定結果に応じて（ＡＣＴ２１、ＹＥＳ）、通知部１１６は、マイク１０が塞がれていることを通知する（ＡＣＴ２２）。ＡＣＴ２２では、例えば、通知部１１６は、マイク１０が塞がれていることを通知するアラートをディスプレイ３０に表示させることができる。例えば、通知部１１６は、マイク１０が塞がれていることを通知するアラートをスピーカ２０から出力させることができる。アラートの内容は、マイク１０が塞がれていることユーザへ通知することができればよく、限定されない。

上述のように、端末１は、マイク１０に入力される音声に係る特徴量に基づいてマイク１０が塞がれているか否かを判定することができる。マイク１０が塞がれていることと音声に係る特徴量との間には関連性があるので、端末１は、マイク１０が塞がれているか否かの判定精度を向上させることができる。

上述の閉塞判定処理のいくつかの典型例について説明する。

まず、第１の閉塞判定について説明する。
図６は、第１の閉塞判定処理の手順を例示するフローチャートである。

第２の取得部１１４は、音圧レベルを音圧レベルデータベース１３１から取得する（ＡＣＴ３０）。ＡＣＴ３０では、例えば、第２の取得部１１４は、現在時刻の音圧レベルを、時間経過に伴って音圧レベルデータベース１３１から一定時間間隔で逐次取得する。

判定部１１５は、第２の取得部１１４によって取得された音圧レベルを第１の閾値と比較する（ＡＣＴ３１）。ＡＣＴ３０では、例えば、第２の取得部１１４によって逐次取得された音圧レベルを第１の閾値と逐次比較する。

第１の閾値は、マイク１０が塞がれていることを判定するための音圧レベルの値である。第１の閾値は、端末１の置かれている環境でマイク１０が塞がれていると想定される音圧レベルの値である。マイク１０に入力された音声係る音圧レベルは、マイク１０が同じように塞がれていても、端末１の置かれている環境に応じて異なる。そのため、第１の閾値は、端末１の置かれている環境に応じて異なる。第１の閾値は、音圧レベル０ｄＢから、端末１の置かれている環境でマイク１０が塞がれていないと想定される音圧レベルの値の間で設定される。第１の閾値は、適宜変更可能である。

音圧レベルが第１の閾値以下ではない場合（ＡＣＴ３１、ＮＯ）、処理はＡＣＴ３１からＡＣＴ３０へ遷移する。つまり、音圧レベルが第１の閾値以下ではない場合、判定部１１５は、マイク１０が塞がれていないと判定する。

音圧レベルが第１の閾値以下である場合（ＡＣＴ３１、ＹＥＳ）、判定部１１５は、第１の閾値以下となる音圧レベルが基準回数連続したか否かを判定する（ＡＣＴ３２）。ＡＣＴ３２では、例えば、判定部１１５は、ＡＣＴ３１での音圧レベルが第１の閾値以下ではないとする判定が基準回数連続したか否かを判定する。

基準回数は、マイク１０が塞がれていることを判定するための回数である。基準回数は、複数回である。基準回数が複数回であることが好ましい理由は、以下のようにも考えられる。例えば、ユーザの手がマイク１０の付近を瞬間的に横切ったときなどは、音圧レベルが一時的に第１の閾値以下となることがある。この場合、端末１による音声認識の精度に影響はない。他方、時系列に沿って連続する複数のタイミングにおける音圧レベルが全て第１の閾値以下となる場合、ユーザがマイク１０を継続的に塞いでいる可能性が高い。この場合、端末１による音声認識の精度に影響がある。基準回数は、適宜変更可能である。

このように、判定部１１５は、音圧レベルを第１の閾値と比較し、音圧レベルが連続して第１の閾値以下となる回数に基づいて、マイク１０が塞がれているか否かを判定する。第１の閾値以下となる音圧レベルが基準回数連続していない場合、判定部１１５は、マイク１０が塞がれていないと判定する。他方、第１の閾値以下となる音圧レベルが基準回数連続した場合、判定部１１５は、マイク１０が塞がれていると判定する。

第１の閾値以下となる音圧レベルが基準回数連続していない場合（ＡＣＴ３２、ＮＯ）、処理はＡＣＴ３２からＡＣＴ３０へ遷移する。第１の閾値以下となる音圧レベルが基準回数連続した場合（ＡＣＴ３２、ＹＥＳ）、通知部１１６は、マイク１０が塞がれていることを通知する（ＡＣＴ３３）ＡＣＴ３３は、上述のＡＣＴ２２と同様である。

なお、ＡＣＴ３０では、第２の取得部１１４が現在時刻の音圧レベルを音圧レベルデータベース１３１から取得する例について説明したが、これに限定されない。ＡＣＴ３０では、第２の取得部１１４は、現在時刻から時系列に遡って基準回数に相当する数の複数の音圧レベルを音圧レベルデータベース１３１から取得してもよい。この例では、判定部１１５は、第２の取得部１１４によって取得された複数の音圧レベルを第１の閾値と比較する。第２の取得部１１４によって取得された複数の音圧レベルの少なくとも１つが第１の閾値以下ではない場合、判定部１１５は、マイク１０が塞がれていないと判定する。他方、第２の取得部１１４で取得された複数の音圧レベルの全てが第１の閾値以下である場合、判定部１１５は、マイク１０が塞がれていると判定する。

なお、ＡＣＴ３２では、基準回数を複数回とする例について説明したが、これに限定されない。基準回数は１回でもよい。この例では、判定部１１５は、音圧レベルが第１の閾値以下か否かに基づいて、マイク１０が塞がれているか否かを判定する。音圧レベルが第１の閾値以下である場合、判定部１１５は、マイク１０が塞がれていると判定する。他方、音圧レベルが第１の閾値以下でない場合、判定部１１５は、マイク１０が塞がれていないと判定する。

なお、ＡＣＴ３２では、判定部１１５は、基準回数で評価しているが、期間で評価するようにしてもよい。例えば、判定部１１５は、音圧レベルが連続して第１の閾値以下となる期間に基づいて、マイク１０が塞がれているか否かを判定する。第１の閾値以下となる音圧レベルの継続期間が所定期間以下である場合、判定部１１５は、マイク１０が塞がれていないと判定する。他方、第１の閾値以下となる音圧レベルの継続期間が所定期間を超える場合、判定部１１５は、マイク１０が塞がれていると判定する。所定期間の長さは適宜変更可能である。これにより、判定部１１５は、音圧レベルが計算される一定時間間隔の長さに依存しない所定期間を用いることで、マイク１０が塞がれているか否かの判定精度を上げることができる。例えば、音圧レベルが計算される一定時間間隔が短くなると、音圧レベルが基準回数連続して第１の閾値以下となる時間も短くなる。他方、音圧レベルが計算される一定時間間隔が長くなると、音圧レベルが基準回数連続して第１の閾値以下となる時間も長くなる。

図７は、第１の閉塞判定を例示する表である。
「入力データ」は、現在時刻から２秒前までの期間における一定時間間隔の音圧レベルを示す。「閾値」は、第１の閾値を示す。ここでは、第１の閾値は、１５ｄＢとする。「閾値以下の回数」は、音圧レベルが連続して第１の閾値以下となる回数を示す。ここでは、基準回数は、３回とする。判定部１１５は、現在時刻の音圧レベルが第１の閾値以下であると判定すると、第１の閾値以下となる音圧レベルが基準回数連続したと判定する。判定部１１５は、第１の閾値以下となる音圧レベルが基準回数連続したと判定すると、マイク１０が塞がれていると判定する。

図８は、第１の閉塞判定を例示するグラフである。
図８は、図７に示す関係を示す。
横軸は、時間を示す。縦軸は、音圧レベルを示す。
破線は、入力データのグラフである。実線は、第１の閾値のグラフである。
マイク１０が塞がれていないときのマイク１０に入力される音声に係る音圧レベルは、１００ｄＢ付近である。他方、マイク１０が塞がれているときのマイク１０に入力される音声に係る音圧レベルは、０ｄＢ付近である。

上述のように、第１の閉塞判定では、端末１は、音圧レベルが連続して第１の閾値以下となる回数に基づいて、マイク１０が塞がれているか否かを判定する。これにより、端末１は、ユーザの手がマイク１０の付近を瞬間的に横切ったことではなく、ユーザがマイク１０を継続的に塞いでいることを判定することができる。

次に、第２の閉塞判定について説明する。
図９は、第２の閉塞判定処理の手順を例示するフローチャートである。

第２の取得部１１４は、音圧レベルの履歴を音圧レベルデータベース１３１から取得する（ＡＣＴ４０）。ＡＣＴ４０では、例えば、第２の取得部１１４は、判定期間における音圧レベルの履歴を音圧レベルデータベース１３１から一定時間間隔で逐次取得する。

判定期間は、マイク１０が塞がれているか否かを判定するために、連続する複数のタイミングにおける音圧レベルを一定時間間隔で収集する期間である。判定期間は、現在時刻から遡った期間である。判定期間の長さは適宜変更可能である。判定期間における音圧レベルの履歴は、判定期間において時系列に沿って一定時間間隔で連続する複数のタイミングにおける音圧レベルである。判定期間における音圧レベルの履歴は、現在時刻から遡った複数の時間（複数のタイミング）と音圧レベルとを紐付けている。例えば、判定期間は２秒間であるが、これに限定されない。

判定部１１５は、評価関数を取得する（ＡＣＴ４１）。ＡＣＴ４１では、例えば、判定部１１５は、評価関数を補助記憶デバイス１３から取得する。この例では、補助記憶デバイス１３は、判定期間に関する評価関数を記憶している。評価関数は、マイク１０が塞がれていることを判定するために、音圧レベルの履歴の評価に用いられる関数である。評価関数は、マイク１０が塞がれていない状態からマイク１０が塞がれた状態への遷移を時系列に変動する音圧レベルで規定するモデルである。評価関数は、時間経過に伴って音圧レベルが高い状態から低い状態へ変動するモデルである。

判定期間に関する評価関数は、判定期間における複数のタイミングと音圧レベルとを紐付けたモデルである。判定期間における複数のタイミングは、判定期間において時系列に沿って一定時間間隔で連続する複数のタイミングである。判定期間に関する評価関数は、少なくとも判定期間において時系列に沿って一定時間間隔で連続する複数のタイミングと音圧レベルとを紐付けたモデルである。なお、マイク１０に入力される音声に係る音声レベルは、端末１が置かれている環境に応じて異なる。そのため、判定期間に関する評価関数は、端末１が置かれている環境において音圧レベルの履歴との比較に適した平均的なモデルである。判定期間に関する評価関数は、適宜変更可能である。判定期間に関する評価関数は、判定期間において時系列に変動する参照パターンの一例である。

判定部１１５は、判定期間における音圧レベルの履歴を、判定期間に関する評価関数と比較する（ＡＣＴ４２）。ＡＣＴ４２では、例えは、判定部１１５は、判定期間における複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルを、評価関数で規定される音圧レベルと比較する。

判定部１１５は、判定期間における複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を計算する（ＡＣＴ４３）。ＡＣＴ４３では、例えば、判定部１１５は、複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルと評価関数で規定される音圧レベルとの差分を計算する。例えば、判定期間が２秒間であり、一定時間間隔が０．５秒間である場合、判定期間における複数のタイミングは、５つのタイミングである。例えば、差分は、音圧レベルの履歴に含まれる音圧レベルから評価関数で規定される音圧レベルを引いた値そのものである。差分は、音圧レベルの履歴に含まれる音圧レベルから評価関数で規定される音圧レベルを引いた値の絶対値であってもよい。判定期間における複数のタイミングについての音圧レベルの履歴と判定期間に関する評価関数との差分は、判定期間についての比較結果の一例である。

判定部１１５は、複数のタイミングについての差分の積算値を計算する（ＡＣＴ４４）。ＡＣＴ４４では、例えば、判定部１１５は、ＡＣＴ４３で計算した複数のタイミングのそれぞれについての差分を積算し、積算値を求める。積算値は、評価関数に対する音圧レベルの履歴の類似度に関連する。積算値が小さくなれにつれ、音圧レベルの履歴は、評価関数に類似する傾向が強くなる。つまり、積算値が小さくなるにつれ、マイク１０は、判定期間中に塞がれた可能性が高くなる。他方、積算値が大きくなるにつれ、マイク１０は、判定期間中継続して塞がれていない可能性が高くなる。

判定部１１５は、積算値が第２の閾値以下か否かを判定する（ＡＣＴ４５）。第２の閾値は、マイク１０が塞がれていることを判定するための値である。第２の閾値は、端末１の置かれている環境に応じて異なっていてもよい。第２の閾値は、適宜変更可能である。

このように、判定部１１５は、積算値を第２の閾値と比較し、積算値が第２の閾値以下か否かに基づいて、マイク１０が塞がれているか否かを判定する。積算値が第２の閾値以下である場合、音圧レベルの履歴は、評価関数に類似するといえる。そのため、積算値が第２の閾値以下である場合、判定部１１５は、マイク１０が塞がれていると判定する。他方、積算値が第２の閾値以下ではない場合、音圧レベルの履歴は、評価関数に類似しないといえる。そのため、積算値が第２の閾値以下ではない場合、判定部１１５は、マイク１０が塞がれていないと判定する。

積算値が第２の閾値以下ではない場合（ＡＣＴ４５、ＮＯ）、処理はＡＣＴ４５からＡＣＴ４０へ遷移する。積算値が第２の閾値以下である場合（ＡＣＴ４５、ＹＥＳ）、通知部１１６は、マイク１０が塞がれていることを通知する（ＡＣＴ４６）。ＡＣＴ４６は、上述のＡＣＴ２２と同様である。

なお、図９に示す例では、判定部１１５は、積算値が第２の閾値以下か否かに基づいてマイク１０が塞がれているか否かを判定しているが、これに限定されない。判定部１１５は、第２の閾値によらず、積算値に基づいてマイク１０が塞がれているか否かを判定してもよい。例えば、判定部１１５は、一定時間間隔で計算される積算値の遷移に基づいてマイク１０が塞がれているか否かを判定してもよい。上述のように、積算値が小さくなるにつれ、マイク１０は、判定期間中に塞がれた可能性が高くなる。他方、積算値が大きくなるにつれ、マイク１０は、判定期間中継続して塞がれていない可能性が高くなる。そのため、積算値の遷移量が大きくなるにつれ、マイク１０は、塞がれていない状態から塞がれた状態へ遷移した可能性が高くなる。この例では、積算値の遷移量が基準量より大きい場合、判定部１１５は、マイク１０が塞がれていると判定する。他方、積算値の変動量が基準量以下である場合、判定部１１５は、マイク１０が塞がれていないと判定する。基準量は、適宜変更可能である。

なお、図９に示す例では、判定部１１５は、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を計算しているが、これに限定されない。判定部１１５は、差分によらず、判定期間についての比較結果に基づいてマイク１０が塞がれているか否かを判定してもよい。判定期間についての比較結果は、判定期間における音圧レベルの履歴と、判定期間に関する評価関数との比較である。例えば、判定部１１５は、判定期間における音圧レベルの履歴によるグラフと、判定期間に関する評価関数によるグラフの類似度を求めてもよい。類似度は、判定期間についての比較結果の一例である。判定部１１５は、類似度に基づいてマイク１０が塞がれているか否かを判定してもよい。類似度が高くなるにつれ、マイク１０は、判定期間中に塞がれた可能性が高くなる。

図１０は、第２の閉塞判定を例示する表である。
「入力データ」は、判定期間における音圧レベルの履歴に含まれる一定時間間隔の音圧レベルを示す。ここでは、判定期間は、２秒間とする。「評価関数」は、判定期間に関する評価関数で規定される一定時間間隔の音圧レベルを示す。評価関数は、判定期間において現在時刻から離れたタイミング（２秒前及び１．５秒前）では高い音圧レベル（１００ｄＢ）を示す。他方、評価関数は、判定期間において現在時刻及び現在時刻に近いタイミング（１秒前、０．５秒前及び０秒前）では低い音圧レベル（５ｄＢ）を示す。「差分」は、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を示す。

判定部１１５は、評価期間における一定時間間隔の５つのタイミングについて、音圧レベルの履歴に含まれる音圧レベルと評価関数で規定される音圧レベルとの差分を計算する。判定部１１５は、５つのタイミングについての差分の積算値（３６ｄＢ）を計算する。判定部１１５は、積算値を第２の閾値と比較し、積算値が第２の閾値以下か否かに基づいて、マイク１０が塞がれているか否かを判定する。

図１１は、第２の閉塞判定を例示するグラフである。
図１１は、図１０に示す関係を示す。
横軸は、時間を示す。縦軸は、音圧レベルを示す。
破線は、入力データのグラフである。実線は、評価関数のグラフである。
マイク１０が塞がれていないときのマイク１０に入力される音声に係る音圧レベルは、１００ｄＢ付近である。他方、マイク１０が塞がれているときのマイク１０に入力される音声に係る音圧レベルは、０ｄＢ付近である。このように、判定期間中にマイク１０が塞がれた場合、判定期間における音圧レベルの履歴は、判定期間に関する評価関数に類似する。

上述のように、第２の閉塞判定によれば、端末１は、判定期間についての比較結果に基づいてマイク１０が塞がれているか否かを判定する。端末１は、判定期間における複数のタイミングでの差分の積算値に基づいてマイク１０が塞がれているか否かを判定する。これにより、端末１は、マイク１０が判定期間中に塞がれたことの判定精度を向上させることができる。

第２の閉塞判定の変形例について説明する。
判定部１１５は、長さの異なる複数の判定期間のそれぞれにおける音圧レベルの履歴を、複数の判定期間のそれぞれにおいて時系列に変動する参照パターンと比較する。判定部１１５は、複数の判定期間のそれぞれについての比較結果に基づいて、マイク１０が塞がれているか否かを判定する。

この例では、第２の取得部１１４は、長さの異なる複数の判定期間における音圧レベルの履歴を音圧レベルデータベース１３１から一定時間間隔で逐次取得する。ここでは、第１の判定期間、第２の判定期間及び第３の判定期間の３つの判定期間の例を説明するが、複数の判定期間は、２つ以上の判定期間であればよい。例えば、第１の判定期間は２秒間、第２の判定期間は４秒間、第３の判定期間は６秒間であるものとする。

判定部１１５は、複数の判定期間に関する複数の評価関数を補助記憶デバイス１３から取得する。例えば、判定部１１５は、第１の判定期間に関する評価関数、第２の判定期間に関する評価関数及び第３の判定期間に関する評価関数を補助記憶デバイス１３から取得する。

判定部１１５は、複数の判定期間における音圧レベルの履歴のそれぞれを、複数の判定期間に関する評価関数と比較する。例えは、判定部１１５は、第１の判定期間における複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルを、評価関数で規定される音圧レベルと比較する。第２の判定期間及び第３の判定期間についても同様である。

判定部１１５は、複数の判定期間のそれぞれにおける複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルと判定期間に関する評価関数との差分を計算する。例えば、判定部１１５は、第１の判定期間における複数のタイミングについて、音圧レベルの履歴に含まれる音圧レベルと評価関数で規定される音圧レベルとの差分を計算する。第１の判定期間における複数のタイミングについての音圧レベルの履歴と第１の判定期間に関する評価関数との差分は、第１の判定期間についての比較結果の一例である。第２の判定期間及び第３の判定期間についても同様である。

判定部１１５は、複数の判定期間のそれぞれについて、複数のタイミングについての差分の積算値を計算する。例えば、判定部１１５は、第１の判定期間について、複数のタイミングのそれぞれについての差分を積算し、積算値を求める。第２の判定期間及び第３の判定期間についても同様である。

判定部１１５は、複数の判定期間のそれぞれについて、積算値が第２の閾値以下か否かを判定する。例えば、判定部１１５は、第１の判定期間について、積算値が第２の閾値以下か否かを判定する。第２の判定期間及び第３の判定期間についても同様である。なお、第２の閾値は、同じでもいいし、複数の判定期間のそれぞれで異なっていてもよい。例えば、判定期間の長さが長くなるにつれ、第２の閾値は大きくなってもよい。これは、判定期間の長さが長くなるにつれ、差分を求める複数のタイミングの数が増えるからである。差分を求める複数のタイミングの数と、積算値は大きくなり得る。

判定部１１５は、複数の判定期間のそれぞれについての積算値が第２の閾値以下か否かに基づいて、マイク１０が塞がれているか否かを判定する。例えば、判定部１１５は、複数の判定期間の全ての積算値が第２の閾値以下である場合、マイク１０が塞がれていると判定してもよい。他方、判定部１１５は、複数の判定期間のうちの少なくとも１つの判定期間の積算値が第２の閾値以下ではない場合、マイク１０が塞がれていないと判定してもよい。

変形例によれば、端末１は、１つの判定期間についての比較結果を用いるよりも、マイク１０が塞がれているか否かの判定精度を向上させることができる。

なお、端末の譲渡は一般に、プログラムがメインメモリまたは補助記憶デバイスに記憶された状態にて行われる。しかしこれに限らず、プログラムがメインメモリまたは補助記憶デバイスに記憶されていない状態で譲渡されてもよい。そしてこの場合は、端末が備える書き込み可能な記憶デバイスに、この端末とは個別に譲渡されたプログラムがユーザ等の操作に応じて書き込まれる。プログラムの譲渡は、リムーバブルな記録媒体に記録して、あるいはネットワークを介した通信により行うことができる。記録媒体は、ＣＤ−ＲＯＭ、メモリカード等のようにプログラムを記憶でき、かつ端末が読取可能であれば、その形態は問わない。また、プログラムのインストールやダウンロードにより得る機能は、端末内部のＯＳ（オペレーティング・システム）等と協働してその機能を実現させるものであってもよい。

この他、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…端末、１０…マイク、１１…プロセッサ、１２…メインメモリ、１３…補助記憶デバイス、１４…通信インタフェース、１５…入力デバイス、１６…アナログデジタルコンバータ、２０…スピーカ、３０…ディスプレイ、１１１…第１の取得部、１１２…計算部、１１３…記憶制御部、１１４…第２の取得部、１１５…判定部、１１６…通知部、１３１…音圧レベルデータベース。

Claims

音声を入力する音声入力部と、
前記音声入力部に入力された前記音声に係る特徴量を計算する計算部と、
前記計算部で計算された前記特徴量に基づいて前記音声入力部が塞がれているか否かを判定する判定部と、
前記判定部による前記音声入力部が塞がれていることを示す判定結果に応じて、前記音声入力部が塞がれていることを通知する通知部と、
を備える情報処理端末。
前記判定部は、前記特徴量を閾値と比較し、前記特徴量が連続して前記閾値以下となる回数に基づいて、前記音声入力部が塞がれているか否かを判定する、
請求項１に記載の情報処理端末。
前記判定部は、判定期間における前記特徴量の履歴を、前記判定期間において時系列に変動する参照パターンと比較し、前記判定期間についての比較結果に基づいて前記音声入力部が塞がれているか否かを判定する、請求項１に記載の情報処理端末。
前記判定部は、前記判定期間における複数のタイミングで前記特徴量と前記参照パターンとの差分を計算し、前記複数のタイミングにおける前記差分の積算値に基づいて前記音声入力部が塞がれているか否かを判定する、請求項３に記載の情報処理端末。
前記判定部は、長さの異なる複数の判定期間のそれぞれにおける前記特徴量の履歴を、前記複数の判定期間のそれぞれにおいて時系列に変動する参照パターンと比較し、前記複数の判定期間のそれぞれについての比較結果に基づいて、前記音声入力部が塞がれているか否かを判定する、請求項１に記載の情報処理端末。