JP2017167600A - Terminal device - Google Patents
Terminal device Download PDFInfo
- Publication number
- JP2017167600A JP2017167600A JP2016049342A JP2016049342A JP2017167600A JP 2017167600 A JP2017167600 A JP 2017167600A JP 2016049342 A JP2016049342 A JP 2016049342A JP 2016049342 A JP2016049342 A JP 2016049342A JP 2017167600 A JP2017167600 A JP 2017167600A
- Authority
- JP
- Japan
- Prior art keywords
- proximity
- terminal device
- function
- voice
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、端末装置に関する。 The present invention relates to a terminal device.
特許文献1は、近接センサおよび音声認識手段を備えた電子装置を開示する。この装置では、物体が装置に近接していることを近接センサが検出すると、音声認識処理による装置の操作が可能になる。 Patent Document 1 discloses an electronic device including a proximity sensor and voice recognition means. In this apparatus, when the proximity sensor detects that an object is close to the apparatus, the apparatus can be operated by voice recognition processing.
スマートホンなどに代表される端末装置では、音楽再生およびユーザとの対話といった種々の機能が、音声認識処理の結果を用いたユーザ操作によって利用可能である。その音声認識処理の結果も、さまざまな認識手法のうちの特定の認識を用いて取得することができる。そのため、特定の認識手法による音声認識処理の結果を取得する機能や音声認識処理の結果を用いた機能(以下、「音声認識処理に係る機能」という場合もある)を選択しなければならない。 In a terminal device typified by a smart phone or the like, various functions such as music playback and user interaction can be used by a user operation using the result of speech recognition processing. The result of the speech recognition process can also be obtained using specific recognition among various recognition methods. Therefore, it is necessary to select a function that acquires the result of speech recognition processing by a specific recognition method or a function that uses the result of speech recognition processing (hereinafter, also referred to as “function related to speech recognition processing”).
たとえば特許文献1の手法を参考に、近接センサを用いて端末の音声認識処理を起動させた後、音声認識処理を用いた端末操作によって、ユーザが音声認識処理に係る機能を選択することも考えられる。しかし、選択の都度、音声認識処理を用いた端末操作を行わなければならないとすると、ユーザが煩わしく感じる可能性がある。 For example, referring to the technique of Patent Document 1, it is considered that the user selects a function related to the voice recognition process by starting the voice recognition process of the terminal using the proximity sensor and then operating the terminal using the voice recognition process. It is done. However, if it is necessary to perform a terminal operation using a voice recognition process for each selection, the user may feel annoying.
本発明は、上記課題に鑑みてなされたものであり、音声認識処理に係る機能を選択する際に、その選択を容易に行うことが可能な端末装置を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a terminal device that can easily select a function related to speech recognition processing.
本発明の一態様に係る端末装置は、自端末装置への物体の近接を検出するとともに検出した物体の近接時間を計測する検出手段と、音声を入力する入力手段と、入力手段によって入力された音声を対象とした音声認識処理に係る機能を実行する実行手段と、検出手段によって計測された近接時間に基づいて、実行手段が実行する音声認識処理に係る機能を決定する決定手段と、を備える。 A terminal device according to an aspect of the present invention detects a proximity of an object to the terminal device and detects a proximity time of the detected object, an input unit that inputs sound, and an input unit An execution unit that executes a function related to a voice recognition process for speech; and a determination unit that determines a function related to the voice recognition process executed by the execution unit based on the proximity time measured by the detection unit. .
上記の端末装置によれば、入力された音声を対象とした音声認識処理に係る機能が実行される。ここで、実行される機能は、物体の近接時間に基づいて決定される。そのため、ユーザは、所定時間端末装置の近くに物体を近接させる、たとえば端末装置に手をかざす(手を近づける)といった動作を行うだけで、音声認識に係る機能を容易に選択することができる。 According to said terminal device, the function which concerns on the audio | voice recognition process for the input audio | voice is performed. Here, the function to be executed is determined based on the proximity time of the object. Therefore, the user can easily select a function related to speech recognition only by performing an operation of bringing an object close to the terminal device for a predetermined time, for example, holding a hand (close the hand) to the terminal device.
決定手段は、音声認識処理に係る機能として、近接時間に応じた認識手法による音声認識処理の結果を取得する機能を決定してもよい。これにより、どのような認識手法による音声認識処理の結果を取得するのかを容易に選択することができる。 The determining means may determine a function for acquiring a result of the speech recognition process by a recognition method according to the proximity time as a function related to the speech recognition process. Thereby, it is possible to easily select the recognition method by which the result of the speech recognition process is acquired.
決定手段は、音声認識処理に係る機能として、音声認識処理の結果を用いた機能を決定してもよい。これにより、音声認識処理の結果を用いた機能を容易に選択することができる。 The determining unit may determine a function using a result of the voice recognition process as a function related to the voice recognition process. Thereby, the function using the result of the voice recognition process can be easily selected.
本発明によれば、音声認識処理に係る機能を選択する際に、その選択を容易に行うことが可能になる。 According to the present invention, when selecting a function related to speech recognition processing, the selection can be easily performed.
以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant descriptions are omitted.
図1は、実施形態に係る端末装置の概略構成を示す図である。端末装置10は、ユーザが利用可能な種々の機能を実行可能に構成される。なお、端末装置10は、音声操作デバイスと言うこともできる。これは、端末装置10が実行可能な機能の少なくとも一部が、音声認識処理を用いた操作を伴うからである。そのような機能を端末装置10のユーザが利用する際、端末装置10では、近接センサを利用した後述の原理により、音声認識処理に係る機能(後述の近接時間に応じて定められる特定の音声認識手法による音声認識処理の結果を取得する機能、および音声認識処理の結果を用いた機能)が選択される。
FIG. 1 is a diagram illustrating a schematic configuration of a terminal device according to the embodiment. The
まず、音声認識処理に係る機能として、音声認識処理の結果を用いた機能(アプリケーション)について説明する。そのようなアプリケーションは、音声認識処理を用いたユーザ操作によって利用可能である。ユーザは、端末装置10に物理的に接触して行う操作(タッチパネルやボタンなどの操作)を用いることなく、アプリケーションを利用することができる。アプリケーションの種類はとくに限定されない。本実施形態では、ユーザとの対話を行うアプリケーション(対話アプリ)や、種々のコンテンツを再生してユーザに提供するアプリケーション(コンテンツ提供アプリ)を例に挙げて説明する。コンテンツ提供アプリとしては、音楽を再生するアプリケーション(音楽アプリ)、動画を再生するアプリケーション(動画アプリ)、交通情報の提示や通訳が可能であり旅行の際に役立つようなアプリケーション(旅行アプリ)、商品情報の提示や購買手続が可能であり買物の際に役立つようなアプリケーション(買物アプリ)、天気情報を提示するアプリケーション(天気アプリ)などがある。
First, as a function related to the voice recognition process, a function (application) using the result of the voice recognition process will be described. Such an application can be used by a user operation using voice recognition processing. The user can use the application without using an operation (operation of a touch panel, a button, or the like) performed by physically contacting the
次に、音声認識処理に係る機能として、特定の認識手法(認識モデル)による音声認識処理の結果を取得する機能(取得機能)について説明する。この機能は、利用されるアプリケーション(上述の音楽アプリ、旅行アプリ、買物アプリなど)に応じて、音声認識処理の認識モデルを使い分ける機能と言うこともできる。認識モデルは、音声認識処理にどのような言語モデル(形態素の前後間のつながりやすさを示すモデル)や対話モデル等を用いるかを定めた手法である。音楽アプリが利用される場合には、楽曲の名称や歌手の氏名などに関する音声を精度良く認識するように設計された言語モデル等を用いた認識モデル(音楽用認識モデル)を使用するとよい。旅行アプリが利用される場合には、宿泊施設、観光施設、移動手段などに関する音声を精度良く認識するように設計された言語モデル等を用いた認識モデル(旅行用認識モデル)を使用するとよい。買物アプリが利用される場合には、商品、店舗などに関する音声を精度良く認識するように設計された言語モデル等を用いた認識モデル(買物用認識モデル)を使用するとよい。対話アプリが利用される場合には、ユーザの属性(国籍、年齢、性別など)に応じた対話モデルを用いた認識モデル(対話用認識モデル)を使用するとよい。対話モデルは、ユーザの属性に応じた言語モデルおよび音響モデル(音声の特徴量(メル周波数ケプストラム係数等)と音素(個々の母音・子音)との対応関係を示すモデル)を組み合わせて構築されてもよい。 Next, a function (acquisition function) for acquiring a result of speech recognition processing by a specific recognition method (recognition model) will be described as a function related to the speech recognition processing. This function can also be said to be a function that uses different recognition models for voice recognition processing depending on the application used (the above-mentioned music application, travel application, shopping application, etc.). The recognition model is a method that determines what language model (a model indicating ease of connection between morphemes before and after), an interaction model, and the like are used for speech recognition processing. When a music application is used, it is preferable to use a recognition model (music recognition model) using a language model or the like designed to accurately recognize voices related to the name of a song or the name of a singer. When a travel application is used, it is preferable to use a recognition model (travel recognition model) using a language model or the like designed to accurately recognize voices related to accommodation facilities, tourist facilities, transportation means, and the like. When a shopping application is used, it is preferable to use a recognition model (a recognition model for shopping) using a language model or the like designed to accurately recognize voices related to products, stores, and the like. When a dialogue application is used, a recognition model (a recognition model for dialogue) using a dialogue model according to the user attributes (nationality, age, sex, etc.) may be used. The conversation model is constructed by combining a language model and an acoustic model (a model that shows the correspondence between phonetic features (mel frequency cepstrum coefficients, etc.) and phonemes (individual vowels / consonants)) according to the user's attributes. Also good.
以上のような音声認識処理に係る機能の利用シーンの例について説明する。この例では、上述の音楽アプリが、音楽アプリに適した認識モデル(音楽用認識モデル)による音声認識処理の結果を用いて利用される。前提として、図1に示されるように、端末装置10は、端末装置10の外部に設けられた音声認識サーバ20およびコンテンツサーバ30と通信可能であるものとする。
An example of the usage scene of the function related to the voice recognition processing as described above will be described. In this example, the above-described music application is used by using the result of the speech recognition processing by the recognition model (music recognition model) suitable for the music application. As a premise, as shown in FIG. 1, it is assumed that the
まず、端末装置10のユーザは、端末装置10において、後述の近接センサ11を用いて音声認識処理に係る機能を決定するためのアプリケーション(近接アプリ)を予め起動させておく。たとえば、端末装置10のタッチパネルやボタンなどを用いたユーザ操作により近接アプリの起動が指示されたことに応じて、近接アプリが起動する。なお、そのようなユーザ操作の有無にかかわらず、近接アプリは、端末装置10が動作している間、常時起動していてもよい。この近接アプリを利用することで、ユーザは、次に説明するように、音声認識処理に係る機能を選択して利用することができる。
First, the user of the
端末装置10のユーザは、所定時間、端末装置10に手を近づける(たとえば手をかざす)。一例として、所定時間は0.5秒であり、それに応じて、端末装置10は、音楽用認識モデルによる音声認識処理の実行を開始する(音声認識機能をウェイクアップさせる)。また、端末装置10は、音楽アプリの実行を開始(音楽アプリを起動)する。そして、ユーザは、音声操作によって音楽アプリを利用する。たとえば、ユーザは、再生を希望する音楽の種類を指定するための音声を発する。楽曲を指定するための音声は、楽曲の名称や歌手の氏名など示す音声であってもよい。
The user of the
端末装置10は、ユーザが発した音声を入力する(受け付ける)。端末装置10は、入力した音声を、音声認識サーバ20に送信する。その際、端末装置10は、音声認識処理の認識モデルを音楽用認識モデルとすることを音声認識サーバ20に要求する。音声認識サーバ20は、受信した音声に対し、音楽用認識モデルによる音声認識処理を実行し、その音声認識処理の結果(楽曲の名称等)を得る。音声認識サーバ20は、音声認識の結果を、端末装置10に送信する。
The
端末装置10は、受信(取得)した音声認識処理の結果を用いて音楽アプリを実行する。端末装置10は、コンテンツサーバ30にさまざまなコンテンツの配信の要求を行う。この例では、音声認識処理の結果によって指定された楽曲の再生に必要な情報(楽曲データ)を、端末装置10がコンテンツサーバ30に要求する。端末装置10からの要求に応じて、コンテンツサーバ30は、楽曲データを端末装置10に送信(配信)する。
The
端末装置10は、受信した楽曲データを用いて、その楽曲を再生する。その後ユーザが楽曲の再生の停止を指示するための音声を発した場合には、その音声に対して再び音声認識処理が実行される。音声認識処理の結果すなわち楽曲の再生の停止の指示に応じて、端末装置10は楽曲の再生を停止する。
The
以上のようにして、ユーザは、特定の認識手法(認識モデル)による音声認識処理の結果を取得する機能(取得機能)として、音声用認識モデルによる音声認識処理の結果を取得する機能を選択し、音声認識処理を用いた機能(アプリケーション)として音楽アプリを選択して利用することができる。 As described above, the user selects the function for acquiring the result of the speech recognition process using the speech recognition model as the function (acquisition function) for acquiring the result of the speech recognition process using the specific recognition method (recognition model). The music application can be selected and used as a function (application) using the voice recognition process.
以下、端末装置10について詳述する。図1に示されるように、端末装置10は、近接センサ11と、マイク12と、スピーカ13と、ディスプレイ14とを含む。また、端末装置10は、機能ブロックとして、検出部15と、入力部16と、実行部17と、決定部18とを含む。
Hereinafter, the
近接センサ11は、端末装置10への物体の近接(すなわち自端末装置への物体の近接)を検出するために用いられる。物体の種類はとくに限定されないが、ユーザの手や指といったユーザの身体の一部であることが想定される。そのため、近接センサ11として、人の手や指などの近接が検出可能な種々の公知の近接センサが用いられてよい。近接センサ11が設けられる位置はとくに限定されず、物体が端末装置10に近接しているか否かを検出できる位置であればよい。たとえば物体と端末装置10との間の距離が数mm〜数cmよりも短い場合に、物体の端末装置10への近接が近接センサ11によって検出される。
The
近接センサ11の検出結果は、後述の検出部15に送られる。近接センサ11の検出結果は、端末装置10に近接している物体が存在しているか否かということを示す情報であってよい。近接センサ11の検出結果は、たとえば、近接センサ11が作動している間、リアルタイムあるいは所定の周期で、検出部15に送られる。
The detection result of the
近接センサ11は、先に説明した近接アプリが起動していないときには動作しておらず(OFFとなっており)、近接アプリが起動されたことに応じて動作を開始する(ONとなる)。近接アプリは、後述の実行部17によって実行される。
The
マイク12、スピーカ13およびディスプレイ14は、端末装置10とユーザとの間の情報のやり取りのために用いられる。
The
マイク12は、端末装置10の周囲で発生した音や音声を検出する。たとえば、ユーザが発した音声が、マイク12によって検出され、後述の入力部16に送られる。
The
スピーカ13は、音や音声を出力するために用いられる。音楽アプリの利用時には、楽曲がスピーカ13によって出力される。対話アプリの利用時には、ユーザとの対話を行うための音声がスピーカ13によって出力される。
The
ディスプレイ14は、画像(動画を含む)を出力するために用いられる。動画アプリの利用時には、動画がディスプレイ14によって出力(表示)される。
The
マイク12、スピーカ13、ディスプレイ14の種類は特に限定されず、種々の公知のものを用いることができる。ディスプレイ14には、タッチパネルが用いられてもよい。
The types of the
検出部15は、端末装置10への物体の近接を検出するとともに検出した物体の近接時間を計測する部分(検出手段)である。検出部15は、上述の近接センサ11の検出結果を受けることによって、端末装置10への物体の近接を検出する。近接センサ11から受けた検出結果が、近接物体が存在していることを示す状態(検出状態)であれば、検出部15は、端末装置10への物体の近接を検出する。検出結果が、近接物体が存在していないことを示す状態(非検出状態)であれば、検出部15は、端末装置10への物体の近接を検出しない。
The
検出部15による物体の近接時間の計測は、たとえば以下のように行われる。すなわち、検出部15は、物体が端末装置10に近接した状態になった時から、その物体が端末装置10に近接しなくなった(近接が解除された)時までの時間を、その物体の近接時間としてとして計測する。上述のように近接センサ11の検出結果がリアルタイムあるいは所定の周期で送られて来る場合には、検出部15は、近接センサ11の検出結果が非検出状態から検出状態に切り替わった時と、非検出状態から検出状態に切り替わった時との時間差を、近接時間として計測することができる。たとえば検出部15がタイマ機能を備えていれば、当該タイマ機能を用いて近接時間の計測を行ってもよい。近接時間の計測については、後に図3を参照して改めて説明する。
The measurement of the proximity time of the object by the
入力部16は、マイク12によって検出された音声を入力する部分(入力手段)である。入力部16は、検出部15によって物体の近接が検出されたことに応じて(近接センサ11の検出結果に反応して)、あるいは上述の近接時間が計測されたことに応じて、音声認識処理の対象としての音声の入力を開始する。たとえば、音声認識処理の精度の向上等のために入力された音声からノイズを取り除くフィルタリング処理や、音声認識処理に供するために入力された音声情報を一時的に記憶する記憶処理等が、入力部16によって実行されてもよい。入力部16に入力された音声は、次に説明する実行部17に送られ、音声認識処理の対象となる。
The
実行部17は、入力部16に入力された音声を対象とした音声認識処理に係る機能を実行する部分(実行手段)である。ここで、実行部17が実行する音声認識処理に係る機能は、決定部18によって決定される。
The
決定部18は、検出部15によって計測された近接時間に基づいて、実行部17が実行する音声認識処理に係る機能を決定する部分(決定手段)である。具体的に、決定部18は、近接時間に基づいて、音楽用認識モデル、旅行用認識モデル、買物用認識モデルのような特定の認識モデルによる音声認識処理の結果を取得する機能(取得機能)、および、音楽アプリ、旅行アプリ、買物アプリのような音声認識処理の結果を用いた機能(アプリケーション)を決定する。決定部18の決定結果は、実行部17に送られる。
The determining
近接時間に基づく機能の決定は、たとえば以下のようにして行われる。すなわち、異なる複数の近接時間と各機能とを対応づけて記述した情報(テーブル)を予め作成し、端末装置10内の記憶部(不図示)に格納しておく。具体的に、このテーブルでは、異なる複数の近接時間と、認識モデルと、アプリケーションとが対応づけて記述されている。このようなテーブルを参照することによって、決定部18は、近接時間に基づいて(近接時間に対応した)、音声認識処理に係る機能(取得機能およびアプリケーション)を決定することができる。
The function is determined based on the proximity time, for example, as follows. That is, information (table) in which a plurality of different proximity times and functions are described in association with each other is created in advance and stored in a storage unit (not shown) in the
一例として、近接時間が0.5秒の場合、決定部18は、取得機能を、先に説明したような音楽用認識モデルや買物用認識モデルなどによる音声認識処理の結果を取得する機能に決定してもよい。それとともに、決定部18は、音声認識処理に係る機能(アプリケーション)を音楽アプリや買物アプリなどに決定してもよい。近接時間が1秒の場合、決定部18は、認識モデルを、先に説明したような対話用認識モデルに決定してもよい。それとともに、決定部18は、アプリケーションを対話アプリに決定してもよい。
As an example, when the proximity time is 0.5 seconds, the
近接時間と、決定される音声認識処理に係る機能(取得機能やアプリケーション)との組合せは、上記の例に限られない。後に図3のフローチャートを参照して説明する例では、近接時間が0.5秒未満の場合には取得機能が旅行用認識モデルによる音声認識処理の結果を取得する機能に決定され、そうでない場合には買物用認識モデルによる音声認識処理の結果を取得する機能に決定される。 The combination of the proximity time and the function (acquisition function or application) related to the determined voice recognition process is not limited to the above example. In the example described later with reference to the flowchart of FIG. 3, when the proximity time is less than 0.5 seconds, the acquisition function is determined as the function for acquiring the result of the speech recognition processing by the travel recognition model, and otherwise The function for acquiring the result of the speech recognition processing by the shopping recognition model is determined.
再び実行部17の説明に戻り、実行部17は、決定部18から送られる決定結果に従い、決定部18によって決定された音声認識処理に係る機能を実行する。具体的例として、以下では、音楽アプリが利用される場合について説明する。
Returning to the description of the
ユーザ操作によって音楽アプリを利用するために、実行部17は、入力部16に、音声認識処理の対象としてマイク12からの音声の入力を開始させる。入力部16が入力した音声が実行部17に送られると、実行部17は、この音声を音声認識サーバ20に送信する。また、実行部17は、決定部18によって決定された取得機能における特定の認識モデル(この例では音楽用認識モデル)を指定するための情報(認識モデル指定情報)を、音声認識サーバ20に送信する。
In order to use the music application by a user operation, the
音声認識サーバ20は、実行部17から受信した認識モデル指定情報によって指定された音声認識処理の認識モデル(この例では音楽用認識モデル)により、実行部17から受信した音声に対して音声認識処理を実行する。たとえば、音声認識サーバ20は、認識モデル指定情報によって指定される可能性のある種々の認識モデルにそれぞれ対応した複数の音声認識エンジンを備えている。音声認識サーバ20は、認識モデル指定情報に応じて音声認識エンジンを使い分けることによって、指定された音声認識処理の認識モデル(この例では音楽用認識モデル)による音声認識処理を実行することができる。音声認識処理の結果は、公知の音声認識処理によって得られるものと同様である。たとえば、実行部17から受信した音声に対応した文字列のデータ(テキストデータ)や当該文字列の意味(文字列に含まれる各単語の品詞など)を表す情報が、音声認識処理の結果として得られる。音声認識サーバ20は、音声認識処理の結果を、実行部17に送信する。
The
実行部17は、音声認識サーバ20から受信(取得)した特定の認識モデル(この例では音楽用認識モデル)による音声認識処理の結果を用いた、音楽アプリの操作が行われる。ここでの音声認識処理の結果は、音楽アプリにおいて、特定の楽曲を指定したり、その楽曲の再生を指示したり、その楽曲の再生の停止を指示したりするための種々のコマンドである。音声認識処理の結果が、特定の楽曲の指定および再生の指示である場合、実行部17は、その楽曲データの配信の要求を、コンテンツサーバ30に送信する。
The
コンテンツサーバ30は、実行部17から受信した要求に応じて、楽曲データを取得する。たとえば、コンテンツサーバ30は、実行部17から要求される可能性のある種々のコンテンツ情報を格納した記憶部(不図示)を備えている。その場合、コンテンツサーバ30は、要求に応じたコンテンツ情報を記憶部から取得する。この例では、コンテンツサーバ30は、記憶部に格納されている種々の楽曲データから上記の楽曲データを取得する。コンテンツサーバ30は、取得した楽曲データを実行部17に送信する。
The
実行部17は、コンテンツサーバ30から受信した楽曲データを用いて、その楽曲を再生する。具体的に、実行部17は、スピーカ13にその楽曲を出力させる。
The
以上は音楽アプリが利用される際に実行される処理の一例であるが、旅行アプリ、買物アプリ、対話アプリなどが利用される場合も同様に、実行部17は、入力部16、音声認識サーバ20およびスピーカ13と協働することによってそれらのアプリを実行することができる。ディスプレイ14とも協働すれば、実行部17は、ユーザに画像を提供するといったこともできる。
The above is an example of processing executed when a music application is used. Similarly, when a travel application, a shopping application, a dialogue application, or the like is used, the
図2は、端末装置10のハードウェア構成を示す。図2に示されるように、端末装置10は、1つ以上のCPU(Central Processing Unit)101、主記憶装置であるRAM(Random Access Memory)102およびROM(Read Only Memory)103、操作モジュール(操作部)104、通信モジュール(通信部)105、先に説明した近接センサ11、マイク12、スピーカ13、ディスプレイ14等のハードウェアにより構成されている。通信モジュール105が無線通信を行う場合には、アンテナ107がさらに追加される。これらの構成要素がプログラム等により動作することで、先に図1を参照して説明した端末装置10の各機能が発揮される。
FIG. 2 shows a hardware configuration of the
図3は、端末装置10において実行される処理の一例を示すフローチャートである。この例では、処理の開始時には、端末装置10に近接している物体は存在しないものとする。
FIG. 3 is a flowchart illustrating an example of processing executed in the
ステップS1において、端末装置10では、近接センサがONとされる。この処理は、たとえば、タッチパネルやボタンなどのユーザ操作により近接アプリの起動が指示されたことに応じて、実行部17が実行する。近接センサ11がONになると、近接センサ11の検出結果が検出部15へ送られる。上述のように、このフローチャートの処理の開始時には端末装置10に近接している物体は存在しないので、ここでは、検出部15に送られる近接センサ11の検出結果は非近接状態となっている。
In step S1, in the
ステップS2において、近接物体が有るか否かが判断される。この判断は、検出部15が、近接センサ11の検出結果に基づき近接物体が存在しているか否かを判断することによって行う。具体的に、近接センサ11の検出結果が非近接状態から近接状態に切り替わると、検出部15は、近接物体が有る(物体の近接の検出を開始した)と判断する。近接物体が有る場合(ステップS2:YES)、ステップS3に処理が進められる。そうでない場合(ステップS2:NO)、再びステップS2の処理が実行される。その際、所定の待ち時間処理が待機された後に再びステップS2の処理が実行されてもよい。
In step S2, it is determined whether or not there is a close object. This determination is performed by the
ステップS3において、近接時間の計測が開始される。具体的に、検出部15が、先のステップS2において近接の検出が開始されたタイミングを開始時点として、近接時間の計測を開始する。
In step S3, the measurement of the proximity time is started. Specifically, the
ステップS4において、近接物体が無いか否かが判断される。この判断は、検出部15が、近接センサ11の検出結果に基づき近接物体が存在しているか否かを判断することによって行う。検出結果が依然として近接状態である場合には、検出部15は、近接物体が有ると判断する。検出結果が非近接状態となった場合には、検出部15は、近接物体は無いと判断する。近接物体が無い(検出が継続しなくなった)場合(ステップS4:YES)、ステップS6に処理が進められる。そうでない場合(ステップS4:NO)、ステップS5に処理が進められる。
In step S4, it is determined whether or not there is a close object. This determination is performed by the
ステップS5において、所定期間、近接時間の計測が継続される。この間は、検出部15が上述の計測を継続する。所定期間の長さは、たとえば計測しようとする近接時間の最小の単位(分解能)として設定してもよい。ステップS5の処理が完了した後、ステップS4に再び処理が戻される。
In step S5, the measurement of the proximity time is continued for a predetermined period. During this time, the
ステップS6において、近接時間の計測が終了される。具体的に、検出部15が、先のステップS4において近接物体が無くなった(近接の検出が継続しなくなった)タイミングを終了時点として、近接時間の計測を終了する。ステップS3において近接時間の計測を開始した時点からこのステップS6において近接時間の計測を終了した時点までの時間が、近接時間として計測されることになる。
In step S6, the measurement of the proximity time is terminated. Specifically, the
ステップS7において、近接時間が予め定められた閾値未満であるか否かが判断される。この例では、閾値は0.5秒である。具体的に、決定部18が、上記計測した近接時間が閾値未満であるか否かを判断する。近接時間が閾値未満の場合(ステップS7:YES)、ステップS8に処理が進められる。そうでない場合(ステップS7:NO)、ステップS9に処理が進められる。
In step S7, it is determined whether or not the proximity time is less than a predetermined threshold value. In this example, the threshold is 0.5 seconds. Specifically, the
ステップS8において、音声認識処理の認識手法(認識モデル)が旅行用(つまり旅行用認識モデル)に決定される。具体的に、決定部18が、特定の認識手法(認識モデル)による音声認識処理の結果を取得する機能(取得機能)を、旅行用認識モデルによる音声認識処理の結果を取得する機能に決定する。また、決定部18は、音声認識処理の結果を用いた機能(アプリケーション)を旅行アプリに決定する。ステップS8処理が完了した後、ステップS10に処理が進められる。
In step S8, the recognition method (recognition model) of the speech recognition process is determined for travel (that is, travel recognition model). Specifically, the
ステップS9において、音声認識処理の認識手法(認識モデル)が買物用(つまり買物用認識モデル)に決定される。具体的に、決定部18が、取得機能を、買物用認識モデルによる音声認識処理の結果を取得する機能に決定する。また、決定部18は、アプリケーションを買物アプリに決定する。ステップS9の処理が完了した後、ステップS10に処理が進められる。
In step S9, the recognition method (recognition model) of the speech recognition process is determined for shopping (that is, the shopping recognition model). Specifically, the
ステップS10において、音声認識が開始される。具体的に、実行部17が、入力部16に、音声認識処理の対象としてマイク12からの音声の入力を開始させる。そして、実行部17は、先のステップS8またはS9で決定部18によって決定された音声認識処理に係る機能の実行を開始する。先に説明したように、実行部17が、音声認識サーバ20、コンテンツサーバ30、マイク12、スピーカ13、ディスプレイ14等と協働することによって、決定した認識モデル(この例では旅行用認識モデルまたは買物用認識モデル)による音声認識処理を実行し、音声認識処理の結果を取得する。また、その音声認識処理の結果を用いて、決定したアプリケーション(この例では旅行用アプリまたは買物用アプリ)を実行する。
In step S10, voice recognition is started. Specifically, the
以上説明した端末装置10によれば、物体の近接時間に基づいて実行すべき音声認識処理に係る機能が決定され(ステップS7〜S9)、入力された音声を対象として、決定された音声認識処理に係る機能が実行される(ステップS10)。よって、端末装置10のユーザは、所定時間、端末装置10の近くに物体を近接させる、たとえば端末装置10に手をかざすといった動作を行うだけで、音声認識に係る機能を容易に選択することができる。
According to the
音声認識処理に係る機能として、近接時間に応じた認識手法(近接時間に応じて定められる特定の認識モデル)による音声認識処理の結果を取得する機能(取得機能)が決定される(ステップS8、S9)。具体的に、取得機能が、旅行用認識モデルによる音声認識処理の結果を取得する機能に決定されたり(ステップS8)、買物用認識モデルによる音声認識処理の結果を取得する機能に決定されたりする(ステップS9)。これにより、端末装置10のユーザは、どのような認識モデルによる音声認識処理の結果を取得するのかを容易に選択することができる。
As a function related to the speech recognition process, a function (acquisition function) for acquiring the result of the speech recognition process by the recognition method according to the proximity time (a specific recognition model determined according to the proximity time) is determined (Step S8, S9). Specifically, the acquisition function is determined to be a function for acquiring the result of the speech recognition processing by the travel recognition model (step S8), or determined to be a function for acquiring the result of the speech recognition processing by the shopping recognition model. (Step S9). Thereby, the user of the
また、音声認識処理に係る機能として、旅行アプリや買物アプリといった、音声認識処理の結果を用いた機能(アプリケーション)が決定される(ステップS8、S10)。これにより、端末装置10のユーザは、アプリケーションを利用するかを容易に選択することができる。
In addition, as a function related to the voice recognition process, a function (application) using a result of the voice recognition process such as a travel application or a shopping application is determined (steps S8 and S10). Thereby, the user of the
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものでない。 As mentioned above, although one Embodiment of this invention was described, this invention is not limited to the said embodiment.
上記実施形態では、決定部18は、特定の認識手法(認識モデル)による音声認識処理の結果を取得する機能(取得機能)および音声認識処理の結果を用いた機能(アプリケーション)の両方を近接時間に基づいて決定する例について説明した。ただし、取得機能およびアプリケーションの一方のみが近接時間に基づいて決定され、他方については予め定められた認識モデルまたはアプリケーションとされてもよい。
In the above-described embodiment, the
上記実施形態では、近接時間に基づいて決定される音声認識処理に係る機能は2種類であったが、3種類以上の機能が近接時間に基づいて決定されてもよい。一例として、近接時間が第1の閾値未満の場合には、特定の認識モデルによる音声認識処理の結果を取得する機能(取得機能)を第1の取得機能(たとえば旅行用認識モデルによる音声認識処理の結果を取得する機能)に決定し、近接時間が第1の閾値以上であり第2の閾値未満である場合には、第2の取得機能(たとえば買物用認識モデルによる音声認識処理の結果を取得する機能)に決定し、近接時間がそれ以外の場合(第2の閾値以上の場合)には、第3の取得機能(たとえば音楽用認識モデルや対話用認識モデルによる音声認識処理の結果を取得する機能)に決定してもよい。音声認識処理の結果を用いた機能(旅行アプリ、買物アプリ、対話アプリ、音楽アプリなど)の決定についても同様とすることができる。 In the above-described embodiment, there are two types of functions related to the speech recognition process determined based on the proximity time. However, three or more types of functions may be determined based on the proximity time. As an example, when the proximity time is less than the first threshold, the function (acquisition function) for acquiring the result of the speech recognition process by the specific recognition model is changed to the first acquisition function (for example, the speech recognition process by the travel recognition model). If the proximity time is greater than or equal to the first threshold and less than the second threshold, the second acquisition function (for example, the result of the speech recognition process using the shopping recognition model) If the proximity time is other than that (second threshold or more), the result of the speech recognition processing by the third acquisition function (for example, the music recognition model or the conversation recognition model) is determined. The function to obtain may be determined. The same can be applied to the determination of functions (travel application, shopping application, dialogue application, music application, etc.) using the result of the voice recognition processing.
また、上記実施形態では、近接時間が閾値未満であるか否かという閾値判断を用いて音声認識処理に係る機能を決定していたが、それ以外の判断基準が用いられてもよい。一例として、近接時間が設定範囲内であるか否かに基づいて音声認識処理に係る機能を決定してもよい。 Moreover, in the said embodiment, although the function which concerns on a speech recognition process was determined using the threshold value judgment whether proximity | contact time is less than a threshold value, other criteria may be used. As an example, a function related to speech recognition processing may be determined based on whether or not the proximity time is within a set range.
また、上記実施形態では、複数の音声認識エンジンを備えた一つの音声認識サーバ20を端末装置10が用い、近接時間に応じて音声認識エンジンを変えることで音声認識処理の認識手法(認識モデル)が切り替えられていたが、異なる音声認識エンジンを備えた複数の音声認識サーバを、端末装置10が近接時間に応じて選択して用いることによって、認識モデルが切り替えられてもよい。同様に、近接時間に応じて、異なる種類のコンテンツ情報を記憶部に格納した複数のコンテンツサーバが選択的に用いられてもよい。
Moreover, in the said embodiment, the
また、上記実施形態では、音声認識処理に係る機能が利用される際、音声認識処理やコンテンツを取得するための処理が、音声認識サーバ20およびコンテンツサーバ30といった端末装置10の外部に設けられたサーバによって実行されていたが、音声認識サーバ20およびコンテンツサーバ30によって実行される処理の少なくとも一部の処理を、端末装置10内で実行できるようにしてもよい。その場合、端末装置10の実行部17が、音声認識サーバ20およびコンテンツサーバ30の機能の少なくとも一部を実行可能に構成されてもよい。
Moreover, in the said embodiment, when the function which concerns on a speech recognition process is utilized, the process for acquiring a speech recognition process and a content was provided outside the
また、端末装置10においては、先に図3を参照して説明したように、近接時間に応じて音声認識処理に係る機能が決定されるまで(図3のステップS10よりも前)は、入力部16による音声の入力が開始されない。それまでの間は、先に説明した入力部16による音声認識処理のための入力された音声からノイズを取り除くフィルタリング処理や、入力された音声情報を一時的に記憶する記憶処理等が実行されないので(入力部16の動作がオフになるので)、その分、消費電力の低減を図ることができる。
Further, in the
一部のアプリ(音楽アプリや対話アプリなど)は、ディスプレイ14による画像の出力を必要としないこともある。そのようなアプリが利用されている間は、端末装置10のディスプレイ14を表示しないようにする(オフにする)制御が行われてもよい。この制御は、実行部17により行われてもよい。このようにディスプレイ14のオフ時(消灯時)にアプリを利用すれば、ディスプレイ14のオン時(点灯時)にアプリを利用する場合よりも、ディスプレイ14の消費電力の分だけ、端末装置10の消費電力を低減することができる。
Some apps (such as a music app and a dialogue app) may not require image output by the
また、端末装置10において既に音楽や動画などのコンテンツが再生されている状態で、検出部15によって物体の近接が検出され、近接時間が検出された場合には、そのコンテンツの再生を中断してもよい。具体的に、コンテンツが再生されている間に、図3に示されるステップS2において近接物体が検出され(ステップS2:YES)、その後、各ステップでの処理が進み、ステップS8またはステップS9の処理が完了した場合には、その時点でコンテンツの再生が中断された後に、ステップS10の処理が実行されるようにしてもよい。これにより、ユーザは、すでに実行されている機能(この例ではコンテンツの再生)に優先して、音声認識処理に係る機能をあらたに選択して利用することができるようになる。
In addition, when content such as music or video is already being played on the
以上説明した端末装置は、ユーザの手が濡れているために、ユーザが端末装置に触れて端末装置を操作することができないようなシーンでも利用可能である。より好ましくは、端末装置10は、ディスプレイ14に画面ロックが掛かっている状態(データ入力や画面出力が制限されている状態)であっても、音声処理に係る機能が選択され実行されるようにしておくとよい。これにより、ユーザは、画面ロックを解除するための操作(端末装置に触れてロック解除コードを入力するような操作)を行うことなく、音声認識処理に係る機能を選択して利用することができるようになる。
Since the user's hand is wet, the terminal device described above can be used in a scene where the user cannot touch the terminal device to operate the terminal device. More preferably, the
10…端末装置、11…近接センサ、12…マイク、13…スピーカ、14…ディスプレイ、15…検出部、16…入力部、17…実行部、18…決定部、20…音声認識サーバ、30…コンテンツサーバ。
DESCRIPTION OF
Claims (3)
音声を入力する入力手段と、
前記入力手段によって入力された音声を対象とした音声認識処理に係る機能を実行する実行手段と、
前記検出手段によって計測された近接時間に基づいて、前記実行手段が実行する音声認識処理に係る機能を決定する決定手段と、
を備える、
端末装置。 Detecting means for detecting the proximity of the object to the terminal device and measuring the proximity time of the detected object;
An input means for inputting voice;
Execution means for executing a function related to voice recognition processing for voice input by the input means;
A determination unit that determines a function related to a voice recognition process executed by the execution unit based on a proximity time measured by the detection unit;
Comprising
Terminal device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016049342A JP2017167600A (en) | 2016-03-14 | 2016-03-14 | Terminal device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016049342A JP2017167600A (en) | 2016-03-14 | 2016-03-14 | Terminal device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017167600A true JP2017167600A (en) | 2017-09-21 |
Family
ID=59913810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016049342A Pending JP2017167600A (en) | 2016-03-14 | 2016-03-14 | Terminal device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017167600A (en) |
-
2016
- 2016-03-14 JP JP2016049342A patent/JP2017167600A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7379752B2 (en) | Voice trigger for digital assistant | |
US10068573B1 (en) | Approaches for voice-activated audio commands | |
JP6570651B2 (en) | Voice dialogue apparatus and voice dialogue method | |
JP3674990B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
CN108615526A (en) | The detection method of keyword, device, terminal and storage medium in voice signal | |
JP5637131B2 (en) | Voice recognition device | |
JP2001083991A (en) | User interface device, navigation system, information processing device and recording medium | |
EP3210205A1 (en) | Sound sample verification for generating sound detection model | |
CN112735429B (en) | Method for determining lyric timestamp information and training method of acoustic model | |
CN111524501A (en) | Voice playing method and device, computer equipment and computer readable storage medium | |
JP7330066B2 (en) | Speech recognition device, speech recognition method and its program | |
US9791925B2 (en) | Information acquisition method, information acquisition system, and non-transitory recording medium for user of motor vehicle | |
CN112906369A (en) | Lyric file generation method and device | |
JP6481643B2 (en) | Audio processing system and audio processing method | |
CN108352167B (en) | Vehicle speech recognition including wearable device | |
JP2017167600A (en) | Terminal device | |
JP2008014756A (en) | Navigation device and its voice output method | |
CN111640432B (en) | Voice control method, voice control device, electronic equipment and storage medium | |
JP2008310344A (en) | Presentation device and presentation method | |
JP2005283646A (en) | Speech recognition rate estimating apparatus | |
CN112823047A (en) | System and apparatus for controlling web applications | |
JP6559051B2 (en) | Robot apparatus having utterance function, utterance control method, and program | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
JPWO2019058453A1 (en) | Voice dialogue control device and voice dialogue control method | |
JP6221253B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device |