JP2015069086A - Voice recognition device and voice recognition program - Google Patents
Voice recognition device and voice recognition program Download PDFInfo
- Publication number
- JP2015069086A JP2015069086A JP2013204500A JP2013204500A JP2015069086A JP 2015069086 A JP2015069086 A JP 2015069086A JP 2013204500 A JP2013204500 A JP 2013204500A JP 2013204500 A JP2013204500 A JP 2013204500A JP 2015069086 A JP2015069086 A JP 2015069086A
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- sound
- result
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Details Of Television Systems (AREA)
Abstract
Description
本発明は、音声認識が可能な音声認識装置および音声認識プログラムに関する。 The present invention relates to a voice recognition device and a voice recognition program capable of voice recognition.
従来、ユーザの頭部に装着され、ユーザが視認可能に画像を表示できる画像表示装置において、ユーザが発する音声に基づいて、装置を制御できる技術が知られている(例えば、特許文献1参照)。特許文献1に記載のヘッドマウントディスプレイ(以下、「HMD」という。)は、音声信号処理回路を備える。音声信号処理回路は、ユーザの口近くに位置するマイクロフォン(以下、「マイク」と略す。)を通じて入力されたユーザの音声を取得し、所定の音声認識処理を行う。音声認識処理の結果が、事前に登録された登録キーワードに一致するとき、HMDは、画像表示部に表示する画像を切り替える。音声信号処理回路は、音声制御切り換えスイッチがオン操作されたときに音声認識処理を行い、音声制御切り換えスイッチがオフ操作されたときは音声認識処理を行わない。音声制御切り換えスイッチはマイクの近傍に位置し、ユーザにより操作される。
2. Description of the Related Art Conventionally, in an image display device that is mounted on a user's head and can display an image so that the user can see the image, a technology that can control the device based on a voice uttered by the user is known (for example, see Patent Document 1). . The head mounted display (hereinafter referred to as “HMD”) described in
しかしながら、特許文献1の記載のHMDでは、ユーザは音声制御切り換えスイッチを手動で操作することによって、音声認識処理のオン・オフの切り換えをする必要があった。このため、ハンズフリーで音声認識処理を実行させることができず、HMDの特長の一つであるハンズフリーでの操作性が損なわれるという問題点があった。
However, in the HMD described in
本発明は、ハンズフリーで音声認識処理を実行可能な音声認識装置および音声認識プログラムを提供することを目的とする。 An object of the present invention is to provide a speech recognition apparatus and a speech recognition program capable of performing speech recognition processing in a hands-free manner.
本発明の第一態様に係る音声認識装置は、入力された音声に応じて音声データを出力するマイクから出力された第一音声データを取得する第一音声取得手段と、前記第一音声取得手段によって取得された前記第一音声データに対応する第一音量値を決定する第一音量決定手段と、前記第一音量値が第一基準値より大きいか否かを判断する第一音量判断手段と、前記第一音量判断手段によって前記第一音量値が前記第一基準値より大きいと判断された場合、前記第一音声データの後に前記マイクから出力された第二音声データを取得する第二音声取得手段と、前記第二音声取得手段によって取得された前記第二音声データに基づいて、前記第二音声データに対応する第一結果データを生成する第一生成手段と、前記第一生成手段によって生成された前記第一結果データに特定の単語に対応する基準データが含まれるか否かを判断する第一結果判断手段と、前記第一結果判断手段によって前記第一結果データに前記基準データが含まれると判断された場合、前記第二音声データの後に前記マイクから出力された第三音声データを取得する第三音声取得手段と、前記第三音声取得手段によって取得された前記第三音声データに対して音声認識処理を実行することで、対応するテキストデータを示す第二結果データを生成する第二生成手段と、所定のテキストデータで示される操作データと、処理についてのデータである処理データとが対応付けられた対応データを参照し、前記第二生成手段によって生成された前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれるか否かを判断する第二結果判断手段と、前記第二結果判断手段によって、前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれると判断された場合、前記第二結果データによって示されるテキストデータに同一のデータが含まれると判断された前記操作データに対応付けられた前記処理データに基づく処理を実行する実行手段とを備える。 The voice recognition device according to the first aspect of the present invention includes a first voice acquisition unit that acquires first voice data output from a microphone that outputs voice data according to input voice, and the first voice acquisition unit. First sound volume determining means for determining a first sound volume value corresponding to the first sound data acquired by the first sound volume determining means, and first sound volume determining means for determining whether or not the first sound volume value is larger than a first reference value. When the first sound volume determining means determines that the first sound volume value is greater than the first reference value, the second sound for obtaining the second sound data output from the microphone after the first sound data An acquisition unit; a first generation unit that generates first result data corresponding to the second audio data based on the second audio data acquired by the second audio acquisition unit; and a first generation unit. Generated In addition, the first result determining means for determining whether or not the first result data includes reference data corresponding to a specific word, and the first result data includes the reference data in the first result data. The third sound acquisition means for acquiring the third sound data output from the microphone after the second sound data, and the third sound data acquired by the third sound acquisition means. The second generation means for generating the second result data indicating the corresponding text data, the operation data indicated by the predetermined text data, and the processing data that is the data about the processing are performed by executing the voice recognition process. Referring to the associated correspondence data, the text data indicated by the second result data generated by the second generation means is the same as the operation data The second result judging means for judging whether or not data is included and the second result judging means determine that the text data indicated by the second result data includes the same data as the operation data. In this case, an execution unit that executes processing based on the processing data associated with the operation data determined to include the same data in the text data indicated by the second result data.
本発明の第一態様に係る音声認識装置は、第一音量判断手段によって第一音量値が第一基準値より大きいか否かをまず判断する。次いで、第一基準値よりも大きいと判断された場合に、第二音声データに基づいて生成された第一結果データに、特定の単語に対応する基準データが含まれるか判断する。第一結果データに、特定の単語に対応する基準データが含まれる場合、第三音声データに対して音声認識処理が実行されて第二結果データが生成され、生成された第二結果データに基づいて音声認識装置の制御が実行される。このため、ユーザは第一音声データに対応する音声および第二音声データに対応する音声の発声によって、第三音声データに基づく音声認識処理をハンズフリーで音声認識装置に実行させることができる。 The speech recognition apparatus according to the first aspect of the present invention first determines whether or not the first volume value is greater than the first reference value by the first volume determination means. Next, when it is determined that the value is larger than the first reference value, it is determined whether or not the reference data corresponding to the specific word is included in the first result data generated based on the second sound data. When the first result data includes reference data corresponding to a specific word, voice recognition processing is performed on the third voice data to generate second result data. Based on the generated second result data Then, the voice recognition device is controlled. For this reason, the user can cause the voice recognition apparatus to perform voice recognition processing based on the third voice data in a hands-free manner by uttering voice corresponding to the first voice data and voice corresponding to the second voice data.
前記音声認識装置は、前記第一音量判断手段によって前記第一音量値が前記第一基準値より大きいと判断された場合、前記第一音量値が前記第一基準値よりも大きくなる期間である第一期間が所定の範囲内であるか否かを判断する第一期間判断手段を備えてもよい。前記第一生成手段は、前記第一期間判断手段によって前記第一期間が前記所定の範囲内であると判断された場合、前記第一結果データの生成を行ってもよい。前記第一期間が前記所定の範囲内でないと判断された場合、前記第一結果データの生成を行わなくてもよい。 The voice recognition device is a period in which the first volume value is greater than the first reference value when the first volume determination unit determines that the first volume value is greater than the first reference value. You may provide the 1st period judgment means which judges whether a 1st period is in a predetermined range. The first generation unit may generate the first result data when the first period determination unit determines that the first period is within the predetermined range. When it is determined that the first period is not within the predetermined range, the first result data need not be generated.
音声認識装置の誤作動を防ぎ、また、音声による音声認識装置の操作性を向上する観点から、第一音声データに対応する音声は、任意の音声とするのではなく、所定の音声とすることが考えられる。第一音声データに対応する音声が所定の音声である場合、その所定の音声が発声されるために必要な時間の範囲は予測できる。音声認識装置は、第一期間が所定の範囲内でない場合には、第一音声データに対応する音声が所定の音声でないとみなして、第一生成手段による第一結果データの生成を回避できる。従って音声認識装置は、処理の単純化および所定の音声以外の音声によって第一生成手段以降における処理が誤って実行されて音声認識装置が誤作動することを防止できる。 From the viewpoint of preventing malfunction of the voice recognition device and improving the operability of the voice recognition device by voice, the voice corresponding to the first voice data should be a predetermined voice, not an arbitrary voice. Can be considered. When the sound corresponding to the first sound data is a predetermined sound, the time range required for the predetermined sound to be uttered can be predicted. When the first period is not within the predetermined range, the voice recognition device regards that the voice corresponding to the first voice data is not the predetermined voice, and can avoid the generation of the first result data by the first generation unit. Therefore, the voice recognition device can prevent the voice recognition device from malfunctioning due to simplification of processing and erroneous execution of processing after the first generation means due to voices other than the predetermined voice.
第一態様は、前記第一音量判断手段によって前記第一音量値が前記第一基準値より大きいと判断された場合、前記第二音声取得手段によって取得された前記第二音声データに対応する第二音量値を決定する第二音量決定手段と、前記第二音量値が第二基準値より大きいか否かを判断する第二音量判断手段と、前記第二音量判断手段によって前記第二音量値が前記第二基準値より大きいと判断された場合、前記第二音量値が前記第二基準値より大きいと判断された時点から経過する一定時間を計測可能な計測手段と、前記第二音量値が第三基準値より小さいか否かを判断する第二音声終了判断手段とを備えてもよい。前記第一生成手段は、前記計測手段によって計測される前記一定時間内に、前記第二音声終了判断手段によって前記第二音量値が前記第三基準値より小さいと判断されない場合、前記第一結果データの生成を行わなくてもよい。 In the first aspect, when the first volume determination unit determines that the first volume value is larger than the first reference value, the first mode corresponds to the second audio data acquired by the second audio acquisition unit. A second volume determination means for determining a second volume value; a second volume determination means for determining whether the second volume value is greater than a second reference value; and the second volume value by the second volume determination means. Is determined to be greater than the second reference value, the measuring means capable of measuring a certain time elapsed from the time when the second sound volume value is determined to be greater than the second reference value, and the second sound volume value And a second voice end judging means for judging whether or not is smaller than a third reference value. If the second sound value is not determined to be smaller than the third reference value by the second sound end determining means within the certain time measured by the measuring means, the first generating means is the first result. It is not necessary to generate data.
第一音声データに対応する音声と同様に、第二音声データに対応する音声もまた、任意の音声とするのではなく、特定の単語を示す音声とすることが考えられる。第二音声データに対応する音声として特定の単語を示す音声が発声されるために必要な時間の範囲は予測できる。音声認識装置は、第二音量値が第二基準値より大きい場合、第二音声データに対応する音声として特定の単語を示す音声が発声されたとみなし、その時点からの経過時間を計測する。経過時間内に第二音量値が第三基準値を下回らない場合には、第二音声データに対応する音声が所定の音声でないとみなして、第一生成手段による第一結果データの生成を回避できる。即ち、第一結果判断手段による判断を行うよりも前に、特定の結果以外の第一結果データが生成されると見込まれる第二音声データに係る以降の処理を排除することができる。従って音声認識装置は、処理の単純化および処理の効率化を図ることができる。 Similar to the voice corresponding to the first voice data, the voice corresponding to the second voice data is also considered to be a voice indicating a specific word, not an arbitrary voice. The time range required for the voice indicating a specific word to be uttered as the voice corresponding to the second voice data can be predicted. When the second sound volume value is larger than the second reference value, the voice recognition device considers that a voice indicating a specific word is uttered as the voice corresponding to the second voice data, and measures the elapsed time from that time. If the second volume value does not fall below the third reference value within the elapsed time, it is assumed that the sound corresponding to the second sound data is not a predetermined sound, and the generation of the first result data by the first generating means is avoided. it can. That is, prior to performing the determination by the first result determination means, it is possible to eliminate subsequent processing relating to the second audio data that is expected to generate the first result data other than the specific result. Therefore, the speech recognition apparatus can simplify processing and increase processing efficiency.
前記第一生成手段は、前記第一音量判断手段によって前記第一音量値が前記第一基準値よりも大きいと判断された後の所定期間内に、前記第二音量判断手段によって前記第二音量値が前記第二基準値より大きいと判断されない場合、前記第一結果データの生成を行わなくてもよい。 The first generation means includes the second volume determination means by the second volume determination means within a predetermined period after the first volume determination means determines that the first volume value is greater than the first reference value. If it is not determined that the value is greater than the second reference value, the first result data may not be generated.
第三音声データに基づく音声認識処理を音声認識装置に実行させるため、ユーザは第一音声データに対応する所定の音声と、第二音声データに対応する特定の単語を示す音声を発声する。ユーザが第一音声データに対応する所定の音声を発声した後、一定時間経過しても第二音声データに対応する音声を発声しない場合、ユーザには第三音声データに基づく音声認識処理を音声認識装置に実行させる意思がないと考えられる。音声認識装置は、第一音量値が第一基準値より大きいと判断された後の一定期間内に第二音量値が第二基準値よりも大きいと判断されない場合、ユーザに第二音声データに対応する音声が発声されないとみなして、第一生成手段による第一結果データの生成を回避できる。従って音声認識装置は、処理の単純化および第二音声データの取得待機を継続することによる処理遅延を防止できる。 In order to cause the voice recognition apparatus to execute voice recognition processing based on the third voice data, the user utters a predetermined voice corresponding to the first voice data and a voice indicating a specific word corresponding to the second voice data. If the user does not utter the sound corresponding to the second sound data after a predetermined time has elapsed after the user utters the predetermined sound corresponding to the first sound data, the user is subjected to sound recognition processing based on the third sound data. It is thought that there is no intention to make the recognition device execute. If the second sound volume value is not determined to be greater than the second reference value within a certain period of time after the first sound volume value is determined to be greater than the first reference value, the voice recognition device sends the second sound data to the user. Assuming that the corresponding voice is not uttered, generation of the first result data by the first generation means can be avoided. Therefore, the speech recognition apparatus can prevent processing delay due to simplification of processing and continuing to wait for acquisition of the second speech data.
前記音声認識装置は、前記基準データが前記操作データであり、前記基準データと前記処理データとが対応付けられた第一対応データおよび前記第一対応データとは異なる第二対応データを記憶する記憶手段を備えてもよい。前記第一生成手段は、前記第二音声データに対して音声認識処理を実行することで、対応するテキストデータを示す前記第一結果データを生成してもよい。前記第一結果判断手段は、前記第一対応データを参照し、前記第一生成手段によって生成された前記第一結果データによって示されるテキストデータに前記基準データと同一のデータが含まれるか否かを判断してもよい。前記第二結果判断手段は、前記第二対応データを参照し、前記第二生成手段によって生成された前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれるか否かを判断してもよい。 The voice recognition device stores the first correspondence data in which the reference data is the operation data, the reference data and the processing data are associated with each other, and the second correspondence data different from the first correspondence data. Means may be provided. The first generation unit may generate the first result data indicating the corresponding text data by executing a voice recognition process on the second voice data. The first result determination means refers to the first correspondence data, and whether or not the text data indicated by the first result data generated by the first generation means includes the same data as the reference data May be judged. The second result determination means refers to the second correspondence data, and whether or not the text data indicated by the second result data generated by the second generation means includes the same data as the operation data. May be judged.
この場合、第一結果判断手段は第一対応データを参照し、第一結果データによって示されるテキストデータに基準データと同一のデータが含まれるか否かを判断する。また、第二結果判断手段は、第二対応データを参照し、第二結果データによって示されるテキストデータに操作データと同一のデータが含まれるか否かを判断する。第一結果判断手段における判断と、第二結果判断手段における判断とで、参照する対応データを切り替えることで、第一結果判断手段および第二結果判断手段における判断の精度をそれぞれ向上させることができる。よって、より確実に、音声認識装置の制御を行うことができる。 In this case, the first result determination means refers to the first correspondence data and determines whether or not the text data indicated by the first result data includes the same data as the reference data. Further, the second result determining means refers to the second correspondence data and determines whether or not the text data indicated by the second result data includes the same data as the operation data. By switching the corresponding data to be referred to between the judgment in the first result judging means and the judgment in the second result judging means, the accuracy of judgment in the first result judging means and the second result judging means can be improved. . Therefore, the voice recognition apparatus can be controlled more reliably.
前記第一対応データに含まれる前記基準データと前記処理データとの組の数は、前記第二対応データに含まれる前記操作データと前記処理データとの組の数よりも少なくてもよい。この場合、第一対応データに含まれる基準データと処理データとの組の数は、第二対応データに含まれる操作データと処理データとの組の数よりも少ないため、特に第一結果判断手段における判断の精度と判断処理の迅速性を向上できる。 The number of sets of the reference data and the processing data included in the first correspondence data may be smaller than the number of sets of the operation data and the processing data included in the second correspondence data. In this case, since the number of sets of reference data and processing data included in the first correspondence data is smaller than the number of sets of operation data and processing data included in the second correspondence data, the first result determination means in particular The accuracy of judgment and the speed of judgment processing can be improved.
前記第一基準値は前記第二基準値よりも大きくてもよい。この場合、第一基準値は第二基準値よりも大きいため、音声認識装置に第三音声に基づく種々の処理を実行させるためには、ユーザは第二音声データに対応する音声よりも第一音声データに対応する音声を大きく発声する必要がある。これにより、第一音声データに基づいて種々の処理が誤って実行されることを防止できる。 The first reference value may be larger than the second reference value. In this case, since the first reference value is larger than the second reference value, in order to cause the voice recognition apparatus to execute various processes based on the third voice, the user needs to select the first voice from the voice corresponding to the second voice data. It is necessary to utter a loud voice corresponding to the voice data. Thereby, it is possible to prevent various processes from being erroneously executed based on the first audio data.
本発明の第二態様に係る音声認識プログラムは、入力された音声に応じて音声データを出力するマイクから出力された第一音声データを取得する第一音声取得ステップと、前記第一音声取得ステップにおいて取得された前記第一音声データに対応する第一音量値を決定する第一音量決定ステップと、前記第一音量値が第一基準値より大きいか否かを判断する第一音量判断ステップと、前記第一音量判断ステップにおいて前記第一音量値が前記第一基準値より大きいと判断された場合、前記第一音声データの後に前記マイクから出力された第二音声データを取得する第二音声取得ステップと、前記第二音声取得ステップにおいて取得された前記第二音声データに基づいて、前記第二音声データに対応する第一結果データを生成する第一生成ステップと、前記第一生成ステップにおいて生成された前記第一結果データに特定の単語に対応する基準データが含まれるか否かを判断する第一結果判断ステップと、前記第一結果判断ステップにおいて前記第一結果データに前記基準データが含まれると判断された場合、前記第二音声データの後に前記マイクから出力された第三音声データを取得する第三音声取得ステップと、前記第三音声取得ステップにおいて取得された前記第三音声データに対して音声認識処理を実行することで、対応するテキストデータを示す第二結果データを生成する第二生成ステップと、所定のテキストデータで示される操作データと、処理についてのデータである処理データとが対応付けられた対応データを参照し、前記第二生成ステップにおいて生成された前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれるか否かを判断する第二結果判断ステップと、前記第二結果判断ステップにおいて、前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれると判断された場合、前記第二結果データによって示されるテキストデータに同一のデータが含まれると判断された前記操作データに対応付けられた前記処理データに基づく処理を実行する実行ステップとをコンピュータに実行させる。この場合、音声認識装置のコンピュータが第二態様の音声認識プログラムを実行することで、第一態様と同様の効果を得ることができる。
The voice recognition program according to the second aspect of the present invention includes a first voice acquisition step of acquiring first voice data output from a microphone that outputs voice data according to an input voice, and the first voice acquisition step. A first sound volume determination step for determining a first sound volume value corresponding to the first sound data acquired in
以下、本発明を具体化した実施の形態について、図面を参照して説明する。なお、参照する図面は、本発明が採用しうる技術的特徴を説明するために用いられるものである。図示された装置の構成等は、その形態のみに限定する趣旨ではなく、単なる説明例である。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments embodying the present invention will be described below with reference to the drawings. The drawings to be referred to are used to explain technical features that can be adopted by the present invention. The configuration of the illustrated apparatus is not intended to be limited only to the form, but merely an illustrative example.
図1に示すように、HMD1は、本発明に係る音声認識装置の一例である。HMD1は、投影装置(以下、「ヘッドディスプレイ」または「HD」という。)10と制御装置(以下、「コントロールボックス」または「CB」という。)50を備える。HMD1が使用される場合、HD10は、例えばユーザの頭部に装着される。CB50は、HD10とは異なる位置(例えば、ユーザの腰ベルトや腕等)に装着される。HMD1は、図2に示すサーバ80と、無線または有線通信を介して接続することもできる。以下の説明において、図1の上方、下方、右斜め下方、左斜め上方、右斜め上方および左斜め下方が、HMD1の上方、下方、前方、後方、右方および左方である。実施形態において、種々の構成における位置関係および方向関係の理解を助けるため、図1において、HMD1の上方、下方、前方、後方、右方および左方は、3次元デカルト座標系の軸を参照して説明される。
As shown in FIG. 1, the
HD10は専用の装着具である眼鏡5に装着される。HD10は、ユーザが日常的に使用する眼鏡、ヘルメット、ヘッドホン等、他の装着具に取り付けられてもよい。HD10は、画像光を後方に向けて照射する。画像光は、受光対象物(例えば、HD10を装着したユーザの眼)に入射する。HD10はハーネス7を介してCB50と着脱可能に接続する。CB50は、HD10を制御する。
The
HD10の構成について説明する。HD10は筐体2を備える。筐体2は、左側にハーフミラー3を備える。ハーフミラー3は、HMD1がユーザの頭部に装着されたとき、ユーザの眼(例えば左眼)の前方に配置される。HD10は、筐体2の内部に、画像表示部14(図2参照)と接眼光学系(図示略)を備える。画像表示部14は、CB50からハーネス7を介して送信される映像信号に基づいて画像を表示する。画像表示部14は、例えば、液晶素子等の空間変調素子および光源である。画像表示部14は、画像信号に応じた強度のレーザ光を2次元走査して画像表示を行う網膜走査型表示部、液晶ディスプレイ、および有機EL(Organic Electro-luminescence)ディスプレイ等であってもよい。HD10は、カメラ20を備える。カメラ20は、HD10の前面方向の外界の風景を撮像する。
The configuration of the
接眼光学系は、画像表示部14に表示された画像を示す画像光を集光し、筐体2の左端からハーフミラー3に向けて照射する。接眼光学系から照射された画像光は、筐体2の左側に設けられたハーフミラー3によって少なくとも一部(例えば半分)後方に向けて反射される。HMD1がユーザの頭部に装着されたとき、ハーフミラー3によって反射された画像光が、ユーザの一方(例えば左)の眼球(図示略)に入射する。ハーフミラー3は外界の実像からの光の少なくとも一部を透過するので、ユーザの視野において実像(外界の風景)に重畳させた画像をユーザに見せることができる。
The eyepiece optical system collects image light indicating an image displayed on the
眼鏡5は、HD10をユーザの頭部に保持するための構成である。眼鏡5は、フレーム6において、左眼用レンズを支えるリム部の上面右端に、支持部4を備える。支持部4は、HD10の筐体2を保持し、筐体2を眼鏡5に取り付ける。支持部4は、筐体2の保持位置を上下方向および左右方向に調整することができる。筐体2の保持位置を調整することで、ハーフミラー3は、ユーザの眼球の位置に合わせた位置に配置される。
The glasses 5 are configured to hold the
眼鏡5は、フレーム6において、右耳に掛けるテンプル部に、マイク17およびイヤホン18を有するヘッドセット16を備える。詳細は後述するが、HMD1は、HMD1が実行する動作についてのデータである処理データに対応付けられた操作データを含む音声をヘッドセット16のマイク17から取得することによって、使用時における各種操作等を受け付けることが可能である。ヘッドセット16は、通常の気道式のマイクおよびスピーカに限定されず、骨伝導型のものであってもよい。なお、眼鏡5自体の形状は通常の眼鏡に類似のため、詳細な説明は省略する。
The eyeglasses 5 include a
CB50の構成について説明する。CB50は、略直方体状の筐体を有する。CB50は電源ランプ63を内蔵する電源スイッチ62を含む操作部61を備える。電源スイッチ62が操作されることで、HMD1の電源はオンまたはオフされる。HD10における各種設定や、使用時における各種操作等は、操作部61に対して入力される。
The configuration of the
CB50は、公知の無線通信(例えば、所定のアクセスポイントを介した無線LANでの通信)を介して図2に示すサーバ80と接続し、サーバ80との間で音声データや画像データを含む各種データの送受信を行うことが可能である。CB50は有線通信のインターフェイスを備え、通信ケーブルを用いてネットワーク9(図2参照)に接続し、サーバ80と接続してもよい。あるいはCB50は、USBインターフェイスを備え、USBケーブルを用い、サーバ80に接続してもよい。なお、CB50は、サーバ80の代わりに、同一LANに接続されたパーソナルコンピュータ、スマートフォン、およびタブレット型携帯端末等、その他の機器と接続してもよい。
The
図2を参照し、HMD1の電気的構成について説明する。HD10は、HD10全体の制御を行うCPU11を備える。CPU11は、RAM12、フラッシュROM13、画像表示部14、インターフェイス15、および接続コントローラ19に電気的に接続される。CPU11は、インターフェイス15を介してカメラ20およびヘッドセット16に電気的に接続される。RAM12は、各種データを一時的に記憶する。フラッシュROM13は、CPU11が実行する各種プログラム等を記憶する。各種プログラムは、HD10の出荷時にフラッシュROM13に記憶される。
The electrical configuration of the
画像表示部14は前述の通り、映像信号に基づいて画像を表示する。インターフェイス15はカメラ20およびヘッドセット16と電気的に接続し、信号の入出力を制御する。接続コントローラ19は、ハーネス7を介してCB50の接続コントローラ58と電気的に接続し、有線通信を行う。カメラ20は画像を撮像する。ヘッドセット16はマイク17およびイヤホン18を備える。なお、HD10は、ヘッドセット16の代わりに、筐体2にマイクとスピーカを内蔵してもよい。
As described above, the
CB50の電気的構成について説明する。CB50は、CB50全体の制御を行うCPU51を備える。CPU51は、RAM52、フラッシュROM53、インターフェイス55、ビデオRAM56、画像処理部57、接続コントローラ58、および無線通信部59に電気的に接続される。RAM52は、各種データを一時的に記憶する。
The electrical configuration of the
フラッシュROM53は、OSを記憶する。また、フラッシュROM53は、CPU51が実行する各種プログラム、各種プログラムが使用するフラグやデータの初期値等を記憶する。各種プログラムは、OS上で実行される。フラッシュROM53は、少なくとも、メインプログラム記憶エリア67と、音声認識プログラム記憶エリア68の記憶領域を確保している。メインプログラム記憶エリア67は、CPU51がHMD1の各種動作を制御するために実行するメインプログラムを記憶する。なお、メインプログラムは、音声認識プログラムを含む各種プログラムを並列処理によって実行するマルチタスク型のプログラムである音声認識プログラム記憶エリア68は、CPU51が、ユーザの発声する音声に基づいてHMD1の各種操作等を行うための音声認識プログラム(後述)を記憶する。音声認識プログラムは、メインプログラムに従ってCPU51が実行する各種プログラムのうちの一つである。メインプログラム、音声認識プログラムを含む各種プログラムおよびOSは、HMD1の出荷時にフラッシュROM53に記憶される。
The
なお、フラッシュROM53には、HD10のCPU11が実行するプログラムが記憶されてもよい。CPU51は、HD10のCPU11が実行する処理と同じ処理を、CPU11の代わりに実行してもよい。また、HMD1は、各種プログラムおよびOSを、無線通信部59を介してプログラムダウンロード用のサーバからダウンロードし、インストールしてもよい。例えば、各種プログラムおよびOSは、コンピュータで読み取り可能な一時的な記憶媒体(例えば、伝送信号)として、サーバからHMD1に送信されてもよい。但し、記憶装置は、例えばROM、フラッシュROM、HDD、RAMなどの、一時的な記憶媒体を除く記憶媒体であってもよい。また、記憶装置は、非一時的な記憶媒体であってもよい。非一時的な記憶媒体は、データを記憶する時間の長さに関わらず、データを留めておくことが可能なものであってもよい。
The
インターフェイス55は電源スイッチ62および電源ランプ63を含む操作部61と電気的に接続し、ユーザによる操作に対応した入力信号やランプの点灯信号等の入出力を行う。画像処理部57は、HD10の画像表示部14に表示する画像を形成する処理を行う。ビデオRAM56は、画像処理部57が形成した画像を示す映像信号を生成するため、映像を構成するフレームを記憶領域内に形成する。接続コントローラ58は、ハーネス7を介してHD10の接続コントローラ19と電気的に接続し、有線通信を行う。無線通信部59は、ネットワーク9のアクセスポイント(図示略)へ無線通信によって接続し、例えばサーバ80等、ネットワーク9に接続する他の機器と通信を行う。
The
サーバ80は、サーバ80全体の制御を行うCPU81を備える。CPU81は、データバスを介してROM82、RAM83、および入出力バス(以下、「I/Oバス」という。)85と電気的に接続する。ROM82は、CPU81が実行するBIOS等のプログラムを記憶する読出し専用の記憶装置である。RAM83は、データを一時的に記憶する読み書き可能な記憶装置である。
The
I/Oバス85には、ハードディスクドライブ(以下、「HDD」という。)84および通信部86が電気的に接続されている。HDD84は、OSやプログラム等がインストールされる記憶装置である。通信部86は、ネットワーク9のアクセスポイント(図示略)へ有線通信または無線通信で接続し、サーバ80をネットワーク9に接続する。また、図示しないが、I/Oバス85にはマウスやキーボード等の入力デバイスも接続されている。
A hard disk drive (hereinafter referred to as “HDD”) 84 and a
HMD1の構成は上記実施形態に限定されず、例えば、HD10とCB50とが一体となった構成であってもよい。HD10のCPU11とCB50のCPU51とは、ハーネス7の代わりに無線通信によって通信を行ってもよい。
The configuration of the
図3および図4を参照して、第一対応データ95および第二対応データ96について説明する。第一対応データ95および第二対応データ96は、例えば、フラッシュROM53に記憶されている。第一対応データ95および第二対応データ96には、操作データと処理データとが対応付けられている。操作データは、HMD1の実行する動作をユーザがCPU51に指示し、HMD1を操作する際に発声する単語を示すテキストデータである。処理データは、CPU51がHMD1に動作を実行させるための処理についてのデータである。処理データは、例えば、CPU51によって実行される特定のルーチンを示す。より詳細には、第一対応データ95には、操作データ「起動」が処理データ「音声操作処理を開始する」に対応付けられている。即ち、CPU51が操作データ「起動」を受け付けた場合、対応付けられている処理データ「音声操作処理を開始する」によって示される特定のルーチン(ここでは、図7で示される処理)が実行される。詳しくは後述するが、第一対応データ95の操作データ「起動」は、S34(図6参照)の音声操作処理を行うか否かの判断基準となる単語である。このため、本実施形態において、第一対応データ95の操作データ「起動」を基準データとも呼ぶこととする。
The
第二対応データ96には、操作データ「送る」、「戻る」、「X枚目」、「閉じる」等がそれぞれ、処理データ「表示中の図面等を次頁に送る」、「表示中の図面等を前頁に戻す」、「表示中の図面のX頁を表示する」、「表示中の図面等を閉じる」等に対応付けられている。例えば、ユーザが音声「ページを送る」を発声すると、CPU51は、後述する図7のS49で生成するテキストデータ「ページを送る」に「送る」の操作データが含まれると判断して(後述する図7のS51:YES)、処理データ「画像の次ページを表示する」に基づくHMD1の動作を実行させるための処理を行う(後述する図7のS53参照)。なお、X枚目等の「X」は任意の自然数であり、ユーザは、Xを自然数に置き換えて発声する。
In the
図5から図7を参照し、音声認識プログラムを構成する音声判断処理について説明する。HMD1は、前述したように、あらかじめフラッシュROM53に音声認識プログラムを記憶した状態で出荷される。音声認識プログラムは、HMD1のCB50のCPU51が実行するプログラムである。音声認識プログラムを実行したCPU51は、ユーザが発声した音声を判断する音声判断処理の実行、および音声判断処理の中において行われる音声操作処理の開始・終了を行う。CPU51は、ユーザがHMD1の各種操作等の操作データに対応する音声を発声した場合、操作データに対応付けられた処理データに応じたHMD1の各種操作等を実行する。
With reference to FIG. 5 to FIG. 7, a voice determination process constituting the voice recognition program will be described. As described above, the
音声判断処理で使用する各種タイマカウンタについて説明する。ここで、音声判断処理が開始されて最初にCPU51が取得する音声データを、第一音声データとする。第一タイマカウンタは、第一音声データに基づいて決定される音量値である第一音量値が第一基準値(後述)よりも大きいと判断された後の所定期間である第一監視時間を計測するため、RAM52に記憶されるタイマカウンタである。第一監視時間に対応するカウンタ値がRAM52の第一タイマカウンタにセットされると、セットされた第一タイマカウンタの値が、0を下限値として順次減算される。詳細は後述するが、第一監視時間が経過する前に第二音量値が第二基準値(後述)より大きいと判断された場合、ユーザによって第二音声データに対応する音声が発声されたとみなして、CPU51は、以降の所定の処理を実行する。ここで、音声判断処理において、第一音声データの後にCPU51が取得する音声データを、第二音声データとする。また、第二音量値は、第二音声データに基づいて決定される音量値である。第一タイマカウンタにおける第一監視時間の計測は、第一監視時間が経過する前に第二音量値が第二基準値より大きいと判断されない場合、ユーザに第二音声データに対応する音声の発声意思がないとみなして、音声操作処理(図6および図7参照)を実行させないために行われる。なお、第一タイマカウンタの値の減算は、OSのタイマ機能に基づいて行われる。
Various timer counters used in the voice determination process will be described. Here, the sound data acquired by the
第二タイマカウンタは、第二音声データに基づく第二音量値が第二基準値よりも大きいと判断された後の所定期間である第二監視時間を計測するため、RAM52に記憶されるタイマカウンタである。第二監視時間に対応するカウンタ値がRAM52の第二タイマカウンタにセットされると、セットされた第二タイマカウンタの値が、0を下限値として順次減算される。詳細は後述するが、第二監視時間が経過する前に第二音量値が第三基準値(後述)を下回った場合、ユーザによって第二音声データに対応する音声の発声が適切に終了されたとみなして、以降の所定の処理を実行する。また、第二監視時間が経過する前に第二音声データに対応する音声が終了しない場合、第二音声データに対応する音声が所定の音声でないとみなして、CPU51は以降の処理、特に、音声操作処理(図6および図7参照)を実行しない。なお、第二タイマカウンタの値の減算は、OSのタイマ機能に基づいて行われる。
The second timer counter is a timer counter stored in the
第三タイマカウンタは、音声判断処理の中において実行される音声操作処理(図7参照)において取得される第三音声データに基づく第三音量値が第二基準値よりも大きいと判断された後の所定期間である第三監視時間を計測するため、RAM52に記憶されるタイマカウンタである。ここで、第二音声データの後にCPU51が取得する音声データを、第三音声データとする。また、第三音量値は、第三音声データに基づく音量値である。第三監視時間に対応するカウンタ値がRAM52の第三タイマカウンタにセットされると、セットされた第三タイマカウンタの値が、0を下限値として順次減算される。詳細は後述するが、第三監視時間が経過する前に第三音量値が第二基準値より大きいと判断された場合、ユーザによって第三音声データに対応する音声が発声されたとみなして、以降の所定の処理を実行する。また、第三監視時間が経過する前に第三音量値が第二基準値より大きいと判断されない場合、ユーザに第三音声データに対応する音声の発声意思がないとみなして、CPU51は第三音声データについての音声認識処理(S48、図7参照)を実行しない。なお、第三タイマカウンタの値の減算は、OSのタイマ機能に基づいて行われる。
After the third timer counter is determined that the third volume value based on the third voice data acquired in the voice operation process (see FIG. 7) executed in the voice judgment process is larger than the second reference value. This is a timer counter stored in the
HD1のCPU11によって実行される処理の概要について説明する。HMD1のCB50に設けられた電源スイッチ62が操作されると、CPU11は、マイク17およびインターフェイス15を制御することで、音声データの取得を開始する。例えば、マイク17は、入力される音声に対応するアナログの音声信号を、インターフェイス15に対して出力する。インターフェイス15は、アナログの音声をデジタルの音声データに変換する。CPU11は、接続コントローラ19を制御して、変換した音声データを、ハーネス7を介してCB50に継続的に送信する。
An outline of processing executed by the
次に、音声認識プログラムの実行に伴いCPU51が行う処理について説明する。ユーザがHMD1のCB50に設けられた電源スイッチ62を操作すると、CPU51は起動時における所定の動作をメインプログラムの実行に従って行う。CPU51は、音声認識プログラムを含む各種プログラムを実行する。
Next, processing performed by the
音声認識プログラムにおいて、CPU51は、起動時に行う初期設定処理(図示略)を行う。CPU51は、RAM52に記憶するフラグやデータを初期化し、フラッシュROM53に記憶されているフラグやデータの初期値をRAM52に書き込む。CPU51は音声データを保存するための記憶領域を、RAM52に確保する。CPU51は音声認識プログラムの初回実行時にRAM52に第一対応データ95および第二対応データ96を展開する。なお、以下の説明では、HMD1は、ネットワーク9およびサーバ80に接続されていないとする。
In the voice recognition program, the
上記の初期設定処理が終了すると、CPU51は、音声判断処理を開始する。図5に示すように、CPU51は、音声判断処理を開始すると、HD10からCB50に送信された最初の音声データである第一音声データを取得する(S11)。次いで、CPU51は、取得した第一音声データに基づく音量値である第一音量値を決定する(S12)。第一音量値は、例えば、S11で受信した第一音声データにおいて、サンプリングされた波形のレベルを検出することで決定される。なお、第一音声データは、例えば、複数のサンプリング点を含む。サンプリング点の間隔は、予め定められたサンプリングレート(例えば、11.025kHz)に対応する。即ち、第一音量値は、個々のサンプリング点に対して決定される。次いで、CPU51は、決定した第一音量値の最大値を抽出し、第一音量値の最大値が第一基準値より大きいか否かを判断する(S13)。なお、S13の判断において、最大値の代わりに、平均値、中央値、最頻値などが用いられてもよい。第一音量値の最大値が第一基準値よりも大きい場合(S13:YES)、第一基準値よりも第一音量値が大きくなる期間である第一期間の時間情報を算出する。例えば、CPU51は、第一音声データにおいて、第一基準値を超える第一音量値のサンプリング点が連続する回数を検出することで、第一期間の時間情報を算出する。CPU51は、算出した第一期間の時間情報が所定の範囲内であるか否かを判断する(S14)。第一期間の時間情報が所定範囲内である場合(S14:YES)、CPU51は、処理をS15に移行する。なお、第一音量値が第一基準値より大きくない場合(S13:NO)、または、第一音量値が第一基準値より大きい場合でも、第一期間の時間情報が所定範囲内でない場合(S14:NO)、CPU51は、S11に処理を戻す。
When the initial setting process is completed, the
ここで、本実施形態では、第一音声データに対応するユーザの音声として、例えば「ハイ」と発声されることを想定している。マイク17に入力する「ハイ」の音声に対応する第一音声データについて、第一音量値の最大値が第一基準値を上回るか否かをまず判断する。第一音量値の最大値が第一基準値を上回る場合には、さらに第一期間が所定範囲内であるか否かを監視することによって、CPU51は、後述する音声操作処理(S34、図6参照)を行うか否かの一段階目の判断を行う。即ち、CPU51は、第一音声データについては、第一音量値と、第一音量値が第一基準値よりも大きくなる期間を監視するものの、第一音声データについての音声認識処理を行わない。音量値の監視のみの実行に比べて、複雑な信号からなる音声データを解析する音声認識処理の実行には、CPU51は非常に多くの電力を必要とする。HMD1は、ユーザに装着されて使用される性質上、外部からの電源供給を受けず、バッテリー等の内部に搭載した電源によって動作を行うことが想定される。このため、HMD1に音声認識処理を組み込む場合、消費電力の低減は欠かせない。本実施形態では、HMD1がユーザの発する音声によって操作されるのに先だって、第一音声データに対して音声認識処理を実行するのではなく、以降の音声操作処理を行うためのトリガとするために第一音量値のみを判断することとしている。これにより、複雑な制御を必要とせずに、HMD1の消費電力を低減し、内部電源の寿命を延ばすことができる。
Here, in the present embodiment, it is assumed that, for example, “high” is uttered as the user's voice corresponding to the first voice data. First, it is determined whether or not the maximum value of the first sound volume value exceeds the first reference value for the first sound data corresponding to the “high” sound input to the
なお、第一基準値は、HMD1の使用環境等に応じて、任意の値を設定することができる。前述したように、第一音量値は後述する音声操作処理(S34、図6参照)を行うか否かの一段階目の判断材料である。このため、音声操作処理が誤って実行されて、HMD1が誤作動することを防ぐため、第一基準値は、HMD1の使用環境における周囲の雑音よりも大きい値に設定することが好ましい。
The first reference value can be set to an arbitrary value according to the usage environment of the
また、S14の判断において、第一期間の時間情報が所定範囲内であるか否かが判断される。この所定範囲について、本実施形態では、第一音声データに対応する音声として想定する「ハイ」が発声される時間に対応して、CPU51は、第一期間が約1秒以内であるか否かを判断する。S13の判断のみを行い、S14の判断を行わない場合には、例えば、HMD1を装着したユーザの通常の会話による音声に基づく音量値が第一基準値を超える場合等にも、CPU51は、以降の処理を実行してしまう。即ち、所定範囲を超えて第一期間が継続する場合には、CPU51は、ユーザが発声する音声を、音声操作処理(S34、図6参照)を行うため以外の音声であるとみなす。S13の判断に加えてS14の判断を行うことによって、音声判断処理の単純化および所定の音声以外の音声によるHMD1の誤作動を防止できる。
In S14, it is determined whether or not the time information of the first period is within a predetermined range. For this predetermined range, in the present embodiment, the
図5の説明に戻る。S15では、CPU51は、第一音声データの後にHD10からCB50に送信された第二音声データを取得し、取得した第二音声データをRAM52に保存する処理を開始する。本実施形態では、第二音声データに対応するユーザの音声として、特定の単語(例えば「起動(キドウ)」)が発声されることを想定している。次いで、CPU51は、RAM52の第一タイマカウンタに第一監視時間に対応する値をセットする(S16)。次いで、CPU51は、S15において取得および保存を開始した第二音声データに基づく音量値である第二音量値を逐次決定する(S17)。音量値を決定する方法は、S12と同様である。次いで、CPU51は、決定した第二音量値の最大値を抽出し、第二音量値の最大値が第二基準値よりも大きいか否かを判断する(S18)。決定した第二音量値の最大値が第二基準値より大きい場合(S18:YES)、CPU51は、第二音声データに対応する音声の発声が開始されたとみなして、RAM52の第一タイマカウンタの値を「0」にクリアし(S19)、処理をS20へ移行する。
Returning to the description of FIG. In S <b> 15, the
一方、第二音量値の最大値が第二基準値より大きくない場合(S18:NO)、CPU51は、RAM52に記憶される第一タイマカウンタの値を参照して、第一監視時間が経過したか否かを判断する(S21)。参照した第一タイマカウンタの値が「0」でない場合(S21:NO)、第一監視時間が経過していないため、CPU51は、処理をS18へ戻し、第一監視時間が経過するまで、第二音量値の最大値が第二基準値より大きくなるか否かの判断を繰り返す。第一監視時間が経過して第一タイマカウンタの値が「0」となった場合(S21:YES)、CPU51は、処理をS28へ移行する。このようにして、CPU51は、第一監視時間が経過する前に、第二音量値の最大値が第二基準値を上回るか否かを判断する。そして、第二音量値の最大値が第二基準値を上回ることなく第一監視時間が経過した場合には、第二音声データの取得を中止する(S28)。前述したように、第一タイマカウンタによる第一監視時間の計測は、第一音声データに対応する音声を発声したユーザに第二音声データに対応する音声の発声意思があるか否か判断するために行われる。第一監視時間は、第一音声データに対応する音声として想定する「ハイ」と第二音声データに対応する音声として想定する特定の単語である「起動(キドウ)」との、それぞれの発声の間隔として想定される任意の時間に相当する値を設定することができる。
On the other hand, when the maximum value of the second volume value is not larger than the second reference value (S18: NO), the
ここで、本実施形態では、第一基準値が、第二基準値よりも大きな値となるように設定している。これは、ユーザが第一音声データに対応する音声として想定する「ハイ」を、「ハイ」以降に発声する音声より大きく発声しなければ、音声操作処理(S34、図6参照)が行われないようにするためである。即ち、第一基準値は第二基準値より大きいため、CPU51が音声操作処理を行うことによってHMD1に種々の動作を実行させるためには、ユーザは第二音声データに対応する音声「起動」よりも、第一音声データに対応する音声「ハイ」を大きく発声する必要がある。これにより、CPU51は、HMD1に動作を実行させる意思がユーザにあるか否かを、第一音声データに基づく第一音量値と、第二基準値より大きい第一基準値との比較によって判断できる。従って、HMD1に動作を実行させる意思のないユーザが発声した第一基準値よりも音量の小さな音声に基づいて、CPU51が種々の処理を誤って実行することを防止できる。
Here, in the present embodiment, the first reference value is set to be larger than the second reference value. This is because the voice operation process (S34, see FIG. 6) is not performed unless the user utters “high” assumed as the voice corresponding to the first voice data larger than the voice uttered after “high”. It is for doing so. That is, since the first reference value is larger than the second reference value, in order to cause the
図5の説明に戻る。次いで、CPU51は、RAM52の第二タイマカウンタに第二監視時間に対応する値をセットする(S20)。次いで、CPU51は、第二音量値が第三基準値よりも小さいか否かを判断する(S23)。第二音量値が第三基準値より小さい場合(S23:YES)、CPU51は、第二音声データに対応する音声の発声が終了されたとみなして、RAM52の第二タイマカウンタの値を「0」にクリアする(S24)。次いで、CPU51は、S15において開始した第二音声データをRAM52に保存する処理を終了する(S25)。CPU51は、処理をS30(図6参照)へ移行する。
Returning to the description of FIG. Next, the
一方、第二音量値が第三基準値より小さくない場合(S23:NO)、CPU51は、RAM52に記憶される第二タイマカウンタの値を参照して、第二監視時間が経過したか否かを判断する(S26)。参照した第二タイマカウンタの値が「0」でない場合(S26:NO)、CPU51は、処理をS23へ戻し、第二監視時間が経過するまで、第二音量値が第三基準値より小さくなるか否かの判断を繰り返す。第二監視時間が経過して第二タイマカウンタの値が「0」となった場合(S26:YES)、S21の判断において「NO」と判断した場合と同様に、CPU51は、処理をS28へ移行する。
On the other hand, when the second volume value is not smaller than the third reference value (S23: NO), the
S28では、CPU51は、S15で開始した第二音声データをRAM52に保存する処理を中止し、処理をS11へ戻す。CPU51は、S15において取得が開始されてからS28で取得が中止されるまでの間にRAM52へ保存された第二音声データについて、RAM52から消去した後にS11へ処理を戻してもよいし、次回に実行する音声判断処理において取得する第二音声データをRAM52へ上書きしてもよい。
In S28, the
このように、CPU51は、第二音量値が第二基準値よりも大きいと判断してから第二監視時間が経過するまでの間に、第二音量値が第三基準値を下回るか否かによって、ユーザの第二音声データに対応する音声の発声終了を判断する。第二音声データに対応する音声の発声終了の判断を、全くの無音状態の検出を条件に判断すると、HMD1の使用環境等によっては、周囲の雑音等が存在することによって、ユーザの第二音声データに対応する音声の発声終了の判断が難しくなる。従って、本実施形態では、第三基準値を、周囲の雑音よりも大きく、且つ、第二基準値よりも小さく設定している。CPU51は、第二音声データに対応する音声の発声が開始されたとみなした時点から、第二音声データに対応する音声の発声が終了されたとみなした時点までの間に取得した音声データを、ひとまとまりの第二音声データとしてRAM52に保存する。
In this way, the
第二監視時間は、第二音声データに対応する音声として想定する特定の単語「起動(キドウ)」が発声される時間に相当する任意の値を設定することができる。本実施形態では、第二監視時間を約1.5秒としている。第二監視時間を経過してもなお、第三基準値を超える音量値の第二音声データに対応する音声がマイク17に入力する場合、ユーザは、通常の会話等、「起動(キドウ)」以外の音声を発声していることが想定される。このような場合には、第二音声データに対応する音声が「起動(キドウ)」を含む音声でないとみなして、CPU51は、音声判断処理におけるS24以降の処理の実行を回避できる。即ち、音声判断処理の単純化および効率化を図ることができる。
The second monitoring time can be set to an arbitrary value corresponding to the time when a specific word “startup (kidney)” assumed as a voice corresponding to the second voice data is uttered. In the present embodiment, the second monitoring time is about 1.5 seconds. When the sound corresponding to the second sound data having a volume value exceeding the third reference value is input to the
S30(図6参照)では、CPU51は、音響特徴量(例えば、音素)を抽出する公知の音声認識処理(例えば、隠れマルコフモデル)を実行し、RAM52に保存した第二音声データに対する音声認識を行う。CPU51は、音声認識処理の結果、第二音声データに対応する音素データを生成する。この音素データは、RAM52に保存される。CPU51は、音声認識処理を行って認識した第二音声データに対応する音素データに基づいて、第二音声データに対応するテキストデータを取得する(S31)。例えば、CPU51は、音素データを予め設けられた複数の単語モデルと比較することで、個々の単語モデルから第二音声データに対応する音声が出力される確率を計算する。そして、CPU51は、確率の最も高い単語モデルのテキストデータを取得する。CPU51は、取得したテキストデータを、RAM52に記憶する。次いで、CPU51は、音声認識プログラムの初回実行時にRAM52に展開した第一対応データ95(図3参照)を参照する(S32)。CPU51は、参照した第一対応データ95における操作データと、S31において生成したテキストデータとを比較し、S31において生成したテキストデータに、第一対応データ95における操作データが含まれるか否かを判断する(S33)。本実施形態では、第一対応データ95は、基準データ「起動」と処理データ「音声操作処理を開始する」とが対応付けられた1組のデータのみを含む(図3参照)。即ち、CPU51は、S33では、S31において生成したテキストデータに、基準データである「起動(キドウ)」が含まれるか否かのみを判断すればよいため、判断の精度と判断処理の迅速性を向上できる。
In S <b> 30 (see FIG. 6), the
上記の第二音声データに基づくテキストデータに基準データ「起動(キドウ)」が含まれるか否かの判断は、S34の音声操作処理を行うか否かの二段階目の判断である。S34の音声操作処理を行うか否かの判断については、S13およびS14(図5参照)において行われる第一音量値に基づく一段階目の判断、および、S33において行われる第二音声データに基づくテキストデータに対する二段階目の判断の二つの判断に基づいて行われる。即ち、HMD1をユーザの音声によって操作する場合、第一音声データに対応する音声「ハイ」と第二音声データに対応する音声「起動(キドウ)」との二つの音声の発声がユーザに求められる。これによって、CPU51は、ユーザに音声操作処理の開始をハンズフリーで行わせるとともに、S34の音声操作処理が誤って実行されて、HMD1が誤作動することを防いでいる。S31において生成したテキストデータに操作データと同一のデータが含まれる場合(S33:YES)、CPU51は、S34の音声操作処理を実行した後、音声判断処理を終了する。S31において生成したテキストデータに操作データと同一のデータが含まれない場合(S33:NO)、CPU51は、処理をS11へ戻す(図5参照)。
The determination as to whether the text data based on the second voice data includes the reference data “startup (kidney)” is a second stage determination as to whether or not to perform the voice operation processing in S34. The determination as to whether or not to perform the voice operation processing in S34 is based on the first stage determination based on the first volume value performed in S13 and S14 (see FIG. 5) and the second voice data performed in S33. This is performed based on two judgments of the second stage judgment on the text data. That is, when the
本実施形態では、S33において、S31において生成したテキストデータに含まれるか否かを判断する操作データを「起動(キドウ)」の1つ基準データのみとしている。即ち、S33の判断では、第二音声データが基準データ「起動(キドウ)」に対応する音声データであるか否かのみを判断できればよい。このため、例えば、S31における第二音声データのテキストデータ変換を行わないこととしてもよい。そのかわりに、S30の第二音声データについての音声認識処理において、例えば第二音声データに基づく音波の波形データを生成する。そして、第一対応データ95における基準データとして、特定の単語「起動(キドウ)」に対応する特定の波形データを記憶する。生成した波形データが「起動(キドウ)」に対応する特定の波形データである基準データに対応するか否かによって、S33の判断を行ってもよい。音声データは複雑な信号からなり、その音声データに基づく波形データもまた、複雑な波形パターンを有する。この場合、CPU51は、生成した複雑な波形データをテキストデータに変換する工程を経ることなく、波形データ同士のマッチングによって、第二音声データが基準データ「起動(キドウ)」に対応する音声データを含むか否かを判断できるため、音声判断処理を単純化することができ、消費電力の低減にも資する。
In the present embodiment, in S33, the operation data for determining whether or not it is included in the text data generated in S31 is only one reference data of “startup”. That is, in the determination of S33, it is only necessary to determine whether or not the second sound data is sound data corresponding to the reference data “startup (kidney)”. For this reason, it is good also as not performing the text data conversion of the 2nd audio | voice data in S31, for example. Instead, in the voice recognition process for the second voice data in S30, for example, sound wave waveform data based on the second voice data is generated. Then, as the reference data in the
図7を参照して、音声操作処理(S34、図6参照)の詳細について説明する。音声操作処理では、ユーザの音声によってHMD1に種々の動作を実行させるための処理が行われる。音声操作処理が開始すると、CPU51は、第二音声データの後にHD10からCB50に送信された第三音声データを取得し、取得した第三音声データをRAM52に保存する処理を開始する(S41)。本実施形態では、第三音声データに対応するユーザの音声として、例えば「送る(オクル)」、「戻る(モドル)」等、第二対応データ96の操作データを含む様々な音声が、HMD1に種々の動作を実行させるため発声されることを想定している。
Details of the voice operation process (S34, see FIG. 6) will be described with reference to FIG. In the voice operation process, a process for causing the
次いで、CPU51は、RAM52の第三タイマカウンタに第三監視時間に対応する値をセットする(S42)。次いで、CPU51は、S41において取得および保存を開始した第三音声データに基づく音量値である第三音量値を逐次決定する(S43)。次いで、CPU51は、決定した第三音量値の最大値を抽出し、第三音量値の最大値が第二基準値よりも大きいか否かを判断する(S44)。第三音量値の最大値が第二基準値より大きい場合(S44:YES)、CPU51は、第三音声データに対応する音声の発声が開始されたとみなして、RAM52の第三タイマカウンタの値を「0」にクリアし(S45)、処理をS46の判断へ移行する。
Next, the
一方、第三音量値の最大値が第二基準値より大きくない場合(S44:NO)、CPU51は、RAM52に記憶される第三タイマカウンタの値を参照して、第三監視時間が経過したか否かを判断する(S54)。参照した第三タイマカウンタの値が「0」でない場合(S54:NO)、第三監視時間が経過していないため、CPU51は、処理をS44へ戻し、第三監視時間が経過するまで、第三音量値の最大値が第二基準値より大きくなるか否かの判断を繰り返す。次いでS46の判断において、CPU51は、第三音量値が第三基準値よりも小さいか否かを判断する。第三音量値が第三基準値よりも小さくない場合には(S46:NO)、CPU51は、第三音量値が第三基準値よりも小さくなるまで、繰り返しS46の判断を行う。第三音量値が第三基準値より小さい場合(S46:YES)、CPU51は、第三音声データに対応する音声の発声が終了したとみなして、S41において開始した第三音声データをRAM52に保存する処理を終了する(S47)。CPU51は、第三音声データに対応する音声の発声が開始したとみなした時点から、第三音声データに対応する音声の発声が終了したとみなした時点までの間に取得した音声データを、ひとまとまりの第三音声データとしてRAM52に保存する。
On the other hand, when the maximum value of the third volume value is not larger than the second reference value (S44: NO), the
ここで、第三音声データのRAM52への保存については、第二音声データのRAM52への保存の場合における第二監視時間に対応する監視時間が特に設けられていない。これは、ユーザがHMD1を使用する際に、ユーザは操作データに対応する音声のみを発声する場合だけでなく、操作データを含む音声を発声した場合にも、音声によってHMD1の操作をできるようにするためである。即ち、ひとまとまりの第三音声データを保存できる時間を特に短い時間に限定するのではなく、第三音声データを保存できる時間に幅を持たせるためである。ただし、HMD1の使用環境によっては、周囲の雑音等が大きいことによって、第三音量値が第三基準値を下回らない時間が長時間継続してしまい、S46の判断処理が必要以上に繰り返されてしまうことも考えられる。このため、CPU51は、HMD1の使用環境に応じて、第二監視時間が経過するまでの間に第二音量値が第三基準値を下回るか否かによって第二音声データの取得を中止するS26およびS28(図5参照)と同様の処理を、S46の後に設けてもよい。
Here, regarding the storage of the third audio data in the
次いで、CPU51は、S30と同様に公知の音声認識処理を実行し、RAM52に保存した第三音声データに対する音声認識処理を行い、第三音声データに対応する音素データを、RAM52に保存する(S48)。CPU51は、音声認識処理を行って認識した第三音声データに対応する音素データに基づいて、第三音声に対応するテキストデータを取得する(S49)。CPU51は、取得したテキストデータを、RAM52に記憶する。次いで、CPU51は、音声認識プログラムの初回実行時にRAM52に展開した第二対応データ96(図4参照)を参照する(S50)。CPU51は、参照した第二対応データ96における操作データと、S49において生成したテキストデータとを比較する。CPU51は、S49において生成したテキストデータに、第二対応データ96における操作データが含まれるか否かを判断する(S51)。
Next, the
本実施形態では、第二対応データ96は、操作データ「送る」、「戻る」、「○枚目」、「閉じる」、「明るく」、「暗く」、「オン」、「オフ」および「終了」と、各操作データのそれぞれに対応する処理データとが対応付けられた複数組のデータを含む(図4参照)。第二対応データ96に様々な操作データと処理データとが対応付けられた複数のデータが含まれることによって、CPU51は、ユーザの発声する音声によってHMD1に、様々な動作を実行させることができる。
In the present embodiment, the
なお、前述したように、本実施形態では、第一対応データ95に含まれる操作データと処理データとの組の数は、基準データ「起動」と処理データ「音声操作処理を開始する」とが対応付けられた1組のデータのみである。この数は、第二対応データ96に含まれる操作データと処理データとの組の数よりも少ない。これは、S33(図6参照)は、ユーザの発声する第二音声データに対応する音声によって、ユーザの音声によってHMD1に種々の動作を実行させるための音声操作処理の実行開始をするか否かの判断のみを行う処理であるからである。即ち、第一対応データ95には、基準データ「起動」と処理データ「音声操作処理を開始する」とが対応付けられた1組のデータが含まれてさえいればよい。これに対し、第二対応データ96は、音声操作処理において、ユーザの音声によってHMD1に種々の動作を実行させるために設けられるデータである。このため、第二対応データ96には、HMD1に実行可能な種々の動作に対応するためのデータ構成が要求される。本実施形態では、第一対応データ95と第二対応データ96との2つの対応データを備えることで、全ての操作データと処理データとが1つの対応データに含まれる場合に比べて、第一対応データ95に含まれる操作データと処理データとの組の数を減らすことができる。これにより、音声操作処理の実行開始の判断を行うS32における判断の精度と判断処理の迅速性を向上するとともに、音声操作処理においてHMD1に種々の動作を実行させることができる。
As described above, in this embodiment, the number of sets of operation data and processing data included in the
図7の説明に戻る。S51の判断において、S49において生成したテキストデータに操作データと同一のデータが含まれる場合(S51:YES)、CPU51は、処理をS52の判断に移行する。S52では、S49において生成したテキストデータに、第二対応データ96における操作データのうち「終了」(図4参照)の操作データが含まれるか否かが判断される。S49において生成したテキストデータに「終了」以外の操作データが含まれる場合(S52:NO)、CPU51は、処理をS53へ移行する。
Returning to the description of FIG. If it is determined in S51 that the same data as the operation data is included in the text data generated in S49 (S51: YES), the
CPU51は、S52において含まれると判断した「終了」以外の操作データに対応付けられた処理データに基づく動作をHMD1に実行させる(S53)。具体的には、S49において生成したテキストデータに同一のデータが含まれると判断した操作データが「送る」である場合、対応する処理データ「表示中の図面等を次頁に送る」に基づいて、CPU51は、図面の次頁を示す画像データをフラッシュROM53から取得する。CPU51は、取得した図面の次頁を示す画像データを画像処理部57で処理することによって、HD10の画像表示部14に表示する図面の次頁を示す映像信号を生成する。画像表示部14は、生成された映像信号に基づいて、図面の次頁を示す画像を表示する。これによって、ユーザは、ユーザの発声する第三音声データに対応する音声によって、ハンズフリーでHMD1を操作することができる。
The
この他、本実施形態では、S49において生成したテキストデータに、第二対応データ96におけるいずれの操作データと同一のデータも含まれない場合(S51:NO)、CPU51は、ユーザが発声した音声がHMD1に種々の動作を実行させるための音声ではないとみなして、音声操作処理を終了する。また、S54の判断において、第三監視時間が経過して第三タイマカウンタの値が0となった場合(S54:YES)、CPU51は、S41で開始した第三音声データをRAM52に保存する処理を中止し(S55)、音声操作処理を終了する。これにより、音声操作処理が徒に実行されて、HMD1が誤作動することを防ぐことができる。CPU51は、S41において取得が開始されてからS55で取得が中止されるまでの間にRAM52へ保存された第三音声データについて、RAM52から消去した後に音声操作処理を終了することとしてもよいし、次回に実行する音声操作処理において取得する第三音声データをRAM52へ上書きしてもよい。
In addition, in this embodiment, when the text data generated in S49 does not include the same data as any operation data in the second correspondence data 96 (S51: NO), the
この他、本実施形態では、音声操作処理の終了を、ユーザの終了意思に基づく発声によって行うことができる。第二対応データ96の最下欄に、操作データ「終了」に処理データ「音声操作処理を終了する」が対応付けられたデータが設けられている。S52の判断において、S49において生成したテキストデータに「終了」の操作データが含まれる場合(S52:YES)、CPU51は、音声操作処理を終了する。これにより、ユーザは、音声操作処理の終了をハンズフリーで行うことができる。
In addition, in this embodiment, the voice operation process can be ended by utterance based on the user's intention to end. In the bottom column of the
以上説明したように、CPU51は、S13の判断において第一音量値が第一基準値より大きいか否かをまず判断する。第一音量値が第一基準値よりも大きいと判断された場合、S31において第二音声データに対して音声認識処理を行って第二音声データに基づくテキストデータを生成し、生成したテキストデータに、第一対応データ95における基準データ「起動(キドウ)」が含まれるか否かをS33において判断する。S31において生成したテキストデータに基準データ「起動(キドウ)」と同一のデータが含まれる場合、S49において第三音声データに対して音声認識処理を行って第三音声データに基づくテキストデータを生成し、生成したテキストデータに基づくHMD1の制御がS53において実行される。このため、ユーザは第一音声および第二音声の発声によって、第三音声に基づく音声認識処理をハンズフリーでHMD1に実行させることができる。
As described above, the
CPU51は、S14の判断において第一期間が所定の範囲内でない場合には、第一音声が所定の音声でないとみなして処理をS11へ戻し、第二音声データに対して音声認識処理を行って第二音声データに基づくテキストデータを生成するS31の処理を回避する。従ってCPU51は、音声判断処理の単純化および所定の音声以外の音声によって第二音声データに対する音声認識処理が誤って実行されてHMD1が誤作動することを防止できる。
If the first period is not within the predetermined range in the determination of S14, the
CPU51は、S18の判断において第二音量値が第二基準値より大きい場合、第二音声に対応する音声の発声が開始されたとみなし、RAM52の第二タイマカウンタに第二監視時間に対応する値をセットする。S26の判断において第二監視時間内に第二音量値が第三基準値を下回らない場合には、第二音声データに対応する音声の発声が終了されないとみなして、CPU51は、S31の処理を回避できる。第二監視時間は、第二音声データに対応する音声として想定する特定の単語「起動(キドウ)」が発声される時間に相当する任意の値を設定する。即ち、第二監視時間内に音声の発声が終了されるか否かをS26において判断し、発声が終了されない場合には、第二音声データの取得を中止する。従ってCPU51は、音声判断処理の単純化および効率化を図ることができる。
When the second sound volume value is larger than the second reference value in the determination of S18, the
CPU51は、第二音声データの取得を開始すると、S16においてRAM52の第一タイマカウンタに第一監視時間に対応する値をセットする。第一監視時間は、第一音声データに対応する音声として想定する「ハイ」と第二音声データに対応する音声として想定する特定の単語「起動(キドウ)」との、それぞれの発声の間隔として想定される任意の時間に相当する値を設定する。S21の判断において第一監視時間内に第二音量値が第二基準値を上回らない場合には、第二音声データに対応する音声の発声が開始されないとみなして、第二音声データの取得を中止する。従ってCPU51は、音声判断処理の単純化および第二音声データの取得待機を継続することによる処理遅延を防止できる。
When starting the acquisition of the second audio data, the
CPU51は、S33の判断において第一対応データ95を参照し、第二音声データに対して音声認識処理を行うことによって生成される第二音声データに基づくテキストデータに、基準データと同一のデータが含まれるか否かを判断する。また、S51の判断において第二対応データ96を参照し、第三音声データに対して音声認識処理を行うことによって生成される第三音声データに基づくテキストデータに、操作データと同一のデータが含まれるか否かを判断する。第二音声データに基づくテキストデータに対する判断と、第三音声データに基づくテキストデータに対する判断において、参照する対応データを第一対応データ95と第二対応データ96とに切り替えることで、S33およびS51の判断の精度をそれぞれ向上させることができる。よってCPU51は、より確実に、HMD1の制御を行うことができる。
The
第一対応データ95に含まれる基準データと処理データとの組の数は、第二対応データ96に含まれる操作データと処理データとの組の数よりも少ないため、特に第一音声データに基づくテキストデータに対するS33の判断の精度と判断処理の迅速性を向上できる。
Since the number of sets of reference data and processing data included in the
第一基準値は第二基準値よりも大きいため、HMD1に第三音声に基づく動作を実行させるためには、ユーザは第二音声データに対応する音声よりも第一音声データに対応する音声を大きく発声する必要がある。これにより、第一音声データに基づいて種々の処理が誤って実行されることを防止できる。
Since the first reference value is larger than the second reference value, in order to cause the
本実施形態において、図5のS11において第一音声データを取得するCPU51が、本発明の「第一音声取得手段」として機能する。図5のS12において第一音量値を取得するCPU51が、本発明の「第一音量取得手段」として機能する。図5のS13において第一音量値が第一基準値よりも大きいか否かを判断するCPU51が、本発明の「第一音量判断手段」として機能する。図5のS15において第二音声データの取得を開始するとともに第二音声データの取得を継続するCPU51が、本発明の「第二音声取得手段」として機能する。図6のS30およびS31において第二音声データに対する音声認識処理を行い第二音声データに基づくテキストデータを生成するCPU51が、本発明の「第一生成手段」として機能する。図6のS33においてS31で生成したテキストデータに、第一対応データ95における基準データが含まれるか否かを判断するCPU51が、本発明の「第一結果判断手段」として機能する。図7のS41において第三音声データの取得を開始するとともに第三音声データの取得を継続するCPU51が、「第三音声取得手段」として機能する。図7のS48およびS49において第三音声データに対する音声認識処理を行い第三音声データに基づくテキストデータを生成するCPU51が、本発明の「第二生成手段」として機能する。フラッシュROM53に記憶される第一対応データ95が、本発明の「対応データ」および「第一対応データ」に相当する。フラッシュROM53に記憶される第二対応データ96が、本発明の「対応データ」および「第二対応データ」に相当する。図7のS51においてS49で生成したテキストデータに第二対応データ96における操作データが含まれるか否かを判断するCPU51が、本発明の「第二結果判断手段」として機能する。図7のS53において操作データに対応付けられた処理データに基づく動作をHMD1に実行させるCPU51が、本発明の「実行手段」として機能する。
In the present embodiment, the
図5のS14において第一期間の時間情報が所定の範囲内であるか否かを判断するCPU51が、本発明の「第一期間判断手段」として機能する。図5のS17において第二音声データに基づいて第二音量値を決定するCPU51が、本発明の「第二音量決定手段」として機能する。図5のS18において第二音量値が第二基準値より大きいか否かを判断するCPU51が、本発明の「第二音量判断手段」として機能する。RAM52に記憶され第二監視時間を計測する第二タイマカウンタが本発明の「計測手段」に相当する。図5のS23において第二音量値が第三基準値よりも小さいか否かを判断するCPU51が、本発明の「第二音声終了判断手段」として機能する。第一対応データ95および第二対応データ96を記憶するフラッシュROM53が、本発明の「記憶手段」に相当する。
The
S11における第一音声データを取得する処理が、本発明の「第一音声取得手段ステップ」に相当する。S12における第一音量値を決定する処理が、本発明の「第一音量決定ステップ」に相当する。S13における第一音量値が第一基準値よりも大きいか否かを判断する処理が、本発明の「第一音量判断ステップ」に相当する。S15において第二音声データを取得する処理が、本発明の「第二音声取得ステップ」に相当する。S30およびS31において第二音声データに対する音声認識処理を行い第二音声データに基づくテキストデータを生成する処理が、本発明の「第一生成ステップ」に相当する。S33においてS31で生成したテキストデータに、第一対応データ95における操作データが含まれるか否かを判断する処理が、本発明の「第一結果判断ステップ」に相当する。S41において第三音声データを取得する処理が、本発明の「第三音声取得ステップ」に相当する。S48およびS49において第三音声データに対する音声認識処理を行い第三音声データに基づくテキストデータを生成する処理が、本発明の「第二生成ステップ」に相当する。S51においてS49で生成したテキストデータに第二対応データ96における操作データが含まれるか否かを判断する処理が、本発明の「第二結果判断ステップ」に相当する。S53において操作データに対応付けられた処理データに基づく動作をHMD1に実行させる処理が、本発明の「実行ステップ」に相当する。
The process of acquiring the first voice data in S11 corresponds to the “first voice acquisition means step” of the present invention. The process of determining the first volume value in S12 corresponds to the “first volume determination step” of the present invention. The process of determining whether or not the first volume value in S13 is greater than the first reference value corresponds to the “first volume determination step” of the present invention. The process of acquiring the second audio data in S15 corresponds to the “second audio acquisition step” of the present invention. The process of performing the speech recognition process on the second voice data in S30 and S31 and generating the text data based on the second voice data corresponds to the “first generation step” of the present invention. The process of determining whether or not the operation data in the
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更が可能であることは勿論である。上記実施形態では、S13の判断において用いられる第一基準値が、S18の判断において用いられる第二基準値よりも大きな値となるように設定している。しかし、HMD1の使用環境等によっては、第一音声データに対応する音声を第二音声データに対応する音声よりも大きく発声することが難しいことも考えられる。このため、必ずしも第一基準値が第二基準値よりも大きな値である必要はない。
In addition, this invention is not limited to the said embodiment, Of course, various changes are possible within the range which does not deviate from the summary of this invention. In the above embodiment, the first reference value used in the determination in S13 is set to be larger than the second reference value used in the determination in S18. However, depending on the usage environment of the
上記実施形態では、第二音声データおよび第三音声データに対応する音声の発声終了の判断を、第二音量値および第三音量値が第三基準値を下回るか否かによって行っている。しかし、ユーザによる音声の発声終了の判断手法はこれに限られない。例えば、CPU51は、第二音声データが示す音の周波数に特有の周波数帯(例えば、人間の声域に対応する数百Hz)が含まれるか否かを判断し、特有の周波数帯が含まれなくなった場合にユーザによる音声の発声が終了されたとみなすこと等によって判断してもよい。
In the above-described embodiment, the end of voice production corresponding to the second audio data and the third audio data is determined based on whether the second volume value and the third volume value are lower than the third reference value. However, the method for determining the end of speech by the user is not limited to this. For example, the
上記実施形態において、S42からS47(図7参照)の一連の処理は、第三監視時間が経過する前に、第三音量値が第三基準値を下回るか否かによって、ユーザの第三音声データに対応する音声の発声の開始から終了までを判断するための処理である。この一連の処理は、S16からS25(図5参照)のにおけるユーザの第二音声データに対応する音声の発声の開始から終了までを判断する一連の処理と同様である。このため、本実施形態では、S18およびS23(図5参照)の判断基準である第二基準値および第三基準値を、S44およびS46(図7参照)においても同様に第二基準値および第三基準値を判断基準とすることで、データの共通化を図っている。ただし、必ずしも第二基準値および第三基準値を共通して使用する必要はない。HMD1の使用環境、用途等に応じて、任意の基準値を設定してよい。
In the above embodiment, a series of processing from S42 to S47 (see FIG. 7) is performed by determining whether the third sound value of the user is lower than the third reference value before the third monitoring time elapses. This is a process for determining from the start to the end of the voice corresponding to the data. This series of processing is the same as the series of processing for determining from the start to the end of the voice corresponding to the user's second voice data in S16 to S25 (see FIG. 5). For this reason, in the present embodiment, the second reference value and the third reference value, which are the determination criteria of S18 and S23 (see FIG. 5), are similarly used in S44 and S46 (see FIG. 7). The data is shared by using the three reference values as criteria. However, it is not always necessary to use the second reference value and the third reference value in common. An arbitrary reference value may be set according to the usage environment, application, etc. of the
上記実施形態では、第一タイマカウンタ、第二タイマカウンタ、第三タイマカウンタの3つのタイマカウンタをRAM52に設けて、それぞれ経過時間を監視している。タイマカウンタは必ずしも3つ設ける必要はなく、同一のタイマカウンタをそれぞれの経過時間を監視する処理において使用することとして、監視する時間に対応する値をタイマカウンタに都度セットしてもよい。
In the above embodiment, the three timer counters of the first timer counter, the second timer counter, and the third timer counter are provided in the
上記実施形態では、音声判断処理は、HMD1のCPU51によって実行されていたが、これに限定されない。例えば、音声判断処理の中において実行される音声操作処理は、サーバ80のCPU81が実行する処理であってもよい。即ち、サーバ80が第三音声データの音声認識処理を実行してもよい。以下、サーバ80のCPU81によって音声操作処理が実行される場合の変形例について説明する。
In the above embodiment, the voice determination process is executed by the
以下の説明では、HMD1のCPU51とサーバ80のCPU81は、それぞれ、無線通信部59、通信部86を介してネットワーク9に接続され、相互にデータを送受信可能であるとする。また、音声操作処理を実行するプログラム、第二対応データ96等は、HDD84に記憶されているとする。以下の説明では、HMD1のCPU51が音声操作処理を実行する場合と異なる処理について説明し、他の処理の説明は省略する。
In the following description, it is assumed that the
S41で第三音声データの取得が開始されると、CPU81は第三音声データを取得し、取得した第三音声データをRAM83に記憶する処理を開始する。CPU81が取得する第三音声データは、HMD1のCPU51がマイク17を介して取得し、サーバ80に送信した音声データである。また、S42およびS45において第三監視時間に対応する値がセットさおよびクリアされる第三タイマカウンタは、RAM83に記憶される。S43で逐次取得される第三音量値は、RAM83に記憶された第三音声データに基づいて決定される。S48において、CPU81は、公知の音声認識処理(図示略)を実行し、RAM83に保存した第二音声データに対する音声認識処理を行う。CPU51は、音声認識処理を行って認識した第三音声データをテキストデータに変換し(S49)、RAM83に記憶する。次いで、CPU81は、音声認識プログラムの初回実行時にRAM83に展開した第二対応データ96(図4参照)を参照する(S50)。CPU81は、S51において含まれると判断された操作データが「終了」以外の操作データであれば(S52:NO)、操作データに対応付けられた処理データに基づく動作をHMD1に実行させる(S53)。CPU81は、S51において含まれると判断された操作データが「終了」である場合には(S52:YES)、音声操作処理を終了する。この場合、CPU81は、処理データに基づく動作を実行する指示のデータまたは音声操作処理の終了の指示のデータをHMD1に送信する。HMD1のCPU51は、処理データに基づく動作を実行する指示または音声操作処理の終了の指示のデータを受信し、処理データに基づく動作または音声操作処理を終了する処理を実行する。
When the acquisition of the third audio data is started in S41, the
以上の処理以外の処理は、HMD1のCPU51が実行する場合と同様である。音声操作処理を、サーバ80のCPU81が実行する場合、サーバ80において最新の状態に更新された音声認識処理および第二対応データ96等によって、第三音声データの音声認識処理および第三音声データのテキストデータ化を行える利点がある。
Processing other than the above processing is the same as that executed by the
本変形例において、S48およびS49において第三音声データに対する音声認識処理を行い第三音声データに基づくテキストデータを生成するCPU81が、本発明の「第二生成手段」として機能する。HDD84に記憶される第二対応データ96が、本発明の「対応データ」および「第二対応データ」に相当する。S51においてS49で生成したテキストデータに第二対応データ96における操作データが含まれるか否かを判断するCPU81が、本発明の「第二結果判断手段」として機能する。S53において操作データに対応付けられた処理データに基づく動作をHMD1に実行させるCPU81が、本発明の「実行手段」として機能する。第二対応データ96を記憶するHDD84が、本発明の「記憶手段」に相当する。
In this modification, the
なお、音声操作処理におけるすべての処理をCPU51およびCPU81の一方のみがすべて実行する必要はなく、CPU51が実行する処理とCPU81が実行する処理とを分けてもよい。
Note that it is not necessary for only one of the
1 ヘッドマウントディスプレイ(HMD)
17 マイク
50 コントロールボックス(CB)
51 CPU
52 RAM
53 フラッシュROM
95 第一対応データ
96 第二対応データ
1 Head mounted display (HMD)
17
51 CPU
52 RAM
53 Flash ROM
95
Claims (8)
前記第一音声取得手段によって取得された前記第一音声データに対応する第一音量値を決定する第一音量決定手段と、
前記第一音量値が第一基準値より大きいか否かを判断する第一音量判断手段と、
前記第一音量判断手段によって前記第一音量値が前記第一基準値より大きいと判断された場合、前記第一音声データの後に前記マイクから出力された第二音声データを取得する第二音声取得手段と、
前記第二音声取得手段によって取得された前記第二音声データに基づいて、前記第二音声データに対応する第一結果データを生成する第一生成手段と、
前記第一生成手段によって生成された前記第一結果データに特定の単語に対応する基準データが含まれるか否かを判断する第一結果判断手段と、
前記第一結果判断手段によって前記第一結果データに前記基準データが含まれると判断された場合、前記第二音声データの後に前記マイクから出力された第三音声データを取得する第三音声取得手段と、
前記第三音声取得手段によって取得された前記第三音声データに対して音声認識処理を実行することで、対応するテキストデータを示す第二結果データを生成する第二生成手段と、
所定のテキストデータで示される操作データと、処理についてのデータである処理データとが対応付けられた対応データを参照し、前記第二生成手段によって生成された前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれるか否かを判断する第二結果判断手段と、
前記第二結果判断手段によって、前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれると判断された場合、前記第二結果データによって示されるテキストデータに同一のデータが含まれると判断された前記操作データに対応付けられた前記処理データに基づく処理を実行する実行手段と
を備えたことを特徴とする音声認識装置。 First sound acquisition means for acquiring first sound data output from a microphone that outputs sound data according to the input sound;
First volume determination means for determining a first volume value corresponding to the first sound data acquired by the first sound acquisition means;
First volume determination means for determining whether the first volume value is greater than a first reference value;
Second sound acquisition for acquiring second sound data output from the microphone after the first sound data when the first sound volume determination means determines that the first sound volume value is greater than the first reference value Means,
First generation means for generating first result data corresponding to the second voice data based on the second voice data acquired by the second voice acquisition means;
First result determination means for determining whether or not reference data corresponding to a specific word is included in the first result data generated by the first generation means;
Third voice acquisition means for acquiring third voice data output from the microphone after the second voice data when the first result judgment means determines that the reference data is included in the first result data When,
Second generation means for generating second result data indicating corresponding text data by executing voice recognition processing on the third voice data acquired by the third voice acquisition means;
Text data indicated by the second result data generated by the second generation means with reference to corresponding data in which operation data indicated by predetermined text data is associated with processing data which is data about processing Second result judging means for judging whether or not the same data as the operation data is included in
When the second result determining means determines that the same data as the operation data is included in the text data indicated by the second result data, the same data is included in the text data indicated by the second result data. A speech recognition apparatus comprising: an execution unit configured to execute processing based on the processing data associated with the operation data determined to be included.
前記第一生成手段は、前記第一期間判断手段によって前記第一期間が前記所定の範囲内であると判断された場合、前記第一結果データの生成を行い、前記第一期間が前記所定の範囲内でないと判断された場合、前記第一結果データの生成を行わないことを特徴とする請求項1に記載の音声認識装置。 When the first volume determination unit determines that the first volume value is greater than the first reference value, a first period that is a period in which the first volume value is greater than the first reference value is a predetermined period. A first period judging means for judging whether or not it is within the range;
The first generation unit generates the first result data when the first period determination unit determines that the first period is within the predetermined range, and the first period is the predetermined period. The speech recognition apparatus according to claim 1, wherein the first result data is not generated when it is determined that it is not within the range.
前記第二音量値が第二基準値より大きいか否かを判断する第二音量判断手段と、
前記第二音量判断手段によって前記第二音量値が前記第二基準値より大きいと判断された場合、前記第二音量値が前記第二基準値より大きいと判断された時点から経過する一定時間を計測可能な計測手段と、
前記第二音量値が第三基準値より小さいか否かを判断する第二音声終了判断手段とを備え、
前記第一生成手段は、前記計測手段によって計測される前記一定時間内に、前記第二音声終了判断手段によって前記第二音量値が前記第三基準値より小さいと判断されない場合、前記第一結果データの生成を行わないことを特徴とする請求項1または2に記載の音声認識装置。 When the first sound volume determination means determines that the first sound volume value is greater than the first reference value, a second sound volume value corresponding to the second sound data acquired by the second sound acquisition means is determined. Second volume determining means to perform,
Second volume determination means for determining whether the second volume value is greater than a second reference value;
When the second volume determination unit determines that the second volume value is greater than the second reference value, a predetermined time elapses from the time when the second volume value is determined to be greater than the second reference value. Measurable measuring means,
A second voice end judging means for judging whether or not the second volume value is smaller than a third reference value;
If the second sound value is not determined to be smaller than the third reference value by the second sound end determining means within the certain time measured by the measuring means, the first generating means is the first result. 3. The speech recognition apparatus according to claim 1, wherein no data is generated.
前記第一生成手段は、前記第二音声データに対して音声認識処理を実行することで、対応するテキストデータを示す前記第一結果データを生成し、
前記第一結果判断手段は、前記第一対応データを参照し、前記第一生成手段によって生成された前記第一結果データによって示されるテキストデータに前記基準データと同一のデータが含まれるか否かを判断し、
前記第二結果判断手段は、前記第二対応データを参照し、前記第二生成手段によって生成された前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれるか否かを判断することを特徴とする請求項1から4のいずれかに記載の音声認識装置。 The reference data is the operation data, and includes storage means for storing first correspondence data in which the reference data and the processing data are associated and second correspondence data different from the first correspondence data,
The first generation means generates the first result data indicating the corresponding text data by executing a voice recognition process on the second voice data,
The first result determination means refers to the first correspondence data, and whether or not the text data indicated by the first result data generated by the first generation means includes the same data as the reference data Judging
The second result determination means refers to the second correspondence data, and whether or not the text data indicated by the second result data generated by the second generation means includes the same data as the operation data. The speech recognition apparatus according to claim 1, wherein:
前記第一音声取得ステップにおいて取得された前記第一音声データに対応する第一音量値を決定する第一音量決定ステップと、
前記第一音量値が第一基準値より大きいか否かを判断する第一音量判断ステップと、
前記第一音量判断ステップにおいて前記第一音量値が前記第一基準値より大きいと判断された場合、前記第一音声データの後に前記マイクから出力された第二音声データを取得する第二音声取得ステップと、
前記第二音声取得ステップにおいて取得された前記第二音声データに基づいて、前記第二音声データに対応する第一結果データを生成する第一生成ステップと、
前記第一生成ステップにおいて生成された前記第一結果データに特定の単語に対応する基準データが含まれるか否かを判断する第一結果判断ステップと、
前記第一結果判断ステップにおいて前記第一結果データに前記基準データが含まれると判断された場合、前記第二音声データの後に前記マイクから出力された第三音声データを取得する第三音声取得ステップと、
前記第三音声取得ステップにおいて取得された前記第三音声データに対して音声認識処理を実行することで、対応するテキストデータを示す第二結果データを生成する第二生成ステップと、
所定のテキストデータで示される操作データと、処理についてのデータである処理データとが対応付けられた対応データを参照し、前記第二生成ステップにおいて生成された前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれるか否かを判断する第二結果判断ステップと、
前記第二結果判断ステップにおいて、前記第二結果データによって示されるテキストデータに前記操作データと同一のデータが含まれると判断された場合、前記第二結果データによって示されるテキストデータに同一のデータが含まれると判断された前記操作データに対応付けられた前記処理データに基づく処理を実行する実行ステップと
をコンピュータに実行させるための音声認識プログラム。 A first voice acquisition step of acquiring first voice data output from a microphone that outputs voice data according to the input voice;
A first sound volume determination step for determining a first sound volume value corresponding to the first sound data acquired in the first sound acquisition step;
A first volume determination step of determining whether the first volume value is greater than a first reference value;
Second sound acquisition for acquiring second sound data output from the microphone after the first sound data when it is determined in the first sound volume determination step that the first sound volume value is greater than the first reference value Steps,
A first generation step of generating first result data corresponding to the second voice data based on the second voice data acquired in the second voice acquisition step;
A first result determination step of determining whether or not the first result data generated in the first generation step includes reference data corresponding to a specific word;
A third sound acquisition step of acquiring third sound data output from the microphone after the second sound data when it is determined in the first result determination step that the reference data is included in the first result data; When,
A second generation step of generating second result data indicating the corresponding text data by executing voice recognition processing on the third voice data acquired in the third voice acquisition step;
Text data indicated by the second result data generated in the second generation step with reference to correspondence data in which operation data indicated by predetermined text data is associated with processing data which is data about processing A second result determination step for determining whether or not the same data as the operation data is included,
In the second result determining step, when it is determined that the text data indicated by the second result data includes the same data as the operation data, the same data is included in the text data indicated by the second result data. A speech recognition program for causing a computer to execute an execution step of executing a process based on the processing data associated with the operation data determined to be included.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204500A JP2015069086A (en) | 2013-09-30 | 2013-09-30 | Voice recognition device and voice recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013204500A JP2015069086A (en) | 2013-09-30 | 2013-09-30 | Voice recognition device and voice recognition program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015069086A true JP2015069086A (en) | 2015-04-13 |
Family
ID=52835778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013204500A Pending JP2015069086A (en) | 2013-09-30 | 2013-09-30 | Voice recognition device and voice recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015069086A (en) |
-
2013
- 2013-09-30 JP JP2013204500A patent/JP2015069086A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6344125B2 (en) | Display device, display device control method, and program | |
US20190146753A1 (en) | Automatic Speech Recognition (ASR) Feedback For Head Mounted Displays (HMD) | |
US10490101B2 (en) | Wearable device, display control method, and computer-readable recording medium | |
EP3220372B1 (en) | Wearable device, display control method, and display control program | |
US10325614B2 (en) | Voice-based realtime audio attenuation | |
US20170243520A1 (en) | Wearable device, display control method, and computer-readable recording medium | |
US20040243416A1 (en) | Speech recognition | |
CN103777351A (en) | Multimedia glasses | |
KR102374620B1 (en) | Device and system for voice recognition | |
JP2007334149A (en) | Head mount display apparatus for hearing-impaired persons | |
JP2008139762A (en) | Presentation support device, method, and program | |
JP2016033757A (en) | Display device, method for controlling display device, and program | |
JP2017102516A (en) | Display device, communication system, control method for display device and program | |
JP6364735B2 (en) | Display device, head-mounted display device, display device control method, and head-mounted display device control method | |
KR20120127773A (en) | Vocal recognition information retrieval system and method the same | |
JP2020047062A (en) | Electronic device and control method | |
JP6064736B2 (en) | Information storage device and information storage program | |
JP5929811B2 (en) | Image display device and image display program | |
JP2015069086A (en) | Voice recognition device and voice recognition program | |
JP2020047061A (en) | Electronic device and control method | |
JP6064737B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2017037212A (en) | Voice recognizer, control method and computer program | |
KR20240042461A (en) | Silent voice detection | |
JP7143579B2 (en) | voice input device | |
WO2022270456A1 (en) | Display control device, display control method, and program |