JP6518096B2 - Speech recognition system and speech recognition method - Google Patents
Speech recognition system and speech recognition method Download PDFInfo
- Publication number
- JP6518096B2 JP6518096B2 JP2015053376A JP2015053376A JP6518096B2 JP 6518096 B2 JP6518096 B2 JP 6518096B2 JP 2015053376 A JP2015053376 A JP 2015053376A JP 2015053376 A JP2015053376 A JP 2015053376A JP 6518096 B2 JP6518096 B2 JP 6518096B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- event
- dictionary
- information
- storage device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Description
本発明は、音声認識に使用する音声辞書を選択する技術に関する。 The present invention relates to a technology for selecting a speech dictionary used for speech recognition.
昨今、「ながらスマホ」という言葉が巷に流布されている。この言葉は、ユーザが、なんらかの行動を起こしつつ、同時に、スマートフォン等の携帯端末装置を使用することを意味し、危険な行為として警鐘が鳴らされている。このような問題は、携帯端末装置の使用(閲覧や操作)に際し、ユーザは当該携帯端末装置に視線を注ぐ必要があり、これによって周囲に対するユーザの目視力が低下することに原因がある。多くの携帯端末装置において、ユーザは、情報を受け取るためにはディスプレイを閲覧しなければならず、情報を入力する(操作する)ためにはタッチパネルやキーを注視しなければならないからである。 In recent years, the word "while smartphone" has been widely distributed. This word means that the user takes some action and at the same time uses a portable terminal device such as a smartphone, and the alarm is sounded as a dangerous act. Such a problem is caused by the fact that the user needs to look at the mobile terminal device when using (viewing and operating) the mobile terminal device, which reduces the user's visual power with respect to the surroundings. In many portable terminal devices, the user must browse the display to receive information, and must gaze at a touch panel or key to input (manipulate) information.
従来より、携帯端末装置がユーザに情報を提供する方法として、スピーカから音声を流すなどの音声案内が知られている。また、ユーザの発した言葉(音声)に対して音声認識処理を実行し、携帯端末装置に情報を入力する技術が知られている。このように、音声案内および音声認識を採用すれば、ユーザの視線を必要とすることなく携帯端末装置を使用することができる。すなわち、音声を用いたユーザインタフェース、特に、音声認識を快適に利用するための技術は、昨今の携帯端末装置に欠かすことのできない技術になりつつある。 2. Description of the Related Art Conventionally, as a method for a portable terminal device to provide information to a user, voice guidance such as streaming voice from a speaker is known. In addition, there is known a technology of performing speech recognition processing on words (voice) uttered by a user and inputting information to a portable terminal device. As described above, by adopting voice guidance and voice recognition, it is possible to use the portable terminal device without requiring the user's gaze. That is, a user interface using speech, in particular, a technology for comfortably using speech recognition is becoming an indispensable technology for the recent portable terminal devices.
音声認識の技術において、入力された音声の音声認識率を向上させるために、ユーザの位置情報に応じて、複数の音声認識辞書の中から、最適な音声認識辞書を選択して切り替える技術が提案されている。例えば、特許文献1には、3軸ジャイロセンサーおよび3軸加速度センサーの出力に基づいて、作業者の相対的な位置を演算し、求められた作業者の相対的な位置に応じて、音声認識辞書を選択する技術が記載されている。 In the technology of speech recognition, in order to improve the speech recognition rate of the input speech, a technology is proposed that selects and switches the optimum speech recognition dictionary from among a plurality of speech recognition dictionaries according to the position information of the user It is done. For example, in Patent Document 1, the relative position of the operator is calculated based on the outputs of the 3-axis gyro sensor and the 3-axis acceleration sensor, and voice recognition is performed according to the determined relative position of the operator. Techniques for selecting a dictionary are described.
また、消費電力を抑制する技術として、消費電力の小さいマイコンをメインCPUとは別に搭載する技術が知られている。当該マイコンは、定常的に監視する必要があるセンサなどを制御し、その間、必要に応じてメインCPUを休ませることにより、全体として消費電力を抑制する。消費電力の抑制技術は、電力の供給能力の劣る携帯端末装置において特に重要である。 Further, as a technology for suppressing power consumption, there is known a technology in which a microcomputer with small power consumption is mounted separately from the main CPU. The microcomputer controls a sensor or the like that needs to be regularly monitored, and in the meantime, the main CPU is turned off as needed to suppress power consumption as a whole. Power consumption control techniques are particularly important in portable terminal devices with poor power supply capabilities.
ところが、特許文献1に記載されている技術では、作業者(ユーザ)は、「会計入ります」というように、これからの作業の内容などを示す音声を入力しなければ、音声認識辞書の切り替えが行われないという問題があった。すなわち、音声認識辞書を切り替えるためのトリガ(契機)は、ユーザ自身が、意識的に、かつ、確実に実行しなければならないという問題があった。 However, in the technology described in Patent Document 1, if the worker (user) does not input a voice indicating the content of the work to be done from now on, such as "I am entering an account," switching of the voice recognition dictionary is required. There was a problem that it was not done. That is, there is a problem that the user has to execute the trigger for switching the speech recognition dictionary consciously and surely.
ユーザに音声認識辞書の切り替えを意識させないためには、音声認識辞書を切り替えるトリガとなる事象の発生を監視し続けなければならず、電力消費が増大するという問題を生じる。すなわち、特許文献1に記載されている技術は、入力された音声の認識率を向上させることにのみ注視しており、認識率の向上と消費電力の抑制とを両立させるという視点に欠ける技術である。 In order not to make the user aware of the switching of the speech recognition dictionary, the occurrence of an event that triggers the switching of the speech recognition dictionary has to be continuously monitored, resulting in a problem of increased power consumption. That is, the technology described in Patent Document 1 focuses only on improving the recognition rate of the input speech, and lacks the viewpoint of achieving both improvement of the recognition rate and suppression of power consumption. is there.
本発明は、上記課題に鑑みてなされたものであり、音声認識の認識精度を低下させることなく、消費電力を抑制する技術を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a technology for suppressing power consumption without reducing the recognition accuracy of speech recognition.
上記の課題を解決するため、請求項1の発明は、音声を音声辞書により認識する音声認識システムであって、通常動作モードと前記通常動作モードに比べて消費電力が抑制される省電力モードとの間で動作モードを切り替えることが可能な第1演算装置と、予め想定される複数の事象と前記音声辞書の候補となる複数の音声辞書候補とを関連づけて記憶する第1記憶装置と、事象を検出するための物理量を観測情報として取得する観測手段と、前記音声を音声情報として取得するマイクロフォンと、前記音声辞書を記憶する第2記憶装置と、前記第2記憶装置にアクセスする第2演算装置とを備え、前記第2演算装置は、前記観測手段により取得された観測情報に基づいて、前記予め想定される複数の事象の中から現在生じている事象を検出する事象検出手段と、前記マイクロフォンにより取得された音声情報と前記第2記憶装置に記憶された音声辞書とに基づいて、音声認識を実行する音声認識手段とを備え、前記事象検出手段により現在生じている事象として検出された事象に応じて、前記第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する選択手段をさらに備え、前記選択手段により選択された1の音声辞書候補を前記音声辞書として前記第2記憶装置に記憶させ、前記第1演算装置を前記省電力モードで動作させつつ前記第2演算装置を動作させたときの消費電力が、前記第1演算装置を前記通常動作モードで動作させたときの消費電力よりも小さい。 In order to solve the above-mentioned problems, the invention according to claim 1 is a voice recognition system for recognizing voice by a voice dictionary, and a power saving mode in which power consumption is suppressed as compared with a normal operation mode and the normal operation mode. A first storage device capable of switching an operation mode between the first storage device, a first storage device associating and storing a plurality of events assumed in advance and a plurality of speech dictionary candidates serving as candidates for the speech dictionary; Monitoring means for acquiring physical quantities for detecting the detection information as observation information, a microphone for acquiring the speech as speech information, a second storage device for storing the speech dictionary, and a second operation for accessing the second storage device And the second computing device detects an event that is currently occurring from among the plurality of events assumed in advance, based on the observation information acquired by the observation means. Event detection means, and speech recognition means for performing speech recognition based on the speech information acquired by the microphone and the speech dictionary stored in the second storage device; The system further comprises selection means for selecting one speech dictionary candidate from among a plurality of speech dictionary candidates stored in the first storage device according to an event detected as an occurring event, the selection by the selection means Power consumption when one voice dictionary candidate is stored as the voice dictionary in the second storage device and the first computing device is operated in the power saving mode and the second computing device is operated; It is smaller than the power consumption when the first arithmetic device is operated in the normal operation mode.
また、請求項2の発明は、請求項1の発明に係る音声認識システムであって、前記観測手段は、ユーザの動きに起因する物理量を観測情報として取得し、前記事象検出手段は、現在生じている事象として、前記ユーザの行動を推定する。
The invention according to
また、請求項3の発明は、請求項2の発明に係る音声認識システムであって、前記事象検出手段は、前記ユーザの姿勢を推定することにより、前記ユーザの行動を推定する。
The invention of
また、請求項4の発明は、請求項1ないし3のいずれかの発明に係る音声認識システムであって、前記複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている。 The invention according to claim 4 is the speech recognition system according to any one of claims 1 to 3, wherein the plurality of speech dictionary candidates are selected according to the event to be associated with. It is done.
また、請求項5の発明は、請求項1ないし4のいずれかの発明に係る音声認識システムであって、ユーザにより携帯され、前記第1演算装置、前記第2演算装置および前記第2記憶装置を備える携帯端末装置と、前記携帯端末装置との間でデータ通信が可能な状態で接続され、前記第1記憶装置および前記選択手段を備えるサーバ装置とを備える。 The invention according to claim 5 is the speech recognition system according to any one of claims 1 to 4, wherein the first arithmetic device, the second arithmetic device, and the second storage device are carried by a user. And a server device connected in a state in which data communication can be performed between the mobile terminal device and the mobile terminal device and including the first storage device and the selection unit.
また、請求項6の発明は、請求項1ないし5のいずれかの発明に係る音声認識システムであって、前記第2記憶装置は、過去の履歴情報を記憶しており、前記事象検出手段は、前記第2記憶装置に記憶された履歴情報に基づいて、現在生じている事象を推定する。 The invention according to claim 6 is the speech recognition system according to any one of claims 1 to 5, wherein the second storage device stores past history information, and the event detection means The present invention estimates the currently occurring event based on the history information stored in the second storage device.
また、請求項7の発明は、音声を音声辞書により認識する音声認識方法であって、予め想定される複数の事象と前記音声辞書の候補となる複数の音声辞書候補とを関連づけて第1記憶装置に記憶する工程と、通常動作モードと前記通常動作モードに比べて消費電力が抑制される省電力モードとの間で第1演算装置の動作モードを切り替える工程と、事象を検出するための物理量を観測手段により観測情報として取得する工程と、前記観測手段により取得された観測情報に基づいて、前記予め想定される複数の事象の中から現在生じている事象を、第2演算装置により検出する工程と、現在生じている事象として前記第2演算装置により検出された事象に応じて、前記第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する工程と、選択された前記1の音声辞書候補を前記音声辞書として、前記第2演算装置によりアクセスされる第2記憶装置に記憶させる工程と、前記音声をマイクロフォンにより音声情報として取得する工程と、前記マイクロフォンにより取得された音声情報と前記第2記憶装置に記憶された音声辞書とに基づいて、前記第2演算装置により音声認識を実行する工程とを有し、前記第1演算装置を前記省電力モードで動作させつつ前記第2演算装置を動作させたときの消費電力が、前記第1演算装置を前記通常動作モードで動作させたときの消費電力よりも小さい。 The invention according to claim 7 is a speech recognition method for recognizing speech by means of a speech dictionary, wherein a plurality of events assumed in advance are associated with a plurality of speech dictionary candidates serving as candidates for the speech dictionary to store the first memory. A step of storing in the device, a step of switching the operation mode of the first arithmetic device between the normal operation mode and a power saving mode in which the power consumption is reduced compared to the normal operation mode, physical quantities for detecting an event Detecting a currently occurring event from the plurality of events assumed in advance by the second computing device based on the step of acquiring the observation information as observation information by the observation means, and the observation information acquired by the observation means One speech dictionary candidate out of a plurality of speech dictionary candidates stored in the first storage device in accordance with the process and the event detected by the second arithmetic device as the currently occurring event. Selecting the selected voice dictionary candidate as the voice dictionary and storing the selected voice dictionary candidate in the second storage device accessed by the second computing device; and obtaining the voice as voice information by the microphone Performing the voice recognition by the second computing device based on the process, and the voice information acquired by the microphone and the voice dictionary stored in the second storage device, the first computing device The power consumption when operating the second arithmetic device while operating in the power saving mode is smaller than the power consumption when operating the first arithmetic device in the normal operation mode.
請求項1ないし7に記載の発明は、第1演算装置を省電力モードで動作させつつ第2演算装置によって音声認識を実行することにより、第1演算装置を省電力モードで動作させつつ第2演算装置を動作させたときの消費電力が、第1演算装置を通常動作モードで動作させたときの消費電力よりも小さいため、消費電力を抑制することができる。また、現在生じている事象として検出された事象に応じて、第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択することにより、音声認識の認識精度を低下させることなく、音声辞書の情報容量を抑制することができる。 The invention according to any one of claims 1 to 7 operates the first computing device in the power saving mode by performing voice recognition by the second computing device while operating the first computing device in the power saving mode. Since the power consumption when the arithmetic device is operated is smaller than the power consumption when the first arithmetic device is operated in the normal operation mode, the power consumption can be suppressed. Further, according to an event detected as a currently occurring event, by selecting one speech dictionary candidate from among a plurality of speech dictionary candidates stored in the first storage device, recognition accuracy of speech recognition can be increased. It is possible to suppress the information capacity of the voice dictionary without reducing it.
以下、本発明の好適な実施の形態について、添付の図面を参照しつつ、詳細に説明する。ただし、以下の説明において特に断らない限り、方向や向きに関する記述は、当該説明の便宜上、図面に対応するものであり、例えば実施品、製品または権利範囲等を限定するものではない。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the attached drawings. However, unless otherwise specified in the following description, the description regarding the direction or the direction corresponds to the drawing for the convenience of the description, and does not limit, for example, the implemented product, the product or the scope of rights.
<1. 実施の形態>
図1は、音声認識システム1を示す図である。音声認識システム1は、サーバ装置2と、ユーザによって携帯される携帯端末装置3とを備えている。サーバ装置2と携帯端末装置3との間では、データ通信が可能となるように、図示しないネットワークによって接続されている。このようなネットワークとして、例えば、携帯電話網などを利用することができる。
<1. Embodiment>
FIG. 1 is a diagram showing a speech recognition system 1. The voice recognition system 1 includes a
なお、音声認識システム1が備えるサーバ装置2や携帯端末装置3の数は、図1に示す1台に限定されるものではない。すなわち、音声認識システム1は、複数のサーバ装置2や複数の携帯端末装置3から構成されていてもよい。また、後述するサーバ装置2の構成および機能が複数の装置により分担して実現されていてもよい。さらに、サーバ装置2と携帯端末装置3とを接続するネットワークの形態は、単一のネットワークに限定されるものではなく、複合網であってもよい。また、以下の説明では、サーバ装置2を操作する者を「オペレータ」と称し、携帯端末装置3を操作する者を「ユーザ」と称する。
The number of
図2は、サーバ装置2のブロック図である。サーバ装置2は、CPU20、記憶装置21、操作部22、表示部23および通信部24を備えている。
FIG. 2 is a block diagram of the
CPU20は、記憶装置21に格納されているプログラム210を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、CPU20は、サーバ装置2が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。すなわち、サーバ装置2は、一般的なコンピュータとして構成されている。
The
記憶装置21は、サーバ装置2において各種データを記憶する機能を提供する。言い換えれば、記憶装置21がサーバ装置2において電子的に固定された情報を保存する。
The
記憶装置21としては、CPU20の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)、比較的大容量のデータを記憶するハードディスク、専用の読み取り装置に装着された可搬性の記憶媒体(CD−ROM、DVD−ROM、PCカード、SDカード、USBメモリなど)等が該当する。図2においては、記憶装置21を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置21は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置21は、データを記憶する機能を有する装置群の総称である。
The
また、現実のCPU20は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなCPU20が備える記憶装置も、説明の都合上、記憶装置21に含めて説明する。すなわち、一時的にCPU20自体が記憶するデータも、記憶装置21が記憶するとして説明する。図2に示すように、記憶装置21は、プログラム210、データベース211、選択辞書情報212および更新要求情報311(事象情報372)などを記憶するために使用される。
The
図3は、データベース211の構造を例示する図である。図3に示すように、データベース211は、1つの音声辞書候補ごとに1つのレコードが作成されるテーブル構造の情報である。データベース211の各レコードには、レコード番号と、事象と、音声辞書候補とが互いに関連づけられて格納される。
FIG. 3 is a diagram illustrating the structure of the
レコード番号は、データベース211の各レコードを個別に識別するための識別子である。図3に示す例では、データベース211には、n個のレコードが記録されている(nは2以上の自然数。)。
The record number is an identifier for identifying each record of the
事象は、予め想定されるものであって、例えば、ユーザの状態種別(性別、年齢など)、ユーザの行動種別(調理や学習、通勤など)、周囲の状況種別(天気、季節、時間、屋外や屋内、シーンなど)などである。もちろん、これらの種別が複合的に組み合わされて、1つの事象とされてもよい。事象としては、ユーザの使用する言語の語彙が特徴的に予測できるものを想定することが好ましい。図3に示すデータベース211の例では、事象として、「ショッピング」、「ジョギング」および「デフォルト」が登録されている。
The event is assumed in advance, and for example, the user's condition type (sex, age, etc.), the user's action type (cooking, learning, commuting, etc.), surrounding situation type (weather, season, time, outdoor) And indoors, scenes etc.). Of course, these types may be combined in combination to be one event. As the event, it is preferable to assume that the vocabulary of the language used by the user can be predicted characteristically. In the example of the
音声辞書候補は、予め想定され、データベース211に登録されている複数の事象に対応して、それぞれ準備される個別の音声辞書である。例えば、「ショッピング」に対応して準備され、関連づけられている第1音声辞書は、ショッピングにおいて使用すると予想される語彙(例えば、商品名や店名、値段、用途などの言葉)を主に含む辞書である。また、例えば、「ジョギング」に関連づけられている第2音声辞書は、ジョギングにおいて使用すると予想される語彙(例えば、ペースや脈拍、コース、アドバイス、消費カロリーなどの言葉)を主に含む辞書である。
The speech dictionary candidates are individual speech dictionaries prepared corresponding to a plurality of events assumed in advance and registered in the
このように、データベース211に予め登録しておく複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている。これにより、各語彙に関する認識精度を低下させることなく、音声辞書として使用する情報の容量を抑制することができる。一般的な音声辞書(汎用辞書)は、情報容量が数メガバイト程度である。しかし、事象を特定し、語彙を限定することにより、音声認識システム1は、例えば、音声辞書候補の情報容量として、数キロバイト程度に抑えることができる。
As described above, as for the plurality of speech dictionary candidates registered in advance in the
なお、事象「デフォルト」に関連づけられている「第n音声辞書」は、現在生じている事象(検索キーとしての事象、詳細後述。)が、レコード番号「001」から「n−1」までの事象に該当しないときにも選択される音声辞書候補とする。ここに示す第n音声辞書は、汎用性のある語彙が登録されているものの、精度(例えば、サンプリング周波数)を抑えた音声辞書である。すなわち、サーバ装置2において、第n音声辞書が選択された場合、使用される音声辞書の情報容量は他の音声辞書候補と同等であるが、認識精度は犠牲となる。
The "n-th speech dictionary" associated with the event "default" is an event currently occurring (event as a search key, details will be described later) from record numbers "001" to "n-1". The phonetic dictionary candidate is also selected when it does not correspond to an event. The n-th speech dictionary shown here is a speech dictionary in which general-purpose vocabulary is registered, but the accuracy (for example, sampling frequency) is suppressed. That is, when the n-th speech dictionary is selected in the
すでに説明したように、データベース211の1つのレコードには1つの事象と1つの音声辞書候補とが格納される。そして、データベース211には、複数(n個)のレコードが作成される。すなわち、記憶装置21は、データベース211を記憶することにより、予め想定される複数の事象と、音声辞書の候補となる複数の音声辞書候補とを互いに関連づけて記憶する。したがって、記憶装置21は、第1記憶装置に相当する。
As described above, one record of the
詳細は後述するが、図2に示す選択辞書情報212は、データベース211に登録されている複数の音声辞書候補の中から、CPU20によって選択された1の音声辞書候補を含む情報である。選択辞書情報212は、サーバ装置2から、更新要求情報311(事象情報372)を送信した携帯端末装置3に向けて送信される。
Although details will be described later, the selected
更新要求情報311は、携帯端末装置3において作成され、サーバ装置2により受信される情報である。更新要求情報311は、当該携帯端末装置3を個別に識別する識別子(例えば、ネットワークアドレスなど)と、事象情報372とを含む情報である。詳細は後述するが、携帯端末装置3は、更新要求情報311をサーバ装置2に向けて送信することにより、音声辞書の更新をサーバ装置2に要求する。
The
事象情報372は、先述のように、更新要求情報311に含まれる情報である。詳細は後述するが、事象情報372は、当該事象情報372を含む更新要求情報311を送信した携帯端末装置3において現在生じている事象を示す情報である。
The
操作部22は、サーバ装置2に対してオペレータ等が指示を入力するために操作するハードウェアである。操作部22としては、例えば、各種キーやボタン類、スイッチ、タッチパネル、ポインティングデバイス、あるいは、ジョグダイヤルなどが該当する。操作部22は、例えば、オペレータがデータベース211を構築する際などに操作される。
The
表示部23は、各種データを表示することによりオペレータ等に対して出力する機能を有するハードウェアである。表示部23としては、例えば、ランプやLED、CRT、液晶ディスプレイや液晶パネルなどが該当する。
The
通信部24は、サーバ装置2が携帯端末装置3とデータ通信を行う機能を提供する。すなわち、サーバ装置2は、通信部24により、携帯端末装置3から送信された情報を受信するとともに、携帯端末装置3に向けて情報を送信する。サーバ装置2が携帯端末装置3から受信する情報としては、例えば、更新要求情報311がある。また、サーバ装置2が携帯端末装置3に向けて送信する情報としては、例えば、選択辞書情報212がある。通信部24は、選択辞書情報212を送信するときに、更新要求情報311を参照して、当該更新要求情報311を送信した携帯端末装置3を特定する。
The
図4は、サーバ装置2が備える機能ブロックをデータの流れとともに示す図である。図4に示す選択部200は、CPU20がプログラム210に従って動作することにより実現される機能ブロックである。
FIG. 4 is a diagram showing functional blocks included in the
選択部200は、更新要求情報311に含まれる事象情報372に応じて、記憶装置21に記憶されているデータベース211を検索し、複数の音声辞書候補の中から1の音声辞書候補を選択する。また、選択部200は、選択した1の音声辞書候補を含む選択辞書情報212を作成する。
The
事象情報372は、携帯端末装置3において作成される情報であって、当該携帯端末装置3からサーバ装置2に向けて送信される情報である。携帯端末装置3は、音声辞書を更新する必要が生じた場合、事象情報372を含む更新要求情報311を作成し、サーバ装置2に向けて送信する。すでに説明したように、事象情報372は、携帯端末装置3において、現在生じている事象として検出された事象を示す情報である。選択部200は、事象情報372に示される事象を検索キーとして、データベース211を検索し、当該事象に関連づけられている音声辞書候補を特定する機能を有している。
The
したがって、事象情報372に、現在生じている事象として、例えば「ショッピング」が示されている場合、図3に例示するデータベース211では、「ショッピング」に関連づけられている第1音声辞書が1の音声辞書候補として選択される。この場合、選択部200によって作成される選択辞書情報212は、第1音声辞書となる。
Therefore, when the
作成された選択辞書情報212は、携帯端末装置3からの更新要求(更新要求情報311)に対する応答として、通信部24により当該更新要求を行った携帯端末装置3に向けて送信される。
The selected
図5は、携帯端末装置3を示すブロック図である。携帯端末装置3は、CPU30、記憶装置31、操作部32、表示部33、通信部34およびスピーカ35を備えている。
FIG. 5 is a block diagram showing the mobile
CPU30は、記憶装置31に格納されているプログラム310を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、CPU30は、携帯端末装置3が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。すなわち、携帯端末装置3は、一般的なコンピュータとして構成されている。
The
また、CPU30は、動作モードとして、すべての機能を利用可能な通常動作モードと、機能の一部または全部が制限される省電力モードとを有している。省電力モードは、いわゆるスリープモードであり、機能の一部または全部が制限される代わりに、CPU30における消費電力を抑制することができる動作モードである。
In addition, the
なお、省電力モードには、複数のモードが段階的に定義されていてもよい。また、以下の説明では、「CPU30が省電力モードで動作する」とは、CPU30が完全に停止する場合も含む意味として使用する。
A plurality of modes may be defined stepwise in the power saving mode. Further, in the following description, “the
記憶装置31は、携帯端末装置3において各種データを記憶する機能を提供する。記憶装置31としては、CPU30の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)、比較的大容量のデータを記憶するハードディスク、専用の読み取り装置に装着された可搬性の記憶媒体(PCカード、SDカード、USBメモリなど)等が該当する。図5においては、記憶装置31を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置31は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置31は、データを記憶する機能を有し、CPU30によってアクセスされる装置群の総称である。
The
また、現実のCPU30は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなCPU30が備える記憶装置も、説明の都合上、記憶装置31に含めて説明する。すなわち、一時的にCPU30自体が記憶するデータも、記憶装置31が記憶するとして説明する。図5に示すように、記憶装置31は、プログラム310および更新要求情報311などを記憶するために使用される。
The
操作部32は、携帯端末装置3に対してユーザが指示を入力するために操作するハードウェアである。操作部32としては、例えば、各種キーやボタン類、スイッチ、タッチパネル、ポインティングデバイス、あるいは、ジョグダイヤルなどが該当する。
The
表示部33は、各種データを表示することによりユーザに対して出力する機能を有するハードウェアである。表示部33としては、例えば、ランプやLED、液晶ディスプレイや液晶パネルなどが該当する。
The
通信部34は、携帯端末装置3がサーバ装置2とデータ通信を行う機能を提供する。すなわち、携帯端末装置3は、通信部34により、サーバ装置2から送信された情報を受信するとともに、サーバ装置2に向けて情報を送信する。携帯端末装置3がサーバ装置2から受信する情報としては、例えば、選択辞書情報212がある。また、携帯端末装置3がサーバ装置2に向けて送信する情報としては、例えば、更新要求情報311がある。
The
スピーカ35は、音声情報(一般に音声情報374とは異なるが、音声情報374を再生してもよい。)に基づいて、音声を出力する機能を有するハードウェアである。スピーカ35は、ユーザに対して、音声案内をしたり、音楽や放送番組、受話機能などを提供するために用いられる。
The
さらに、携帯端末装置3は、MPU36、記憶装置37、観測装置群38およびマイクロフォン39を備えている。
Furthermore, the portable
MPU36は、記憶装置37に格納されているプログラム370を読み取りつつ実行し、各種データの演算や制御信号の生成等を行う。これにより、MPU36は、携帯端末装置3が備える各構成を制御するとともに、各種データを演算し作成する機能を有している。
The
また、MPU36は、動作時に消費する電力が少ない演算装置として構成されている。具体的には、CPU30を省電力モードで動作させつつMPU36を動作させた方が、CPU30が通常動作モードで動作する場合に比べて、携帯端末装置3における消費電力が少なくなるように設計されている。すなわち、MPU36は、携帯端末装置3におけるメインの演算装置であるCPU30に比べて処理能力の低い、いわゆる組み込み用途のLSIである。
Further, the
記憶装置37は、携帯端末装置3において各種データを記憶する機能を提供する。言い換えれば、記憶装置37が、記憶装置31と同様に、携帯端末装置3において電子的に固定された情報を保存する。
The
記憶装置37としては、MPU36の一時的なワーキングエリアとして使用されるRAMやバッファ、読み取り専用のROM、不揮発性のメモリ(例えばNANDメモリなど)等が該当する。図5においては、記憶装置37を、あたかも1つの構造物であるかのように図示している。しかし、通常、記憶装置37は、上記例示した各種装置(あるいは媒体)のうち、必要に応じて採用される複数種類の装置から構成されるものである。すなわち、記憶装置37は、データを記憶する機能を有し、MPU36によってアクセスされる装置群の総称である。
As the
また、現実のMPU36は高速にアクセス可能なRAMを内部に備えた電子回路である。しかし、このようなMPU36が備える記憶装置も、説明の都合上、記憶装置37に含めて説明する。すなわち、一時的にMPU36自体が記憶するデータも、記憶装置37が記憶するとして説明する。図5に示すように、記憶装置37は、プログラム370、観測情報371、事象情報372、履歴情報373、音声情報374および選択辞書情報212などを記憶するために使用される。
The
観測装置群38は、周囲の環境を示す情報や携帯端末装置3(携帯端末装置3を携帯するユーザ)の動きに関する情報などを検出して、観測情報371を取得する複数の検出装置から構成される。観測装置群38としては、温度センサ、気圧センサ、湿度センサ、照度センサ、振動感知センサ、位置を特定するGPS、周囲の画像を取得する撮像装置、ジャイロセンサ、加速度センサ、磁気センサ、脈拍センサ、血圧センサなどが想定される。
The
また、ジャイロセンサ、加速度センサおよび磁気センサなどは、ユーザの動きに起因する物理量を観測情報371として取得する。ジャイロセンサや加速度センサ、磁気センサなどにより取得された情報に基づいて、携帯端末装置3を所持しているユーザの姿勢を推定したり、行動を推定したりする手法は従来の技術を適宜適用することができるため、ここでは詳細な説明を省略する。なお、後述するマイクロフォン39によって取得される音声情報374を観測情報371の一部とみなしてもよい。
In addition, the gyro sensor, the acceleration sensor, the magnetic sensor, and the like acquire physical quantities resulting from the movement of the user as
観測装置群38は、MPU36によって制御されており、CPU30における通常動作モードのときのみならず、省電力モードのときにおいても、観測情報371の取得が可能とされている。ただし、MPU36により、必要に応じて、観測装置群38のうちの一部の装置が停止されてもよい。
The
マイクロフォン39は、周囲の音声を電気信号に変換し、音声情報374を取得する機能を有するハードウェアである。マイクロフォン39は、観測装置群38と同様に、MPU36によって制御されており、CPU30における通常動作モードのときのみならず、省電力モードのときにおいても、音声情報374の取得が可能とされている。携帯端末装置3がマイクロフォン39を備えることにより、ユーザの発する音声(言語)は、音声情報374に変換され、記憶装置37に記憶される。
The
図6は、携帯端末装置3が備える機能ブロックをデータの流れとともに示す図である。図6に示すインタフェース部360、事象検出部361および音声認識部362は、MPU36がプログラム370に従って動作することにより実現される機能ブロックである。
FIG. 6 is a diagram showing functional blocks included in the mobile
インタフェース部360は、CPU30とMPU36との間の信号の入出力を制御する機能を有する。インタフェース部360は、CPU30から転送される選択辞書情報212を記憶装置37に記憶させる。また、事象検出部361によって作成された事象情報372をCPU30に向けて転送する。さらに、音声認識部362の認識結果をCPU30に向けて転送する機能も有している。
The
また、インタフェース部360は、必要に応じて、省電力モードで動作しているCPU30の動作モードを通常動作モードに切り替える機能も有している。これにより、MPU36は、例えば、複雑な処理が必要になったときに、CPU30を通常動作モードに復帰させて処理させることができる。
The
事象検出部361は、観測装置群38により取得された観測情報371と履歴情報373とに基づいて、予め想定される複数の事象の中から現在生じている事象を検出する。事象検出部361は、特定の事象(現在生じている事象)を検出した場合には、当該事象を示す事象情報372を作成する。より詳細には、事象検出部361は、常時取得される観測情報371により、現在生じている事象を監視しつつ、現在生じている事象の変化を検出する。そして、事象の変化を検出したときには、新たに現在生じている事象となった事象を示す事象情報372を作成する。
The
また、事象検出部361は、履歴情報373を作成する機能も有している。履歴情報373とは、過去に、どのような観測情報371に基づいて、どの事象を検出したかといった情報である。履歴情報373の具体例としては、例えば、日曜の朝にユーザはジョギングをしたといった情報や、夕方の所定の時刻に料理をしたといった情報、あるいは、所定の位置(お店の場所)では買い物をしたといった情報などである。これにより、ユーザの行動パターンなどに基づいて事象を検出することができるため、事象の検出精度が向上する。
The
なお、履歴情報373には、音声認識部362による認識率などを含めてもよい。このように構成することによって、事象情報372に基づいて選択された音声辞書候補(選択辞書情報212)の認識率をフィードバックすることができ、以後は、さらに適切な音声辞書候補が選択されることとなる。また、履歴情報373は、操作部32がユーザによって操作されることにより、入力された情報に基づいて作成されてもよい。
The
音声認識部362は、マイクロフォン39により取得された音声情報374と、記憶装置37に記憶された選択辞書情報212とに基づいて、音声認識を実行する。音声認識部362による音声認識の具体的な手法は、従来の技術を適宜採用することができるため、詳細な説明を省略する。
The
なお、音声認識部362による認識結果は、インタフェース部360を介して、CPU30に伝達されるものとして説明する。ただし、認識結果は、必ずしもCPU30に伝達されなければならないものではない。例えば、MPU36によってのみ処理される情報であってもよい。
The recognition result by the
以上が、音声認識システム1の構成および機能の説明である。次に、音声認識方法について説明する。 The above is the description of the configuration and functions of the speech recognition system 1. Next, the speech recognition method will be described.
図7は、サーバ装置2の動作を示す流れ図である。図7に示す各工程は、本発明に係る音声認識方法を実現するにあたり、主に、サーバ装置2が実行する工程を示すものである。また、図7に示す各工程が開始されるまでに、予めデータベース211が作成され、記憶装置21に記憶されているものとする。すなわち、携帯端末装置3側で想定される複数の事象と、複数の音声辞書候補とを互いに関連づけて記憶装置21に記憶する工程は、すでに完了しているものとする。
FIG. 7 is a flow chart showing the operation of the
サーバ装置2は、運用が開始されると、携帯端末装置3からの更新要求情報311を受信したか否かを監視する(ステップS1)。
When the operation is started, the
更新要求情報311を受信すると(ステップS1においてYes。)、選択部200は、受信された更新要求情報311に含まれる事象情報372に基づいて、データベース211を検索する。
When the
すでに説明したように、更新要求情報311に含まれる事象情報372には、携帯端末装置3において、「現在生じている事象」が示されている。したがって、選択部200は、当該現在生じている事象を検索キーとしてデータベース211を検索することにより、当該現在生じている事象に関連づけられている音声辞書候補をデータベース211から選択する(ステップS2)。
As described above, the
データベース211において各事象に関連づけられている音声辞書候補は、各事象に対応して最適化され、登録された音声辞書である。したがって、選択部200が、携帯端末装置3において現在生じている事象に関連づけられている音声辞書候補を選択することにより、現在生じている事象に最も適した音声辞書候補が選択されることになる。例えば、現在生じている事象として、「ジョギング」が示されている場合、選択部200は、ジョギングしているユーザに適した音声辞書として作成されている第2音声辞書を選択することができる。
The speech dictionary candidates associated with each event in the
ステップS2を実行すると、選択部200は、選択した音声辞書候補と、選択に使用した事象情報372を含む更新要求情報311を識別するための識別子とを含む選択辞書情報212を作成する(ステップS3)。
When step S2 is executed, the
このようにして、新たに選択辞書情報212が作成されると、通信部24は、選択辞書情報212に含まれる識別子に基づいて更新要求情報311を特定する。そして、通信部24は、特定した更新要求情報311を送信した携帯端末装置3を特定して、当該携帯端末装置3に向けて、当該更新要求情報311を送信する(ステップS4)。これにより、サーバ装置2は、携帯端末装置3からの更新要求(更新要求情報311)に対する応答として、選択辞書情報212を送信する。
Thus, when the selected
図8は、携帯端末装置3の動作を示す流れ図である。図8に示す各工程は、本発明に係る音声認識方法を実現するにあたり、主に、携帯端末装置3が実行する工程を示すものである。また、図8に示す各工程が開始されるまでに、予め第n音声辞書が記憶装置37に選択辞書情報212として記憶されているものとする。すなわち、携帯端末装置3において、デフォルトの音声辞書(第n音声辞書)を記憶装置37に記憶する工程は、すでに完了しているものとする。
FIG. 8 is a flowchart showing the operation of the mobile
なお、図8には、CPU30を通常動作モードから省電力モードに切り替える工程を図示していない。このような動作モードの切り替えは、例えば、所定の期間、ユーザによる操作が検出されないときや、ユーザによる直接の指示(省電力モードへの切り替え指示)があったとき、あるいは、利用中のアプリケーションによって判断されたときなどに実行される。ただし、省電力モードへの切り替えのトリガとなるものは、これらに限定されるものではない。
Note that FIG. 8 does not illustrate the process of switching the
携帯端末装置3は、電源が投入されると、所定の初期設定を実行した後、音声認識を実行することが可能な状態に遷移する。この状態を、以下、「運用開始状態」と称する。運用開始状態において、CPU30の動作モードは、通常動作モードまたは省電力モードである。また、運用開始状態において、携帯端末装置3は、ユーザによって携帯されているものとする。
When the mobile
運用開始状態において、携帯端末装置3は、観測装置群38により観測情報371を作成する(ステップS11)。ステップS11は、ユーザの指示がなくても、周期的かつ継続的に実行される。ステップS11において作成された観測情報371は、記憶装置37に格納される。
In the operation start state, the mobile
観測情報371が記憶装置37に格納されると、事象検出部361は、当該観測情報371と、履歴情報373とに基づいて、現在生じている事象を検出する。より詳細には、事象検出部361は、観測装置群38により取得された観測情報371を分析して状況を把握するとともに、履歴情報373に基づいてユーザの行動パターン等を参照することにより現在生じている事象を推定する。さらに、事象検出部361は、すでに記憶されている事象情報372と比較することにより、事象が変化したか否かを判定する(ステップS12)。
When the
このように、携帯端末装置3は、運用開始状態において、常時、観測情報371の取得を行い、かつ、現在生じている事象に変化がないか否かを監視している。すなわち、通常動作モードのときは当然として、省電力モードにおいても、ステップS12の処理は実行される。さらに、ステップS12の処理に際して、ユーザからの特別な指示を必要としないため、ユーザが特に意識しなくても、ステップS12の処理は実行される。なお、事象情報372に示される事象の初期値は、「デフォルト」である。
As described above, in the operation start state, the mobile
事象に変化が生じており、ステップS12においてYesと判定すると、携帯端末装置3は、更新要求処理を実行する(ステップS13)。
If a change has occurred in the event and it is determined as Yes in step S12, the portable
図9は、携帯端末装置3が実行する更新要求処理を示す流れ図である。更新要求処理とは、携帯端末装置3が、サーバ装置2に対して、新しい音声辞書を送信するように要求する処理である。
FIG. 9 is a flowchart showing the update request process performed by the mobile
更新要求処理が開始されると、事象検出部361は、検出した事象(新たに生じた事象)を示す新たな事象情報372を作成する(ステップS31)。また、事象検出部361は、新たに作成した事象情報372により、記憶装置37にすでに記憶されている事象情報372を更新する。
When the update request process is started, the
さらに、事象検出部361は、新たに作成した事象情報372(検出結果)や、当該事象情報372を作成する際に参照した観測情報371(検出結果の元となった情報)などに基づいて、履歴情報373を更新する(ステップS32)。これにより、過去における事象の検出結果などが蓄積される。
Furthermore, the
次に、インタフェース部360は、事象情報372が更新されたことを検出して、CPU30の動作モードが省電力モードであるか否かを判定する(ステップS33)。そして、動作モードが省電力モードの場合(ステップS33においてYes。)、動作モードを通常動作モードに切り替える(ステップS34)。一方、省電力モードでない場合(ステップS33においてNo。)、インタフェース部360は、ステップS34の処理をスキップする。
Next, the
ステップS33およびS34の処理を、より具体的に説明する。事象情報372が更新され、当該事象情報372をCPU30に向けて送信する必要が生じたときに、インタフェース部360は、CPU30に向けて割り込み信号を通知する。MPU36(インタフェース部360)からCPU30に向けて割り込み信号が通知されたときに、CPU30が省電力モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号となる。一方で、通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が通常動作モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号とみなされることはなく、一般的な割り込み信号として処理される。したがって、実際のインタフェース部360は、ステップS33において、CPU30が省電力モードであるか否かについて判定するわけではない。
The processes of steps S33 and S34 will be described more specifically. When the
ステップS33およびS34が実行された後において、CPU30は必ず通常動作モードとなり、事象情報372を受け取れる状態となる。したがって、インタフェース部360は、新たに作成された事象情報372をCPU30に向けて転送する(ステップS35)。
After steps S33 and S34 are executed, the
MPU36から事象情報372を受け取ると、CPU30は、当該事象情報372に基づいて、更新要求情報311を作成する(ステップS36)。更新要求情報311は、すでに説明したように、事象情報372および携帯端末装置3の識別子(例えば、ネットワークアドレスなど)を含む情報である。
When the
更新要求情報311を作成すると、CPU30は、当該更新要求情報311をサーバ装置2に向けて送信するように通信部34を制御する。これにより、通信部34が、更新要求情報311をサーバ装置2に向けて送信する(ステップS37)。
When the
ステップS37が実行され、通信部34が更新要求情報を送信すると、携帯端末装置3は、更新要求処理を終了して、図8に示す処理に戻る。
When step S37 is executed and the
図8に戻って、ステップS12においてNoと判定した場合、携帯端末装置3はステップS13をスキップする。したがって、現在生じている事象に変化が生じない限り、携帯端末装置3が更新要求処理(ステップS13)を実行することはなく、更新要求情報311がサーバ装置2に向けて送信されることもない。
Referring back to FIG. 8, when it is determined No in step S12, the mobile
運用開始状態において、携帯端末装置3は、マイクロフォン39により音声情報374を作成する(ステップS14)。ステップS14は、運用開始状態において、ユーザの指示がなくても、周期的かつ継続的に実行される。ステップS14において作成された音声情報374は、記憶装置37に格納される。
In the operation start state, the portable
音声情報374が記憶装置37に格納されると、音声認識部362は、当該音声情報374と、選択辞書情報212とに基づいて、音声認識を実行し(ステップS15)、認識に成功したか否かを判定する(ステップS16)。
When the
このように、携帯端末装置3では、ステップS14ないしS16における処理が、MPU36によって実現されており、CPU30が省電力モードであっても、実行することが可能である。すなわち、音声認識システム1は、消費電力を抑制しつつ、常時、音声認識を実行することができるように構成されている。
As described above, in the mobile
また、ステップS14ないしS16における処理は、携帯端末装置3の運用開始状態において、ユーザの特別な指示がなくても実行される処理として構成されている。したがって、ユーザは、特に意識することなく、音声認識を利用することができ、ユーザの負担が軽減される。
In addition, the processing in steps S14 to S16 is configured as processing that is executed without the user's special instruction in the operation start state of the portable
音声認識部362が認識に成功した場合(ステップS16においてYes。)、MPU36は、認識結果を実行する(ステップS17)。
If the
ステップS17における認識結果の実行とは、MPU36がCPU30に向けて認識結果を転送することである。具体的には、まず、音声認識部362が、当該認識結果をインタフェース部360に伝達する。次に、インタフェース部360が、音声認識部362から伝達された認識結果をCPU30に向けて転送する。
The execution of the recognition result in step S17 means that the
なお、認識結果をCPU30に向けて転送するときに、CPU30が省電力モードであった場合、インタフェース部360は、CPU30の動作モードを通常動作モードに切り替えてから、当該認識結果を転送する。
When the recognition result is transferred to the
現在生じている事象として「ジョギング」が検出されており、第2音声辞書候補が選択辞書情報212として記憶装置37に記憶されている状態を例に、CPU30が実行する処理を説明する。このような状態で、例えば、ユーザが「脈拍」と発声すると、音声認識部362が第2音声辞書候補を用いて音声認識を行い、「脈拍」という言葉(テキスト情報)を認識結果としてCPU30に伝達する。
The process executed by the
MPU36から認識結果を受け取ったCPU30は、当該認識結果に応じた処理を実行する。
The
上記に示す例では、CPU30は、ユーザの「脈拍」という発声に対する処理として、ユーザの脈拍数を計測して音声案内するようにスピーカ35を制御する。これにより、スピーカ35から、例えば、「120」などの音声が再生される。したがって、ユーザは、携帯端末装置3を目視して閲覧し、操作しなくても、携帯端末装置3を使用することができる。
In the example shown above, the
運用開始状態において、サーバ装置2から送信された選択辞書情報212を通信部34が受信すると(ステップS18においてYes。)、携帯端末装置3は、動作モードが省電力モードであるか否かを判定する(ステップS19)。そして、動作モードが省電力モードの場合(ステップS19においてYes。)、動作モードを通常動作モードに切り替える(ステップS20)。一方、省電力モードでない場合(ステップS19においてNo。)、携帯端末装置3は、ステップS20の処理をスキップする。
In the operation start state, when the
ステップS18ないしS20の処理を、より具体的に説明する。通信部34は、運用開始状態において、ネットワークを監視しており、当該ネットワークを介して携帯端末装置3に着信があったか否かを監視している。そして、通信部34が着信を検出した場合には、通信部34からCPU30に向けて割り込み信号が通知される。したがって、実際の通信部34は、ステップS18において、受信された情報が選択辞書情報212であるか否かについて判定するわけではない。
The processes of steps S18 to S20 will be described more specifically. The
通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が省電力モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号となる。一方で、通信部34からCPU30に向けて割り込み信号が通知されたときに、CPU30が通常動作モードであれば、この割り込み信号がCPU30を通常動作モードに復帰させる信号とみなされることはなく、一般的な割り込み信号として処理される。したがって、CPU30は、ステップS19において省電力モードか否かを判定するわけではない。
When an interrupt signal is notified from the
ステップS19においてNoの場合、または、ステップS20が実行された場合、CPU30は、通信部34が受信した選択辞書情報212をMPU36(インタフェース部360)に向けて転送する。CPU30から選択辞書情報212が転送されると、インタフェース部360は、記憶装置37に、当該選択辞書情報212を記憶させる(ステップS21)。これにより、携帯端末装置3において、すでに記憶されていた選択辞書情報212が、新たに受信された選択辞書情報212に更新される。
If No in step S19 or if step S20 is executed, the
すでに説明したように、初期状態において、携帯端末装置3の記憶装置37には、第n音声辞書が選択辞書情報212として記憶されている。この状態において、例えば、事象「ジョギング」に関連づけられている第2音声辞書が選択辞書情報212として受信されると、ステップS21が実行されることにより、第n音声辞書が第2音声辞書に更新されることになる。
As described above, in the initial state, the n-th speech dictionary is stored as the selected
例えば、ジョギング中のユーザが使用する言葉(携帯端末装置3に対して入力する言葉)は、ジョギングに関連する語彙に限られると予想できる。したがって、現在生じている事象として「ジョギング」が検出されたときに、ジョギングに対応して語彙が取捨選択された第2音声辞書を音声認識に用いることにより、音声認識の精度を低下させることなく、通常の音声辞書に比べて情報容量(サイズ)を減らした音声辞書を使用することができる。 For example, it can be expected that words used by the user during jogging (words input to the mobile terminal device 3) are limited to the vocabulary related to jogging. Therefore, when "jogging" is detected as a currently occurring event, the second speech dictionary whose vocabulary is selected corresponding to the jogging is used for speech recognition, without lowering the speech recognition accuracy. It is possible to use an audio dictionary whose information capacity (size) is reduced compared to a normal audio dictionary.
このように、音声認識システム1は、音声辞書のサイズが小さいため、応答性能がよいという利点がある。すでに説明したように、音声認識システム1では、携帯端末装置3において新しい事象が検出されるたびに、それに応じた音声辞書がサーバ装置2から携帯端末装置3にダウンロードされる。もし、ダウンロードする音声辞書のサイズが大きければ、ダウンロードに時間を要し、音声辞書を準備するまでの時間が増大することになり、応答性能が低下する。しかし、音声認識システム1は、ダウンロードする音声辞書(選択辞書情報212)のサイズが小さいため、ダウンロードに要する時間は短く、応答性能が犠牲にならずに済む。
Thus, the speech recognition system 1 has an advantage that the response performance is good because the size of the speech dictionary is small. As described above, in the voice recognition system 1, whenever a new event is detected in the portable
また、音声辞書のサイズが小さいため、記憶装置37の記憶容量が小さくて済むとともに、MPU36のような比較的処理能力の低い演算装置でも音声認識を実行することができる。したがって、システム全体として、コストを抑制することができる。
In addition, since the size of the voice dictionary is small, the storage capacity of the
また、特開2010−191223号公報に記載されている技術では、作業者(ユーザ)は、「会計入ります」というように、これからの作業の内容などを示す音声を入力しなければ、音声辞書の切り替えが行われない。すなわち、音声辞書を切り替えるためのトリガは、ユーザ自身が、意識的に確実に実行しなければならない。しかし、音声認識システム1は、観測装置群38によって、継続的に、かつ、ユーザに意識させることなく取得される観測情報371に基づいて現在生じている事象を自動的に検出し、これをトリガとして更新要求(更新要求処理)を行う。したがって、ユーザは、音声辞書を切り替えるためのトリガを与えることを特に意識する必要がなく、ユーザの負担が軽減される。
Further, in the technology described in Japanese Patent Application Laid-Open No. 2010-191223, if a worker (user) does not input a voice indicating the content of work to be done from now on, such as "I am accounting," a voice dictionary Switching is not performed. In other words, the trigger for switching the speech dictionary must be consciously and surely executed by the user. However, the speech recognition system 1 automatically detects a currently occurring event based on the
また、従来の技術では、音声辞書の選択は、位置情報に基づいて行われるため、ユーザは、目的の音声辞書が選択される位置でしかトリガを与えることができない。したがって、従来の技術は、ユーザが、自身の存在位置と音声辞書との対応関係をよく理解していなければ、逆に、不適切な音声辞書を選択するおそれがある。しかし、音声認識システム1は、多様な観測情報371(および履歴情報373)に基づいて現在生じている事象を検出するため、ユーザに頼ることなく、最適な音声辞書を選択することができる。 Also, in the prior art, since the selection of the speech dictionary is performed based on the position information, the user can only give a trigger at the position where the target speech dictionary is selected. Therefore, the prior art may select an inappropriate voice dictionary if the user does not understand the correspondence between the user's location and the voice dictionary. However, the speech recognition system 1 can select an optimum speech dictionary without relying on the user because it detects events that are currently occurring based on various observation information 371 (and history information 373).
また、従来の技術では、音声辞書の選択が位置情報のみに基づいて行われるため、位置に関係のない事象に基づいて音声辞書を最適化することができず、汎用性が低いとともに、語彙の絞り込みも不十分という問題がある。しかし、音声認識システム1は、多様な観測情報371に基づいて現在生じている事象を検出するため、より状況に応じた音声辞書を選択することが可能となる。
Further, in the prior art, since the selection of the speech dictionary is performed based only on the position information, the speech dictionary can not be optimized based on the event unrelated to the position, and the versatility is low. There is a problem that narrowing is also insufficient. However, since the speech recognition system 1 detects a currently occurring event based on
以上のように、音声を音声辞書により認識する音声認識システム1は、通常動作モードと通常動作モードに比べて消費電力が抑制される省電力モードとの間で動作モードを切り替えることが可能なCPU30と、予め想定される複数の事象と音声辞書の候補となる複数の音声辞書候補とを関連づけるデータベース211を記憶する記憶装置21と、事象を検出するための物理量を観測情報371として取得する観測装置群38と、音声を音声情報374として取得するマイクロフォン39と、選択辞書情報212を記憶する記憶装置37と、記憶装置37にアクセスするMPU36とを備えている。そして、MPU36は、観測装置群38により取得された観測情報371に基づいて、予め想定される複数の事象の中から現在生じている事象を検出する事象検出部361と、マイクロフォン39により取得された音声情報374と記憶装置37に記憶された選択辞書情報212とに基づいて、音声認識を実行する音声認識部362とを備える。また、音声認識システム1は、事象検出部361により現在生じている事象として検出された事象に応じて、記憶装置21に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する選択部200をさらに備え、選択部200により選択された選択辞書情報212を音声辞書として記憶装置37に記憶させる。さらに、音声認識システム1では、CPU30を省電力モードで動作させつつMPU36を動作させたときの消費電力が、CPU30を通常動作モードで動作させたときの消費電力よりも小さくなるように設計されている。これにより、消費電力の低いMPU36に音声認識を実行させることにより、消費電力を抑制することができる。また、サイズの小さい選択辞書情報212を音声認識に使用したとしても、選択辞書情報212が事象に応じて最適化されているため、認識率を低下させることがない。
As described above, the voice recognition system 1 that recognizes voice by means of a voice dictionary can switch the operation mode between the normal operation mode and the power saving mode in which power consumption is suppressed as compared to the normal operation mode. , A
また、観測装置群38は、ユーザの動きに起因する物理量を観測情報371として取得し、事象検出部361は、現在生じている事象として、ユーザの行動を推定する。ユーザの発する音声(言葉)は、ユーザの行動との関連性が高い。したがって、ユーザの行動を推定することで、より最適な音声辞書を選択することができる。すなわち、音声認識の精度が向上する。
In addition, the
また、事象検出部361は、ユーザの姿勢を推定することにより、当該ユーザの行動を推定する。ユーザの行動は、ユーザの姿勢との関連性が高いため、ユーザの行動推定精度が向上する。
Further, the
また、複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている。これにより、認識精度を低下させることなく、音声辞書(選択辞書情報212)のサイズを抑制することができる。 In addition, the plurality of speech dictionary candidates are sorted out according to the event to be associated with. Thereby, the size of the voice dictionary (selected dictionary information 212) can be suppressed without reducing the recognition accuracy.
また、音声認識システム1電力の自給能力の低い携帯端末装置3に適用することにより、消費電力の抑制効果がより顕著となる。
Moreover, the suppression effect of power consumption becomes more remarkable by applying to the portable
また、記憶装置37は、過去の履歴情報373を記憶しており、事象検出部361は、記憶装置37に記憶された履歴情報373に基づいて、現在生じている事象を推定する。したがって、事象の推定精度が向上する。
Further, the
なお、上記実施の形態では、CPU30を省電力モードから通常動作モードに切り替える工程として、ステップS20およびステップS34のみを説明した。ただし、CPU30を通常動作モードに切り替えるトリガとなるものは、これらの工程を実行する条件となるものに限定されるわけではない。
In the above embodiment, only steps S20 and S34 have been described as the process of switching the
<2. 変形例>
以上、本発明の実施の形態について説明してきたが、本発明は上記実施の形態に限定されるものではなく様々な変形が可能である。
<2. Modified example>
As mentioned above, although embodiment of this invention was described, this invention is not limited to the said embodiment, A various deformation | transformation is possible.
例えば、上記実施の形態に示した各工程は、あくまでも例示であって、上記に示した順序や内容に限定されるものではない。すなわち、同様の効果が得られるならば、適宜、順序や内容が変更されてもよい。例えば、事象情報372を更新する工程(ステップS31)と、履歴情報373を更新する工程(ステップS32)との順序を入れ替えても、本発明を実現することができる。 For example, each process shown in the above-mentioned embodiment is an illustration to the last, and is not limited to the order and the contents which were shown above. That is, the order and content may be changed as appropriate, as long as the same effect is obtained. For example, the present invention can be realized even if the order of the step of updating event information 372 (step S31) and the step of updating history information 373 (step S32) is switched.
また、上記実施の形態に示した選択部200は、CPU20がプログラム210に従って動作することにより、ソフトウェア的に実現されると説明した。また、インタフェース部360や事象検出部361、および、音声認識部362は、MPU36がプログラム370に従って動作することにより、ソフトウェア的に実現されると説明した。しかし、これらの機能ブロックの一部または全部を専用の論理回路で構成し、ハードウェア的に実現してもよい。
In addition, it has been described that the
また、上記実施の形態では、サーバ装置2にデータベース211が記憶され、サーバ装置2が備えるCPU20(選択部200)が音声辞書候補の選択を行う例で説明した。しかし、例えば、データベース211に相当する情報を携帯端末装置3の記憶装置31に記憶しておき、CPU30が音声辞書候補を選択してMPU36に伝達するように構成してもよい。
In the above embodiment, the
1 音声認識システム
2 サーバ装置
20,30 CPU
200 選択部
21,31,37 記憶装置
210,310,370 プログラム
211 データベース
212 選択辞書情報
22,32 操作部
23,33 表示部
24,34 通信部
3 携帯端末装置
311 更新要求情報
35 スピーカ
36 MPU
360 インタフェース部
361 事象検出部
362 音声認識部
371 観測情報
372 事象情報
373 履歴情報
374 音声情報
38 観測装置群
39 マイクロフォン
1
200
360
Claims (7)
通常動作モードと前記通常動作モードに比べて消費電力が抑制される省電力モードとの間で動作モードを切り替えることが可能な第1演算装置と、
予め想定される複数の事象と前記音声辞書の候補となる複数の音声辞書候補とを関連づけて記憶する第1記憶装置と、
事象を検出するための物理量を観測情報として取得する観測手段と、
前記音声を音声情報として取得するマイクロフォンと、
前記音声辞書を記憶する第2記憶装置と、
前記第2記憶装置にアクセスする第2演算装置と、
を備え、
前記第2演算装置は、
前記観測手段により取得された観測情報に基づいて、前記予め想定される複数の事象の中から現在生じている事象を検出する事象検出手段と、
前記マイクロフォンにより取得された音声情報と前記第2記憶装置に記憶された音声辞書とに基づいて、音声認識を実行する音声認識手段と、
を備え、
前記事象検出手段により現在生じている事象として検出された事象に応じて、前記第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する選択手段をさらに備え、
前記選択手段により選択された1の音声辞書候補を前記音声辞書として前記第2記憶装置に記憶させ、
前記第1演算装置を前記省電力モードで動作させつつ前記第2演算装置を動作させたときの消費電力が、前記第1演算装置を前記通常動作モードで動作させたときの消費電力よりも小さい音声認識システム。 A speech recognition system for recognizing speech by means of a speech dictionary, comprising
A first arithmetic device capable of switching an operation mode between a normal operation mode and a power saving mode in which power consumption is suppressed as compared with the normal operation mode;
A first storage device that associates and stores a plurality of events assumed in advance and a plurality of speech dictionary candidates serving as speech dictionary candidates;
An observation means for acquiring a physical quantity for detecting an event as observation information;
A microphone for acquiring the voice as voice information;
A second storage device storing the speech dictionary;
A second computing device accessing the second storage device;
Equipped with
The second computing device is
An event detection unit that detects an event currently occurring from the plurality of events assumed in advance based on observation information acquired by the observation unit;
Voice recognition means for performing voice recognition based on the voice information acquired by the microphone and the voice dictionary stored in the second storage device;
Equipped with
Selecting means for selecting one speech dictionary candidate from among a plurality of speech dictionary candidates stored in the first storage device according to an event detected as an event currently occurring by the event detection means Equipped
Storing one speech dictionary candidate selected by the selection unit in the second storage device as the speech dictionary;
The power consumption when operating the second arithmetic device while operating the first arithmetic device in the power saving mode is smaller than the power consumption when operating the first arithmetic device in the normal operation mode Speech recognition system.
前記観測手段は、ユーザの動きに起因する物理量を観測情報として取得し、
前記事象検出手段は、現在生じている事象として、前記ユーザの行動を推定する音声認識システム。 The speech recognition system according to claim 1, wherein
The observation means acquires, as observation information, a physical quantity resulting from the movement of the user.
The speech recognition system, wherein the event detection means estimates the user's behavior as a currently occurring event.
前記事象検出手段は、前記ユーザの姿勢を推定することにより、前記ユーザの行動を推定する音声認識システム。 The speech recognition system according to claim 2, wherein
The voice recognition system which estimates the action of the user by the event detecting means estimating the posture of the user.
前記複数の音声辞書候補は、関連づけられる事象に応じて、収録される語彙が取捨選択されている音声認識システム。 The speech recognition system according to any one of claims 1 to 3, wherein
The speech recognition system according to claim 1, wherein the plurality of speech dictionary candidates are selected according to an event to be associated.
ユーザにより携帯され、前記第1演算装置、前記第2演算装置および前記第2記憶装置を備える携帯端末装置と、
前記携帯端末装置との間でデータ通信が可能な状態で接続され、前記第1記憶装置および前記選択手段を備えるサーバ装置と、
を備える音声認識システム。 The speech recognition system according to any one of claims 1 to 4, wherein
A portable terminal device carried by a user and comprising the first computing device, the second computing device, and the second storage device;
A server device connected to the portable terminal device in a data communication enabled state and including the first storage device and the selection unit;
Speech recognition system comprising:
前記第2記憶装置は、過去の履歴情報を記憶しており、
前記事象検出手段は、前記第2記憶装置に記憶された履歴情報に基づいて、現在生じている事象を推定する音声認識システム。 The speech recognition system according to any one of claims 1 to 5, wherein
The second storage device stores past history information,
The speech recognition system according to claim 1, wherein the event detection means estimates a currently occurring event based on history information stored in the second storage device.
予め想定される複数の事象と前記音声辞書の候補となる複数の音声辞書候補とを関連づけて第1記憶装置に記憶する工程と、
通常動作モードと前記通常動作モードに比べて消費電力が抑制される省電力モードとの間で第1演算装置の動作モードを切り替える工程と、
事象を検出するための物理量を観測手段により観測情報として取得する工程と、
前記観測手段により取得された観測情報に基づいて、前記予め想定される複数の事象の中から現在生じている事象を、第2演算装置により検出する工程と、
現在生じている事象として前記第2演算装置により検出された事象に応じて、前記第1記憶装置に記憶されている複数の音声辞書候補の中から1の音声辞書候補を選択する工程と、
選択された前記1の音声辞書候補を前記音声辞書として、前記第2演算装置によりアクセスされる第2記憶装置に記憶させる工程と、
前記音声をマイクロフォンにより音声情報として取得する工程と、
前記マイクロフォンにより取得された音声情報と前記第2記憶装置に記憶された音声辞書とに基づいて、前記第2演算装置により音声認識を実行する工程と、
を有し、
前記第1演算装置を前記省電力モードで動作させつつ前記第2演算装置を動作させたときの消費電力が、前記第1演算装置を前記通常動作モードで動作させたときの消費電力よりも小さい音声認識方法。 A speech recognition method for recognizing speech with a speech dictionary, comprising:
Storing a plurality of events assumed in advance and a plurality of speech dictionary candidates as candidates for the speech dictionary in the first storage device in association with each other;
Switching the operation mode of the first computing device between a normal operation mode and a power saving mode in which power consumption is suppressed as compared to the normal operation mode;
Acquiring a physical quantity for detecting an event as observation information by the observation means;
Detecting a currently occurring event from the plurality of events assumed in advance by the second arithmetic unit based on observation information acquired by the observation unit;
Selecting one speech dictionary candidate from among a plurality of speech dictionary candidates stored in the first storage device according to an event detected by the second arithmetic device as a currently occurring event;
Storing the selected one voice dictionary candidate as the voice dictionary in a second storage device accessed by the second arithmetic device;
Acquiring the voice as voice information by a microphone;
Executing voice recognition by the second computing device based on voice information acquired by the microphone and a voice dictionary stored in the second storage device;
Have
The power consumption when operating the second arithmetic device while operating the first arithmetic device in the power saving mode is smaller than the power consumption when operating the first arithmetic device in the normal operation mode Speech recognition method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015053376A JP6518096B2 (en) | 2015-03-17 | 2015-03-17 | Speech recognition system and speech recognition method |
PCT/JP2016/058212 WO2016148157A1 (en) | 2015-03-17 | 2016-03-15 | Voice recognition system and voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015053376A JP6518096B2 (en) | 2015-03-17 | 2015-03-17 | Speech recognition system and speech recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016173464A JP2016173464A (en) | 2016-09-29 |
JP6518096B2 true JP6518096B2 (en) | 2019-05-22 |
Family
ID=56919180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015053376A Expired - Fee Related JP6518096B2 (en) | 2015-03-17 | 2015-03-17 | Speech recognition system and speech recognition method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6518096B2 (en) |
WO (1) | WO2016148157A1 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3586777B2 (en) * | 1994-08-17 | 2004-11-10 | 富士通株式会社 | Voice input device |
CA2490851C (en) * | 2002-06-27 | 2016-07-19 | Ting-Mao Chang | A power saving mobility aware system and method |
JP2010039099A (en) * | 2008-08-04 | 2010-02-18 | Xanavi Informatics Corp | Speech recognition and in-vehicle device |
JP2010191223A (en) * | 2009-02-18 | 2010-09-02 | Seiko Epson Corp | Speech recognition method, mobile terminal and program |
KR102117841B1 (en) * | 2012-10-30 | 2020-06-02 | 삼성전자주식회사 | Electronic device and control method thereof |
-
2015
- 2015-03-17 JP JP2015053376A patent/JP6518096B2/en not_active Expired - Fee Related
-
2016
- 2016-03-15 WO PCT/JP2016/058212 patent/WO2016148157A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2016148157A1 (en) | 2016-09-22 |
JP2016173464A (en) | 2016-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6513749B2 (en) | Voice assist system, server device, voice assist method thereof, and program for execution by computer | |
CN108958633B (en) | Split screen display method and device, storage medium and electronic equipment | |
US10217477B2 (en) | Electronic device and speech recognition method thereof | |
WO2012033312A1 (en) | Method of operating mobile device by recognizing user's gesture and mobile device using the method | |
US20190266129A1 (en) | Icon Search Method and Terminal | |
CN110659098B (en) | Data updating method and device, terminal equipment and storage medium | |
CN109857787B (en) | Display method and terminal | |
CN110381204B (en) | Information display method, mobile terminal and computer readable storage medium | |
CN109246474B (en) | Video file editing method and mobile terminal | |
CN112236767A (en) | Electronic device and method for providing information related to an image to an application through an input unit | |
CN108984066B (en) | Application icon display method and mobile terminal | |
KR20190032026A (en) | Method for providing natural language expression and electronic device supporting the same | |
CN110990679A (en) | Information searching method and electronic equipment | |
CN110830368A (en) | Instant messaging message sending method and electronic equipment | |
CN109324999B (en) | Method and electronic equipment for executing operation based on download instruction | |
CN110989847A (en) | Information recommendation method and device, terminal equipment and storage medium | |
CN109389977B (en) | Voice interaction method and device | |
US20190026074A1 (en) | Electronic device and method for expressing natural language | |
EP3678007A1 (en) | Application processing method for terminal device and terminal device | |
CN108228620A (en) | A kind of Word library updating method and device | |
CN107765954B (en) | Application icon updating method, mobile terminal and server | |
KR20190122331A (en) | Electronic device for inputting character and operating method thereof | |
JP6518096B2 (en) | Speech recognition system and speech recognition method | |
CN109658926B (en) | Voice instruction updating method and mobile terminal | |
CN109684006B (en) | Terminal control method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6518096 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |