JPWO2005010868A1 - Speech recognition system and its terminal and server - Google Patents
Speech recognition system and its terminal and server Download PDFInfo
- Publication number
- JPWO2005010868A1 JPWO2005010868A1 JP2005504586A JP2005504586A JPWO2005010868A1 JP WO2005010868 A1 JPWO2005010868 A1 JP WO2005010868A1 JP 2005504586 A JP2005504586 A JP 2005504586A JP 2005504586 A JP2005504586 A JP 2005504586A JP WO2005010868 A1 JPWO2005010868 A1 JP WO2005010868A1
- Authority
- JP
- Japan
- Prior art keywords
- server
- acoustic model
- voice
- voice recognition
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000005236 sound signal Effects 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 58
- 230000007613 environmental effect Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000005389 magnetism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
多様な環境で使用されても、高精度の音声認識を行う音声認識システムを提供する。外部マイクロホン1が収集した音声信号から音声特徴量を算出し、複数の音響モデルを記憶し、前記複数の音響モデルから外部マイクロホン1が集音する環境に適した音響モデルを選択し、前記音響モデルの標準パターンと前記音声特徴量とのパターンマッチングを行って認識結果を出力する音声認識処理を、ネットワークに接続された音声認識端末2と音声認識サーバ6とにより分担して実行するクライアントサーバ型音声認識システムにおいて、外部マイクロホン1の集音環境を検知するために、音声認識端末2にセンサ12を設け、センサ12の出力を音声認識サーバ6に送信する送信部13を設けた。Provided is a speech recognition system that performs highly accurate speech recognition even when used in various environments. An audio feature amount is calculated from an audio signal collected by the external microphone 1, a plurality of acoustic models are stored, an acoustic model suitable for an environment in which the external microphone 1 collects sound is selected from the plurality of acoustic models, and the acoustic model Client-server-type voice that performs voice recognition processing that performs pattern matching between the standard pattern of the voice and the voice feature quantity and outputs a recognition result in a shared manner by the voice recognition terminal 2 and the voice recognition server 6 connected to the network In the recognition system, in order to detect the sound collection environment of the external microphone 1, a sensor 12 is provided in the voice recognition terminal 2, and a transmission unit 13 that transmits the output of the sensor 12 to the voice recognition server 6 is provided.
Description
この発明は、音声認識システム及びその端末とサーバに係るものであり、特にさまざまな使用状況を想定して準備された複数の音響モデルから、使用状況に応じて適切な音響モデルを選択し音声認識を行う技術に関するものである。 The present invention relates to a speech recognition system and its terminals and servers. In particular, from a plurality of acoustic models prepared assuming various usage situations, an appropriate acoustic model is selected according to the usage situation and voice recognition is performed. It is related to the technology to perform.
音声認識は、入力音声から音声特徴量の時系列を抽出し、この音声特徴量の時系列と予め準備された音響モデルとの照合によって、候補語を算出することにより行われる。
しかし現実の使用環境で発声された音声には、背景騒音が重畳しているため、音声認識の精度が劣化する。背景騒音の種類及び重畳の仕方は、使用環境によって異なる。そのため、精度の高い音声認識を行うには、複数の音響モデルを準備し、さらに複数の音響モデルの中から現在の使用環境に適した音響モデルを選択する必要がある。このような音響モデルの選択方法として、例えば、特開2000−29500(特許文献1)がある。
特許文献1による音響モデルの選択方法は、例えば車載用音声認識装置において、速度センサなどの各種車載センサが出力する値(センサからのアナログ信号をA/D変換して得たデータをいう。以後、この値のことをセンサ情報と呼ぶこととする)に対応する雑音から雑音スペクトルを算出して、この雑音スペクトルと各種車載センサからのセンサ情報とを関連づけて記憶しておき、次回の音声認識時に得られる各種車載センサからのセンサ情報と、予め記憶している雑音スペクトルのセンサ情報との類似度が所定値以内の場合に、このセンサ情報に対応する雑音スペクトルを音声特徴量の時系列から減算する、というものである。
しかしこの方法では、今まで使用したことのない環境下で音声認識の精度を向上させることができないという問題がある。そこで、例えば工場出荷時に、予め各種センサの出力値の中から所定の値をいくつか選択し、センサがこれらの値を出力する環境条件下で学習した音響モデルを作成しておく。そして、現実の使用環境で得られたセンサ情報と音響モデルの環境条件とを比較して、適切な音響モデルを選択する方法が考えられる。
ところで、1つの音響モデルのデータサイズは、音声認識システムの設計方法や実装方法によっても異なるものの、数百キロバイトにも及ぶ場合がある。カーナビゲーションシステムや携帯電話のようなモバイル機器では、筐体サイズや重量の制約から、搭載可能な記憶装置の容量が厳しく制限される。したがって、モバイル機器に、これほどのデータサイズを有する音響モデルを複数個記憶させる構成を採用するのは現実的ではない。
特にセンサが複数個ある場合に、各センサのセンサ情報の値をそれぞれ複数選択して、それらの組み合わせに対応した音響モデルを準備しようとすると、膨大な記憶容量が必要となってしまう。
この発明は、上記課題を解決するためになされたもので、複数の音響モデルを記憶している音声認識サーバに、音声認識端末からネットワークを介してセンサ情報を送信することにより、現実の使用環境に適した音響モデルを選択して高精度な音声認識処理を実現することを目的としている。Speech recognition is performed by extracting a time series of speech feature values from the input speech and calculating candidate words by collating the time series of speech feature values with a prepared acoustic model.
However, since the background noise is superimposed on the voice uttered in the actual usage environment, the accuracy of the voice recognition deteriorates. The type of background noise and the method of superposition differ depending on the usage environment. Therefore, in order to perform highly accurate speech recognition, it is necessary to prepare a plurality of acoustic models and further select an acoustic model suitable for the current use environment from the plurality of acoustic models. As a method for selecting such an acoustic model, for example, there is JP-A-2000-29500 (Patent Document 1).
The acoustic model selection method according to Patent Document 1 is a value output by various in-vehicle sensors such as a speed sensor in an in-vehicle voice recognition device (refers to data obtained by A / D conversion of an analog signal from the sensor. The noise spectrum is calculated from the noise corresponding to this value), and the noise spectrum and sensor information from various in-vehicle sensors are stored in association with each other for the next speech recognition. When the similarity between the sensor information from various on-vehicle sensors obtained at the time and the sensor information of the noise spectrum stored in advance is within a predetermined value, the noise spectrum corresponding to this sensor information is calculated from the time series of voice feature values. Subtract.
However, this method has a problem that the accuracy of speech recognition cannot be improved in an environment that has never been used. Therefore, for example, at the time of factory shipment, some predetermined values are selected in advance from the output values of various sensors, and an acoustic model learned under environmental conditions in which the sensor outputs these values is created. Then, a method of selecting an appropriate acoustic model by comparing the sensor information obtained in the actual use environment with the environmental conditions of the acoustic model is conceivable.
By the way, although the data size of one acoustic model varies depending on the design method and the mounting method of the speech recognition system, it may reach several hundred kilobytes. In a mobile device such as a car navigation system or a mobile phone, the capacity of a storage device that can be mounted is severely limited due to restrictions on the housing size and weight. Therefore, it is not practical to employ a configuration in which a plurality of acoustic models having such a data size are stored in the mobile device.
In particular, when there are a plurality of sensors, if a plurality of sensor information values for each sensor are selected and an acoustic model corresponding to the combination is prepared, an enormous storage capacity is required.
The present invention has been made to solve the above-described problem, and transmits sensor information from a voice recognition terminal to a voice recognition server storing a plurality of acoustic models via a network, thereby realizing an actual use environment. The purpose is to realize a highly accurate speech recognition process by selecting an acoustic model suitable for the above.
この発明に係る音声認識システムは、
音声認識サーバと複数の音声認識端末とをネットワークにより接続した音声認識システムであって、
前記音声認識端末は、
外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
前記ネットワークを介して前記センサ情報を前記音声認識サーバに送信するクライアント側送信手段と、
前記音声認識サーバから音響モデルを受信するクライアント側受信手段と、
前記音響モデルと前記音声特徴量とを照合するクライアント側照合手段と、を備え、
前記音声認識サーバは、
前記クライアント側送信手段が送信したセンサ情報を受信するサーバ側受信手段と、
複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
前記複数の音響モデルから前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
前記サーバ側音響モデル選択手段が選択した音響モデルを前記音声認識端末に送信するサーバ側送信手段と、を備えたものである。
このように、この音声認識システムでは、記憶容量に制限のない音声認識サーバに、様々な集音環境に対応した複数の音響モデルを記憶させておき、各音声認識端末に備えられたセンサからの情報に基づいてその音声認識端末の集音環境に適合した音響モデルを選択して、音声認識端末に送信するようにした。これにより、音声認識端末は、筐体サイズや重量などの制約から、その端末自身の記憶容量が制限される場合であっても、その集音環境に適合した音響モデルを取得し、その音響モデルを用いて音声認識を行うので、音声認識の精度を向上できるのである。The speech recognition system according to the present invention is:
A speech recognition system in which a speech recognition server and a plurality of speech recognition terminals are connected via a network,
The voice recognition terminal is
An external microphone is connected, and an input terminal for inputting an audio signal collected by the external microphone;
A client-side acoustic analysis unit that calculates a voice feature amount from a voice signal input from the input terminal; and a sensor that detects sensor information representing a type of noise to be superimposed on the voice signal;
Client-side transmission means for transmitting the sensor information to the voice recognition server via the network;
Client-side receiving means for receiving an acoustic model from the speech recognition server;
Client-side collating means for collating the acoustic model with the voice feature amount,
The voice recognition server
Server-side receiving means for receiving sensor information transmitted by the client-side transmitting means;
Server-side acoustic model storage means for storing a plurality of acoustic models;
Server-side acoustic model selection means for selecting an acoustic model that matches the sensor information from the plurality of acoustic models;
Server-side transmission means for transmitting the acoustic model selected by the server-side acoustic model selection means to the voice recognition terminal.
As described above, in this voice recognition system, a plurality of acoustic models corresponding to various sound collection environments are stored in a voice recognition server having no limitation in storage capacity, and sensors from each voice recognition terminal are used. Based on the information, an acoustic model suitable for the sound collection environment of the voice recognition terminal is selected and transmitted to the voice recognition terminal. As a result, the voice recognition terminal acquires an acoustic model suitable for the sound collection environment even if the storage capacity of the terminal itself is limited due to restrictions such as the housing size and weight, and the acoustic model Since voice recognition is carried out using this, the accuracy of voice recognition can be improved.
図1はこの発明の実施例1による音声認識端末及びサーバの構成を示したブロック図、
図2はこの発明の実施例1による音声認識端末及びサーバの動作を示すフローチャート、
図3はこの発明の実施例2による音声認識端末及びサーバの構成を示したブロック図、
図4はこの発明の実施例2による音響モデルのクラスタリング処理示すフローチャート、
図5はこの発明の実施例2による音声認識端末及びサーバの動作を示すフローチャート、
図6はこの発明の実施例3による音声認識端末及びサーバの構成を示したブロック図、
図7はこの発明の実施例3による音声認識端末及びサーバの動作を示すフローチャート、
図8はこの発明の実施例4による音声認識端末及びサーバの構成を示すブロック図、
図9はこの発明の実施例4による音声認識端末及びサーバの動作を示すフローチャート、
図10はこの発明の実施例4による音声認識端末から音声認識サーバに送信されるセンサ情報及び音声データのデータフォーマットの構成図、
図11はこの発明の実施例5による音声認識端末から音声認識サーバの構成を示すブロック図、
図12はこの発明の実施例5による音声認識端末及びサーバの動作を示すフローチャートである。1 is a block diagram showing the configuration of a speech recognition terminal and a server according to Embodiment 1 of the present invention,
FIG. 2 is a flowchart showing the operation of the speech recognition terminal and server according to Embodiment 1 of the present invention.
FIG. 3 is a block diagram showing the configuration of a speech recognition terminal and server according to Embodiment 2 of the present invention.
FIG. 4 is a flowchart showing acoustic model clustering processing according to the second embodiment of the present invention.
FIG. 5 is a flowchart showing the operation of the voice recognition terminal and server according to Embodiment 2 of the present invention.
FIG. 6 is a block diagram showing the configuration of a speech recognition terminal and server according to
FIG. 7 is a flowchart showing the operation of the speech recognition terminal and server according to
FIG. 8 is a block diagram showing the configuration of a speech recognition terminal and server according to Embodiment 4 of the present invention.
FIG. 9 is a flowchart showing the operation of the speech recognition terminal and server according to Embodiment 4 of the present invention.
FIG. 10 is a configuration diagram of a data format of sensor information and voice data transmitted from the voice recognition terminal to the voice recognition server according to the fourth embodiment of the present invention.
FIG. 11 is a block diagram showing a configuration of a voice recognition server from a voice recognition terminal according to Embodiment 5 of the present invention;
FIG. 12 is a flowchart showing the operation of the speech recognition terminal and server according to Embodiment 5 of the present invention.
図1は、この発明の一実施例による音声認識端末及びサーバの構成を示すブロック図である。図において、マイクロホン1は音声を収集する装置または部品であって、音声認識端末2は入力端3を介してマイクロホン1が収集した音声を音声認識して、認識結果4を出力する装置である。また入力端3は、オーディオ端子またはマイクロホン接続端子である。
音声認識端末2はネットワーク5を介して音声認識サーバ6と接続されている。ネットワーク5はインターネットやLAN(Local Area Network)、公衆回線網、携帯電話網、人工衛星を用いた通信網などディジタル情報を通信するネットワーク網である。ただしネットワーク5は、結果として、このネットワークに接続されている機器間でディジタルデータを送受信するようになっていればよいのであって、ネットワーク5上に伝送されている情報の形式を問うものではない。したがって、例えば、USB(Universal Serial Bus)やSCSI(Small Computer Systems Interface)などのように複数の機器を接続するように設計されたバスであっても構わない。また、音声認識端末2が車載用の音声認識装置である場合には、ネットワーク5は移動体通信のデータ通信サービスを利用することになる。データ通信サービスでは、送受信するデータをパケットと呼ばれる単位に分割して一つ一つ送受信する通信方式を使用する。パケットには、送信側機器が受信側機器に送信しようとしているデータの他に、受信側機器を特定するための受信側機器を識別する情報(送信先アドレス)、そのパケットがデータ全体のどの部分を構成するかを示す位置情報、誤り訂正符号などの制御情報が付加されている。
音声認識サーバ6は、ネットワーク5を介して音声認識端末2と接続されるように構成されているサーバコンピュータである。音声認識サーバ6は、音声認識端末2よりも大きな記憶容量のハードディスク装置またはメモリなどの記憶装置を有しており、音声認識に必要となる標準パターンを記憶している。また、複数の音声認識端末2が、ネットワーク5を介して音声認識サーバ6と接続されるようになっている。
次に音声認識端末2の詳細な構成について説明する。音声認識端末2は、端末側音響分析部11とセンサ12、端末側送信部13、端末側受信部14、端末側音響モデル記憶部15、端末側音響モデル選択部16、端末側照合部17を備えている。
端末側音響分析部11は、入力端3から入力された音声信号に基づいて音響分析を行い、音声特徴量を算出する部位である。
センサ12は、マイクロホン1が取得する音声信号に重畳する騒音の種別に関する情報を得ることを目的として、環境条件を検出するセンサであって、マイクロホン1が設置されている環境における物理量や、その変化量を検出又は取得する素子、または装置である。しかし、それのみならず、さらに検出量を適切な信号に変換して出力する素子又は装置をも含んでよい。また、ここでいう物理量とは、温度・圧力・流量・光・磁気の他、時間や電磁波なども含むものとする。したがって、例えばGPSアンテナはGPS信号に対するセンサである。また必ずしも外界から何らかの信号を取得して物理量を検出するものである必要はなく、例えば内蔵クロックに基づいてマイクロホンのおかれている地点の時刻を取得するようになっている回路も、ここでいうセンサに含まれる。
なお、以降の説明では、これらの物理量を総称して、センサ情報と呼ぶこととする。また一般に、センサはアナログ信号を出力するようになっており、出力されたアナログ信号をA/D変換器又は素子によって、ディジタル信号にサンプリングするのが通常の構成である。したがって、センサ12は、このようなA/D変換器又は素子を含むものであってもよい。さらに、複数種類のセンサ、例えば音声認識端末2が車載用ナビゲーションシステムの端末である場合には、速度センサやエンジンの回転数をモニタリングするセンサ、ワイパーの稼働状況をモニタリングするセンサ、ドアのガラスの開閉状況をモニタリングするセンサ、カーオーディオのボリュームをモニタリングするセンサなど、複数のセンサを組み合わせてもよい。
端末側送信部13は、センサ12によって得られたマイクロホン1近傍のセンサ情報を音声認識サーバ6に送信する部位である。
端末側受信部14は、音声認識サーバ6からの情報を受信する部位であり、端末側音響モデル選択部16に受信した情報を出力するようになっている。端末側送信部13と端末側受信部14は、ネットワークケーブルに信号を送出し、またネットワークケーブルから信号を受信する回路又は素子から構成されているが、この回路又は素子を制御するためのコンピュータプログラムを端末側送信部13と端末側受信部14の一部に含めてもよい。もっとも、ネットワーク5が無線通信網である場合には、端末側送信部13と端末側受信部14は通信波を送受信するようなアンテナを備えることになる。なお、端末側送信部13と端末側受信部14とを別体の部位として構成してもよいが、同一のネットワーク入出力装置で構成するようにしてもよい。
端末側音響モデル記憶部15は、音響モデルを記憶するための記憶素子又は回路である。ここで、音響モデルは、学習環境に応じて複数個存在しうるものとし、そのうちの一部のみが端末側音響モデル記憶部15に記憶されているものとする。また各音響モデルは、その音響モデルを学習した環境条件を表すセンサ情報と関連づけられており、センサ情報の数値から、その環境条件に適した音響モデルが特定できるようになっている。例えば、音声認識端末2が車載用音声認識装置である場合には、自動車が時速40kmで走行している場合の騒音環境下で発声されたサンプルに基づいて作成された音響モデル、自動車が時速50kmで走行している場合の騒音環境下で発声されたサンプルに基づいて作成された音響モデル、といったものが準備されている。ただし、後述するように、音声認識サーバ6にもさまざまな環境条件に対応した音響モデルが記憶されているので、端末側音響モデル記憶部15に、すべての環境条件下で学習された音響モデルが記憶されている必要はない。このような構成を採用することで、音声認識端末2が搭載しなくてはならない記憶装置の記憶容量は極めて小さく済む。
端末側音響モデル選択部16は、端末側受信部14が取得した音響モデル(あるいは端末側音響モデル記憶部15に記憶されている音響モデル)と、端末側音響分析部11が出力した音声特徴量との尤度を算出する部位である。端末側照合部17は、端末側音響モデル選択部16が算出した尤度に基づいて語彙を選択し、認識結果4として出力する部位である。
なお、音声認識端末2の構成要素のうち、端末側音響分析部11、端末側送信部13、端末側受信部14、端末側音響モデル記憶部15、端末側音響モデル選択部16、端末側照合部17はそれぞれ専用の回路により構成してもよいが、中央演算装置(CPU)及びネットワークI/O装置(ネットワークアダプタ装置など)、記憶装置に、それぞれの機能に相当する処理を実行させるコンピュータプログラムとして構成するようにしてもよい。
続いて、音声認識サーバ6の詳細な構成について説明する。音声認識サーバ6はサーバ側受信部21、サーバ側音響モデル記憶部22、サーバ側音響モデル選択部23、サーバ側送信部24とを備えている。サーバ側受信部21は、ネットワーク5を介して音声認識端末2の端末側送信部13から送信されてくるセンサ情報を受信する部位である。
サーバ側音響モデル記憶部22は、複数の音響モデルを記憶するための記憶装置である。このサーバ側音響モデル記憶部22はハードディスク装置や、CD−ROM媒体とCD−ROMドライブとの組み合わせなどによる大容量記憶装置として構成される。
サーバ側音響モデル記憶部22は、端末側音響モデル記憶部15とは異なり、この音声認識システムで使用する可能性のある音響モデルをすべて記憶しており、さらにそうするのに十分な記憶容量を有しているものとする。
サーバ側音響モデル選択部23は、サーバ側音響モデル記憶部22が記憶する音響モデルから、サーバ側受信部21が受信したセンサ情報に適する音響モデルを選択する部位である。
サーバ側送信部24は、サーバ側音響モデル選択部23が選択した音響モデルをネットワーク5を介して音声認識端末2に送信する部位である。
なお、音声認識サーバ6の構成要素のうち、サーバ側受信部21、サーバ側音響モデル記憶部22、サーバ側音響モデル選択部23、サーバ側送信部24はそれぞれ専用の回路により構成してもよいが、中央演算装置(CPU)及びネットワークI/O装置(ネットワークアダプタ装置など)、記憶装置に、それぞれの機能に相当する処理を実行させるコンピュータプログラムとして構成するようにしてもよい。
次に音声認識端末2及び音声認識サーバ6の動作について、図を参照しながら説明する。図2は実施例1による音声認識端末2と音声認識サーバ6との処理を示したフローチャートである。図において、利用者がマイクロホン1から音声入力を行うと(ステップS101)、入力端3を介して端末側音響分析部11に音声信号が入力される。続いて、端末側音響分析部11においてA/D変換器によりディジタル信号に変換されて、LPCケプストラム(Linear Predictive Coding Cepstrum)などの音声特徴量の時系列を算出する(ステップS102)。
次に、センサ12はマイクロホン1周辺の物理量を取得する(ステップS103)。例えば、音声認識端末2がカーナビゲーションシステムであって、センサ12が、このカーナビゲーションシステムが搭載されている車両(自動車)の速度などを検出する速度センサである場合には、速度がこのような物理量に相当する。なお図2において、ステップS103によるセンサ情報の収集をステップS102による音響分析の次に行うこととしている。しかし、ステップS103の処理はステップS101〜S102の処理よりも前に行ってもよいし、また同時に、または並行して行うようにしてもよいことはいうまでもない。
続いて、端末側音響モデル選択部16は、センサ12が得たセンサ情報、すなわちマイクロホン1が音声を収集する環境に最も近い条件で学習した音響モデルを選択する。ここで、音響モデルの環境条件は複数通り考えられ、さらに端末側音響モデル記憶部15はそのすべてを記憶しているわけではない。そこで、端末側音響モデル記憶部15が現在記憶している音響モデルの中に、マイクロホン1の環境条件に近い環境条件で学習されたものがない場合には、音声認識サーバ6より音響モデルを取得するのである。
次に処理の説明に先立って、用語と表記の定義を行っておく。音響モデルmが学習された条件下のセンサkについてのセンサ情報を、単に「音響モデルmのセンサ情報」と呼ぶこととする。端末側音響モデル記憶部15は、M個の音響モデルを記憶しているものとし、各音響モデルを音響モデルm(ただしm=1,2,…,M)として表す。またセンサ12はK個のセンサから構成されており、それぞれのセンサをセンサk(ただしk=1,2,…,K)とする。さらに音響モデルmが学習された環境条件下におけるセンサkについてのセンサ情報をSm,kで表すことにし、またセンサkの現在のセンサ情報(ステップS103で出力したセンサ情報)をxkとする。
以下、これらの処理をより具体的に説明する。まず、端末側音響モデル選択部16は、音響モデルmのセンサ情報Sm,kと、センサ12によって取得されたセンサ情報xkとの距離値D(m)を算出する(ステップS104)。いま、あるセンサkにおけるセンサ情報xkと音響モデルmのセンサ情報Sm,kとの距離値をDk(xk,Sm,k)とする。距離値Dk(xk,Sm,k)の具体的な値としては、例えばセンサ情報の差分の絶対値などを採用すればよい。すなわちセンサ情報が速度であるならば、学習時の速度(例えばSm,k=40km/h)と現在の速度(例えばxk=50km/h)の差(10km/h)を距離値Dk(xk,Sm,k)とする。
また距離値D(m)については、センサ毎の距離値Dk(xk,Sm,k)を用いて、次のように算出する。
ここで、wkは各センサに対する重み係数である。
ここで、物理量としてのセンサ情報と距離値D(m)との関係について説明しておく。センサ情報が位置(経度や緯度に基づいて定めてもよいし、特定の場所を原点として、そこからの距離によって定めてもよい)である場合と、速度である場合とでは、センサ情報の物理量としての次元が相違する。しかしここでは、重み係数wkを調整することで、wkDk(xk,Sm,k)の距離値への寄与度を適切に設定できるので、次元の相違を無視しても問題がない。また単位系が相違する場合であっても同様である。例えば、速度の単位としてkm/hを用いる場合と、mphを用いる場合では、物理的に同じ速度であっても、センサ情報として異なる値をとりうる。このような場合、例えばkm/hで算出した速度値に対しては1.6の重み係数を与え、mphで算出した速度値に対しては1.0の重み係数を与えれば、距離値の算出における速度の効果を等しくすることができる。
次に、端末側音響モデル選択部16は、式(1)で算出した各mに対する距離値D(m)の最小値min{D(m)}を求め、このmin{D(m)}が所定の値Tよりも小さいかどうかを評価する(ステップS105)。すなわち、端末側音響モデル記憶部15が記憶している端末側音響モデルの環境条件中に、マイクロホン1が集音する現在の環境条件に十分近いものが存在するかどうかを検定するのである。所定の値Tとは、このような条件を満たすかどうかを検定するために予め設定された値である。
min{D(m)}が所定の値Tよりも小さい場合には(ステップS105:Yes)、ステップS106に進む。端末側音響モデル選択部16は、マイクロホン1が集音する現在の環境に適する音響モデルとして、端末側の音響モデルmを選択する(ステップS106)。そして照合処理(ステップS112)に進む。以降の処理については後述する。
また、min{D(m)}が所定の値T以上である場合には(ステップS105:No)、ステップS107に進む。この場合には、端末側音響モデル記憶部15が記憶している音響モデルの環境条件中に、マイクロホン1が集音する現在の環境条件に十分近いものが存在しないことになる。そこで、端末側送信部13は、音声認識サーバ6にセンサ情報を送信する(ステップS107)。
なお、所定の値Tを大きくすると、min{D(m)}がTよりも小さいと判断される頻度が多くなり、ステップS107が実行される回数が減少する。すなわち、Tの値を大きくとれば、ネットワーク5を介した送受信の回数を削減できる。したがってネットワーク5の伝送量を抑制する効果が発生する。
また反対に、Tの値を小さくすると、ネットワーク5の送受信回数が増えることになる。しかしこの場合には、センサ12が取得したセンサ情報と音響モデルが学習された条件との距離値がより小さな音響モデルを使用して、音声認識が行われるので、音声認識の精度を向上させることができる。以上のことから、ネットワーク5の伝送量と目標とする音声認識精度とを考慮してTの値を決定するとよい。
音声認識サーバ6において、端末側受信部21はネットワーク5を介してセンサ情報を受信する(ステップS108)。そしてサーバ側音響モデル選択部23は、サーバ側音響モデル記憶部22によって記憶されている音響モデルが学習された環境条件とサーバ側受信部21が受信したセンサ情報との距離値を、ステップS104と同様にして算出し、この距離値が最小となる音響モデルを選択する(ステップS109)。続いてサーバ側送信部24は、サーバ側音響モデル選択部23が選択した音響モデルを音声認識端末2に送信する(ステップS110)。
音声認識端末2の端末側受信部14は、サーバ側送信部24が送信した音響モデルをネットワーク5を介して受信する(ステップS111)。
次に、端末側照合部17は、端末側音響分析部11が出力した音声特徴量と音響モデルとの照合処理を行う(ステップS112)。ここでは、音響モデルとして記憶されている標準パターンと音声特徴量の時系列との間で最も尤度の高い候補を認識結果4とする。例えば、DP(Dynamic Programming)マッチングによるパターンマッチングを行い、距離値が最小のものを認識結果4とする。
以上のように、実施例1による音声認識端末2及びサーバ6によれば、音声認識端末2に少数の音響モデルしか記憶できない場合であっても、マイクロホン1の集音環境をセンサ12によって取得し、音声認識サーバ6が記憶している多数の音響モデルの中から、この集音環境に近い環境条件で学習した音響モデルを選択して音声認識を行うことができる。
したがって、音声認識端末2には大容量の記憶素子や回路、記憶媒体を搭載する必要がなくなり、機器構成を簡素化し、廉価に高精度の音声認識を行う音声認識端末を提供できる。前述の通り、一つの音響モデルのデータサイズは、実装の仕方にもよるが、数百キロバイト程度のサイズを有する場合がある。したがって、音声認識端末が記憶する必要のある音響モデルの個数を削減することによる効果は大きい。
なお、センサ情報は連続的な値をとりうるが、通常はその連続値からいくつかの値を選択し、この値をセンサ情報とする音響モデルを学習することになる。今、センサ12が複数種類のセンサ(第1のセンサ、及び第2のセンサとする)から構成されていて、音声認識端末2及び音声認識サーバ6が記憶している各音響モデルの第1のセンサに関するセンサ情報として選択された値の個数をM1、第2のセンサに関するセンサ情報として選択された値の個数をM2とすると、音声認識端末2及び音声認識サーバ6が記憶している音響モデルの総数はM1×M2として算出される。
この場合において、M1<M2が成立する場合、つまり第1のセンサのセンサ情報として選択された値の個数の方が、第2のセンサのセンサ情報として選択された値の個数よりも小さい場合に、第1のセンサのセンサ情報に対する重み係数を第2のセンサのセンサ情報に対する重み係数よりも小さくすることで、マイクロホン1の集音環境に応じた音響モデルを選択することができる。
また、音声認識端末2には端末側音響モデル記憶部15と端末側音響モデル選択部16を備えて、音声認識端末2が記憶する音響モデルと、音声認識サーバ6が記憶する音響モデルとを、適切に選択して音声認識処理を行うこととした。しかし音声認識端末2に端末側音響モデル記憶部15と端末側音響モデル選択部16を備えることは必須ではない。すなわち、センサ12の取得するセンサ情報に基づいて、無条件に音声認識サーバ6が記憶する音響モデルを転送するような構成も可能であることはいうまでもない。このような構成を採用しても、音声認識端末2の記憶容量を削減しつつ、センサ12によるマイクロホン1の集音環境に即した音響モデルを選択し、精度の高い音声認識処理を行うことができるというこの発明の特徴が損なわれることがないのである。
また上記に説明した構成に加えて、音声認識サーバ6より受信した音響モデルを端末側音響モデル記憶部15に新たに記憶させたり、音声認識端末2側の音響モデルの一部に代えて音声認識サーバ6より受信した音響モデルを記憶させる構成も可能である。こうすることで、次回再び同じ音響モデルを用いて音声認識する場合に、音声認識サーバ6より再度音響モデルを転送する必要がなくなるので、ネットワーク5の伝送負荷を軽減できるし、送受信に要する時間を短縮することもできる。FIG. 1 is a block diagram showing the configuration of a voice recognition terminal and server according to one embodiment of the present invention. In the figure, a microphone 1 is a device or component that collects voice, and a voice recognition terminal 2 is a device that recognizes voice collected by the microphone 1 via an
The voice recognition terminal 2 is connected to the
The
Next, a detailed configuration of the voice recognition terminal 2 will be described. The voice recognition terminal 2 includes a terminal side
The terminal-side
The
In the following description, these physical quantities are collectively referred to as sensor information. In general, the sensor outputs an analog signal, and the output signal is typically sampled into a digital signal by an A / D converter or element. Therefore, the
The terminal-
The terminal-
The terminal-side acoustic
The terminal-side acoustic
Among the components of the speech recognition terminal 2, the terminal-side
Next, the detailed configuration of the
The server-side acoustic
Unlike the terminal-side acoustic
The server-side acoustic
The server-
Of the components of the
Next, operations of the voice recognition terminal 2 and the
Next, the
Subsequently, the terminal-side acoustic
Next, prior to explaining the processing, terms and notations are defined. The sensor information regarding the sensor k under the condition where the acoustic model m is learned is simply referred to as “sensor information of the acoustic model m”. The terminal-side acoustic
Hereinafter, these processes will be described more specifically. First, the terminal-side acoustic
The distance value D (m) is calculated as follows using the distance value D k (x k , S m, k ) for each sensor.
Here, w k is a weighting factor for each sensor.
Here, the relationship between the sensor information as the physical quantity and the distance value D (m) will be described. The physical quantity of the sensor information depends on whether the sensor information is a position (it may be determined based on longitude or latitude, or may be determined by a distance from a specific place as the origin) and speed. The dimensions are different. However, here, by adjusting the weighting factor w k , the degree of contribution to the distance value of w k D k (x k , S m, k ) can be set appropriately, so there is no problem even if dimensional differences are ignored. There is no. The same applies to the case where the unit systems are different. For example, when km / h is used as a unit of speed and when mph is used, even if the speed is physically the same, different values can be taken as sensor information. In such a case, for example, if the speed value calculated in km / h is given a weighting factor of 1.6 and if the speed value calculated in mph is given a weighting factor of 1.0, the distance value The speed effect in the calculation can be made equal.
Next, the terminal-side acoustic
When min {D (m)} is smaller than the predetermined value T (step S105: Yes), the process proceeds to step S106. The terminal-side acoustic
If min {D (m)} is equal to or greater than the predetermined value T (step S105: No), the process proceeds to step S107. In this case, none of the environmental conditions of the acoustic model stored in the terminal-side acoustic
If the predetermined value T is increased, the frequency at which min {D (m)} is determined to be smaller than T increases, and the number of times step S107 is executed decreases. That is, if the value of T is increased, the number of transmissions / receptions via the network 5 can be reduced. Therefore, an effect of reducing the transmission amount of the network 5 occurs.
On the other hand, if the value of T is decreased, the number of transmissions / receptions of the network 5 increases. However, in this case, since speech recognition is performed using an acoustic model having a smaller distance value between the sensor information acquired by the
In the
The
Next, the terminal
As described above, according to the voice recognition terminal 2 and the
Therefore, it is not necessary to mount a large-capacity storage element, circuit, or storage medium in the voice recognition terminal 2, and it is possible to provide a voice recognition terminal that simplifies the device configuration and performs highly accurate voice recognition at low cost. As described above, the data size of one acoustic model may have a size of about several hundred kilobytes although it depends on the mounting method. Therefore, the effect of reducing the number of acoustic models that the speech recognition terminal needs to store is significant.
The sensor information can take continuous values, but usually, some values are selected from the continuous values, and an acoustic model is learned using these values as sensor information. Now, the
In this case, when M1 <M2 holds, that is, when the number of values selected as sensor information of the first sensor is smaller than the number of values selected as sensor information of the second sensor. The acoustic model corresponding to the sound collection environment of the microphone 1 can be selected by making the weighting coefficient for the sensor information of the first sensor smaller than the weighting coefficient for the sensor information of the second sensor.
The speech recognition terminal 2 includes a terminal-side acoustic
Further, in addition to the configuration described above, the acoustic model received from the
実施例1による音声認識端末によれば、センサ情報に対応した音響モデルを音声認識端末が記憶していない場合には、音声認識サーバからセンサ情報に適した音響モデルを転送する構成とした。
しかし音響モデル1個あたりのデータサイズを考慮すると、音声認識サーバから音響モデル全体をネットワークを介して音声認識端末に転送することは、ネットワークに大きな負荷を与え、また音響モデルのデータ転送に要する時間がよって全体の処理性能に与える影響も無視することができない。
このような問題を回避する一つの方法は、音響モデルのデータサイズがなるべく小さくなるように音声認識処理を設計することである。音響モデルのサイズを小さければ、音響モデルを音声認識サーバから音声認識端末に転送しても、ネットワークにはそれほど負荷を与えることにはならないからである。
一方、相互に類似する複数の音響モデルをクラスタリングし、同一クラスタ内の音響モデル間で差分を予め求めておいた上で、音声認識サーバの記憶している音響モデルを転送する必要がある場合に、音声認識端末が記憶している音響モデルとの差分のみを転送し、音声認識端末が記憶している音響モデルと差分から音声認識サーバの音響モデルを合成する方法も考えられる。実施例2による音声認識端末及びサーバは、かかる原理に基づいて動作するものである。
図3は、実施例2による音声認識端末及びサーバの構成を示すブロック図である。図において、音響モデル合成部18は、端末側受信部14の受信内容と端末側音響モデル記憶部15が記憶している音響モデルから、音声認識サーバ6の記憶する音響モデルと等価な音響モデルを合成する部位である。また音響モデル差分算出部25は端末側音響モデル記憶部15が記憶している音響モデルとサーバ側音響モデル記憶部22が記憶している音響モデルとの差分を算出する部位である。その他、図1と同一の符号を付した部位については実施例1と同様であるので、説明を省略する。
前述の通り、実施例2の音声認識装置2及びサーバ6は、音響モデルを予めクラスタリングしている点を特徴とする。そこで、まず音響モデルのクラスタリング方法について説明する。なお音響モデルのクラスタリングは、音声認識装置2及びサーバ6によって音声認識処理がなされる前に完了しているものである。
音響モデルは、多数の話者によって発声された大量の音声から各音韻(または音素あるいは音節)の音声特徴量の統計量を示したものである。統計量は、平均値ベクトルμ={μ(1),μ(2),…,μ(K)}と、対角共分散ベクトルΣ={σ(1)2,σ(2)2,…,σ(K)2}から構成される。そこで、音韻pの音響モデルをNp{μp、Σp}で表すこととする。
音響モデルのクラスタリングは、以下に述べるように、最大VQ歪クラスタを逐次分割するように改良したLBGアルゴリズムにより行う。図4は、音響モデルのクラスタリング処理を示すフローチャートである。
まず、初期クラスタの作成を行う(ステップS201)。ここでは、この音声認識システムで使用される可能性のあるすべての音響モデルから、一つの初期クラスタを作成する。初期クラスタrの統計量の算出には、式(2)と式(3)を用いる。ここで、Nはクラスタに属する分布の数を、またKは音声特徴量の次元数を表す。
次に、これまで実行してきたクラスタリング処理によって、すでに必要となるクラスタの個数が得られているかどうかを判定する(ステップS202)。必要なクラスタの個数は、音声認識処理システム設計時に決定される。一般的にいって、クラスタ数が多ければ多いほど、同一クラスタ内の音響モデル間の距離が小さくなる。その結果、差分データの情報量を小さくなり、ネットワーク5を介して送受信される差分データのデータ量も抑制できる。特に、音声認識端末2及びサーバ6が記憶している音響モデルの総数が多い場合には、クラスタ数を多くするとよい。
しかし、あらゆる場合に単純にクラスタの数を多くすればよいというわけにはいかない。その理由は次のとおりである。すなわち、実施例2では、音声認識端末2が記憶している音響モデル(以下、ローカル音響モデルと呼ぶ)と差分とを組み合わせて音声認識サーバ6の記憶する音響モデルを合成する、あるいは音声認識サーバ6の記憶する音響モデルと同等の音響モデルを得ようとするものである。
ここで使用される差分は、ローカル音響モデルと組み合わせるものであり、このローカル音響モデルと同じクラスタに属する音響モデルとの間で求められたものでなければならない。差分によって合成される音響モデルはセンサ情報に対応したものだから、そうすると、センサ情報に対応した音響モデルとローカル音響モデルが同一のクラスタに分類されている状態が最も効率のよい状態ということになる。
ところで、クラスタ数が多くなると、それぞれのクラスタに属する音響モデルの個数は少なくなって、各音響モデルは多数のクラスタに分断された状態となる。このような場合、音声認識端末2が記憶しているローカル音響モデルと同じクラスタに属する音響モデル数も少なくなる傾向にある。さらに、センサ情報に対応した音響モデルと音声認識端末2が記憶するローカル音響モデルとが同じクラスタに属する確率も小さくなる。
その結果、このような場合、異なるクラスタに属する音響モデル間の差分を準備できない状況や、あるいは差分を準備してもそのデータサイズが十分小さいものにはならない状況が生じる。
このような理由から、ローカル音響モデルの個数を多くすることができない場合、つまり音声認識端末2に搭載するメモリやハードディスクなどの記憶装置の記憶容量が確保できない場合には、クラスタ数を多くしない方がよい。
なお、必要なクラスタ数が2以上であれば、初期クラスタ作成直後はクラスタ数が1であるので、ステップS203に進む(ステップS202:No)。またすでに後述する処理によって複数のクラスタが得られており、その個数が必要なクラスタの個数以上であれば、終了する(ステップS202:Yes)。
次に、最大VQ歪クラスタ分割を行う(ステップS203)。ここでは、VQ歪が最も大きいクラスタrmax(1回目のループの時は初期クラスタ)をr1、r2の2つのクラスタに分割する。これにより、クラスタの個数が増加する。分割後のクラスタ統計量は、以下の式によって算出する。なお、Δ(k)は、音声特徴量の各次元毎に予め定められた微小値とする。
続いて、各音響モデルの統計量と各クラスタ(ステップS203で分割されたすべてのクラスタ)の統計量との距離値を算出する(ステップS204)。ここでは、すべての音響モデルと、すでに求められているすべてのクラスタからそれぞれ一つずつ選択されて距離が算出される。ただしすでに距離が算出されている音響モデルとクラスタの組み合わせについては再び距離が算出されることはない。そのような制御を行うために、クラスタ毎に距離を算出済みの音響モデルのフラグを設けるようにしてもよい。この音響モデルの統計量と各クラスタの統計量の距離値には、例えば式(8)で定義するバタチャリア(Bhattacharyya)距離値を用いる。
なお、式(8)において、1をサフィックスとするパラメータは音響モデルの統計量であり、2をサフィックスとするパラメータはクラスタの統計量である。
以上求められた距離値に基づいて、各音響モデルを最も距離値の小さいクラスタに属するようにする。なお、式(8)以外の方法で、音響モデルの統計量とクラスタの統計量との距離値を算出してもよい。その場合であっても、式(1)によって算出される距離値が近い場合に、同一のクラスタに属するような距離値が得られる式を採用することが望ましい。ただしこのことは必須ではない。
次に各クラスタのコードブックの更新を行う(ステップS205)。そのために、式(2)及び(3)を用いて、クラスタに属する音響モデルの統計量の代表値を算出する。また式(8)を用いて、クラスタに属する音響モデルの統計量と、代表値との距離を累積し、これを現在のクラスタのVQ歪と定義する。
続いてクラスタリングの評価値を算出する(ステップS206)。ここでは、全クラスタのVQ歪の総和をクラスタリングの評価値とする。なおステップS204〜ステップS207は複数回実行されるループを構成する。そして、ステップS206で算出された評価値は、次回のループ実行まで記憶されている。そして、この評価値と前回ループ実行時に算出された評価値との差分を求め、その絶対値が所定の閾値未満か否かを判定する(ステップS207)。この差分が所定の閾値未満である場合は、すべての音響モデルがすでに求められているクラスタのうち、適切なクラスタに所属したので、ステップS202に戻る(ステップS207:Yes)。一方、差分が所定の閾値以上である場合は、まだ適切なクラスタに属していない音響モデルが存在するので、ステップS204に戻る(ステップS207:No)。
以上がクラスタリング処理である。次に、このようにしてクラスタリングされた音響モデルに基づいて行われる実施例2の音声認識装置2及びサーバ6における音声認識処理について、図を用いて説明する。図5は、音声認識装置2及びサーバ6の動作のフローチャートである。図において、ステップS101〜S105においては、実施例1と同様に音声がマイクロホン1から入力され、音響分析とセンサ情報の取得を行った後に、このセンサ情報に適したローカル音響モデルが存在するかどうかを判定する。
そして、センサ情報との距離が最も小さいローカル音響モデル(このローカル音響モデルを識別する番号または名前をmと呼ぶ)をもってしても、その距離が所定の閾値T未満とならない場合には、ステップS208に進む(ステップS105:No)。
次に、端末側送信部13は、センサ情報とローカル音響モデルを識別する情報mとを、音声認識サーバ6に送信する(ステップS208)。
サーバ側受信部21は、センサ情報とmとを受信し(ステップS209)、サーバ側音響モデル選択部23は、受信したセンサ情報に最も適した音響モデルを選択する(ステップS109)。そして、この音響モデルとローカル音響モデルmとが同一のクラスタに属するか否かを判断する(ステップS210)。同一のクラスタに属する場合には、ステップS211に進み(ステップS210:Yes)、音響モデル差分算出部25は、この音響モデルとローカル音響モデルmとの差分を算出して(ステップS211)、サーバ側送信部24は差分を音声認識端末2に送信する(ステップS212)。
なお差分を求めるには、例えば、音声特徴量の各次元の成分の値の差異やオフセットのずれ(それぞれの要素の格納位置の差)に基づいて算出すればよい。異なるバイナリデータ間(バイナリファイル間など)の差分値を求める技術は公知となっているので、それを利用してもよい。また、実施例2による技術は、音響モデルのデータ構造をついて特別な要求を求めるものではないので、差分を求めやすいデータ構造を設計しておく方法も考えられる。
一方、同一のクラスタに属さない場合には、直接ステップS212に進む(ステップS210:No)。この場合は、差分ではなく、選択した音響モデルそのものを送信する(ステップS212)。
なお、上記の処理においては、音声認識端末2側でセンサ情報に最も適していると判断したローカル音響モデル(ステップS105で、センサ情報との距離が最も小さいと判断した音響モデル)を基準に差分を生成することを前提としている。そのため、このようなローカル音響モデルmに関する情報を前もってステップS208で送信した。しかし、この他にも音声認識サーバ6側で音声認識端末2が記憶しているローカル音響モデルの種類を把握(あるいは管理)しておき、さらに音声認識サーバがセンサ情報に近い音響モデルを選択した後に、選択された音響モデルと同じクラスタに属するローカル音響モデルを管理しているローカル音響モデルから選択して、それらの差分を算出するようにしてもよい。この場合には、音声認識サーバ6によって算出された差分がどのローカル音響モデルに基づいているかを音声認識端末2に通知する必要があるので、ステップS212において、音声認識サーバ6が差分算出の基礎としたローカル音響モデルを識別する情報を送信する。
次に音声認識端末2の端末側受信部14は、差分データ、あるいは音響モデルを受信する(ステップS213)。受信したデータ差分である場合には、音響モデル合成部18が差分の基礎となるローカル音響モデルmと差分から音響モデルを合成する(ステップS214)。そして、端末側照合部17が音響モデルの標準パターンと音声特徴量とのパターンマッチングを行って最も尤度の高い認識候補を認識結果4として出力する。
以上から明らかなように、実施例2の音声認識端末2が記憶するローカル音響モデルと音声認識サーバ6が記憶する音響モデルとの差分のみをネットワークを介して送受信することとした。そのため、音声認識端末2の記憶容量が小さい場合でも、マイクロホン1の集音環境に即した多様な音響モデルに基づいて高精度な音声認識を行うことができるという実施例1の効果に加えて、ネットワークに与える負荷を低減し、データ転送に要する時間を短くすることによって処理性能を向上するという効果を奏するのである。According to the voice recognition terminal according to the first embodiment, when the voice recognition terminal does not store the acoustic model corresponding to the sensor information, the acoustic model suitable for the sensor information is transferred from the voice recognition server.
However, considering the data size per acoustic model, transferring the entire acoustic model from the speech recognition server to the speech recognition terminal via the network places a heavy load on the network and the time required to transfer the acoustic model data. Therefore, the influence on the overall processing performance cannot be ignored.
One method for avoiding such a problem is to design the speech recognition process so that the data size of the acoustic model is as small as possible. This is because, if the size of the acoustic model is small, even if the acoustic model is transferred from the speech recognition server to the speech recognition terminal, the load on the network is not so much.
On the other hand, when a plurality of acoustic models that are similar to each other are clustered and the difference between the acoustic models in the same cluster is obtained in advance, and the acoustic model stored in the speech recognition server needs to be transferred A method of transferring only the difference from the acoustic model stored in the speech recognition terminal and synthesizing the acoustic model of the speech recognition server from the difference between the acoustic model stored in the speech recognition terminal is also conceivable. The voice recognition terminal and server according to the second embodiment operate based on this principle.
FIG. 3 is a block diagram illustrating the configuration of the voice recognition terminal and the server according to the second embodiment. In the figure, an acoustic
As described above, the speech recognition apparatus 2 and the
The acoustic model indicates a statistic of a speech feature value of each phoneme (or phoneme or syllable) from a large amount of speech uttered by many speakers. The statistics include the mean vector μ = {μ (1), μ (2),..., Μ (K)} and the diagonal covariance vectors Σ = {σ (1) 2 , σ (2) 2 ,. , Σ (K) 2 }. Therefore, the acoustic model of the phoneme p is represented by N p {μ p , Σ p }.
As described below, the acoustic model is clustered by an LBG algorithm improved so as to sequentially divide the maximum VQ distortion cluster. FIG. 4 is a flowchart showing the clustering process of the acoustic model.
First, an initial cluster is created (step S201). Here, one initial cluster is created from all acoustic models that may be used in the speech recognition system. Formula (2) and formula (3) are used to calculate the statistics of the initial cluster r. Here, N represents the number of distributions belonging to the cluster, and K represents the number of dimensions of the speech feature quantity.
Next, it is determined whether or not the necessary number of clusters has already been obtained by the clustering process executed so far (step S202). The number of necessary clusters is determined when the speech recognition processing system is designed. Generally speaking, the greater the number of clusters, the smaller the distance between acoustic models in the same cluster. As a result, the information amount of the difference data is reduced, and the data amount of the difference data transmitted / received via the network 5 can be suppressed. In particular, when the total number of acoustic models stored in the speech recognition terminal 2 and the
However, in all cases, simply increasing the number of clusters is not enough. The reason is as follows. That is, in the second embodiment, the acoustic model stored in the
The difference used here is to be combined with the local acoustic model and must be obtained between the local acoustic model and an acoustic model belonging to the same cluster. Since the acoustic model synthesized by the difference corresponds to the sensor information, the state in which the acoustic model corresponding to the sensor information and the local acoustic model are classified into the same cluster is the most efficient state.
By the way, when the number of clusters increases, the number of acoustic models belonging to each cluster decreases, and each acoustic model is divided into a large number of clusters. In such a case, the number of acoustic models belonging to the same cluster as the local acoustic model stored in the speech recognition terminal 2 tends to decrease. Furthermore, the probability that the acoustic model corresponding to the sensor information and the local acoustic model stored in the speech recognition terminal 2 belong to the same cluster is also reduced.
As a result, in such a case, a situation in which a difference between acoustic models belonging to different clusters cannot be prepared, or a situation in which the data size is not sufficiently small even if the difference is prepared occurs.
For this reason, when the number of local acoustic models cannot be increased, that is, when the storage capacity of a storage device such as a memory or a hard disk mounted on the speech recognition terminal 2 cannot be secured, the number of clusters should not be increased. Is good.
If the required number of clusters is 2 or more, the number of clusters is 1 immediately after the creation of the initial cluster, so the process proceeds to step S203 (No in step S202). If a plurality of clusters have already been obtained by the processing described later, and the number of clusters is equal to or greater than the number of necessary clusters, the process ends (step S202: Yes).
Next, maximum VQ distortion cluster division is performed (step S203). Here, the cluster rmax with the largest VQ distortion (the initial cluster in the case of the first loop) is divided into two clusters r1 and r2. As a result, the number of clusters increases. The cluster statistic after the division is calculated by the following formula. Note that Δ (k) is a minute value predetermined for each dimension of the audio feature amount.
Subsequently, a distance value between the statistic of each acoustic model and the statistic of each cluster (all clusters divided in step S203) is calculated (step S204). Here, the distance is calculated by selecting one from all the acoustic models and all the already obtained clusters. However, distances are not calculated again for combinations of acoustic models and clusters for which distances have already been calculated. In order to perform such control, an acoustic model flag for which the distance has been calculated may be provided for each cluster. As the distance value between the statistic of the acoustic model and the statistic of each cluster, for example, a Battacharya distance defined by Equation (8) is used.
In equation (8), a parameter with 1 as a suffix is an acoustic model statistic, and a parameter with 2 as a suffix is a cluster statistic.
Based on the distance value thus obtained, each acoustic model is made to belong to the cluster having the smallest distance value. Note that the distance value between the statistic of the acoustic model and the statistic of the cluster may be calculated by a method other than Equation (8). Even in such a case, it is desirable to adopt an expression that can obtain a distance value that belongs to the same cluster when the distance value calculated by Expression (1) is close. However, this is not essential.
Next, the code book of each cluster is updated (step S205). For this purpose, the representative value of the statistic of the acoustic model belonging to the cluster is calculated using equations (2) and (3). Also, using equation (8), the distance between the statistic of the acoustic model belonging to the cluster and the representative value is accumulated, and this is defined as the VQ distortion of the current cluster.
Subsequently, an evaluation value for clustering is calculated (step S206). Here, the sum of the VQ distortions of all clusters is used as the evaluation value for clustering. Steps S204 to S207 constitute a loop executed a plurality of times. The evaluation value calculated in step S206 is stored until the next loop execution. Then, a difference between this evaluation value and the evaluation value calculated at the previous loop execution is obtained, and it is determined whether or not the absolute value is less than a predetermined threshold (step S207). If this difference is less than the predetermined threshold value, all acoustic models belong to an appropriate cluster among the already obtained clusters, and the process returns to step S202 (step S207: Yes). On the other hand, if the difference is equal to or greater than the predetermined threshold, there is an acoustic model that does not yet belong to an appropriate cluster, and the process returns to step S204 (step S207: No).
The above is the clustering process. Next, the speech recognition processing in the speech recognition apparatus 2 and the
If the local acoustic model having the smallest distance from the sensor information (the number or name identifying this local acoustic model is referred to as m) does not fall below the predetermined threshold T, step S208 is performed. (Step S105: No).
Next, the terminal
The server
In order to obtain the difference, for example, the difference may be calculated based on the difference in the component values of each dimension of the voice feature amount or the offset shift (difference in the storage position of each element). Since a technique for obtaining a difference value between different binary data (such as between binary files) is known, it may be used. In addition, since the technique according to the second embodiment does not require a special requirement for the data structure of the acoustic model, a method of designing a data structure in which a difference can be easily obtained can be considered.
On the other hand, if they do not belong to the same cluster, the process directly proceeds to step S212 (step S210: No). In this case, not the difference but the selected acoustic model itself is transmitted (step S212).
In the above processing, the difference is based on the local acoustic model that has been determined to be most suitable for the sensor information on the voice recognition terminal 2 side (the acoustic model that has been determined to have the smallest distance from the sensor information in step S105). Is assumed to be generated. Therefore, information regarding such a local acoustic model m is transmitted in advance in step S208. However, in addition to this, the type of the local acoustic model stored in the voice recognition terminal 2 is grasped (or managed) on the
Next, the terminal
As apparent from the above, only the difference between the local acoustic model stored in the speech recognition terminal 2 of Example 2 and the acoustic model stored in the
実施例1及び2による音声認識端末2では、音声認識処理に必要となる音響モデルを記憶していない場合であっても、音声認識サーバ6が記憶する音響モデルを、ネットワーク5を介して受信することにより、マイクロホン1の集音環境に即した音声認識を行うものであった。しかし、音響モデルの送受信に代えて、音声特徴量を送受信するようにしてもよい。実施例3による音声認識端末及びサーバはこのような原理に基づいて動作するものである。
図6は、実施例3による音声認識端末及びサーバの構成を示すブロック図である。図において、図1と同一の符号を付した部位については実施例1と同様であるので、説明を省略する。実施例3においても、音声認識端末2と音声認識サーバ6はネットワーク5を介して接続されている。しかし、音声認識端末2から音声認識サーバ6に対して音声特徴量とセンサ情報が送信されるようになっており、また認識結果7が音声認識サーバ6より出力されるようになっている点で、実施例1と異なる。なお、音声認識サーバ6において、サーバ側照合部27は、実施例1の端末側照合部17と同様に音声特徴量と音響モデルとの照合を行う部位である。
次に実施例3における音声認識端末2及び音声認識サーバ6の動作について、図を参照しながら説明する。図7は、実施例2による音声認識端末2と音声認識サーバ6との処理を示したフローチャートである。なおこのフローチャートにおいて、図2と同一の符号を付した処理については実施例1と同様である。そこで以下においては、このフローチャート独自の符号を付した処理を中心に説明を行う。
まず、利用者がマイクロホン1から音声入力を行うと、入力端3を介して音声認識端末2に音声信号が入力され(ステップS101)、入力された音声信号から音響分析部11によって音声特徴量の時系列が算出されるとともに(ステップS102)、センサ12によってセンサ情報が収集される(ステップS103)。
次に端末側送信部13によってセンサ情報と音声特徴量がネットワーク5を介して音声認識サーバ6に転送され(ステップS301)、サーバ側受信部21によってセンサ情報と音声特徴量が音声認識サーバ6に取り込まれる(ステップS302)。音声認識サーバ6のサーバ側音響モデル記憶部22は、音響モデルを複数のセンサ情報に合わせて予め準備しており、サーバ側音響モデル選択部23は、サーバ側受信部21によって取得されたセンサ情報と、各音響モデルのセンサ情報との距離値を式(1)によって算出して、最も距離値の小さい音響モデルを選択する(ステップS109)。
続いてサーバ側照合部27は、選択された音響モデルにおける標準パターンとサーバ側受信部21によって取得された音声特徴量とのパターンマッチングを行って、最も尤度の高い語彙を認識結果7として出力する(ステップS303)。この処理は、実施例1の照合処理(ステップS112)と同様であるので、詳細な説明については省略する。
以上のように、実施例3による音声認識端末2およびサーバ6によれば、音声認識端末2において音声特徴量の算出とセンサ情報の取得のみを行い、このセンサ情報に基づいて、音声認識サーバ6に音声特徴が記憶する音響モデルから適切な音響モデルを選択して、音声認識することとした。こうすることで、音声認識端末2に音響モデルを記憶するための記憶装置、あるいは素子又は回路が不要となり、音声認識端末2の構成を簡素化することができる。
また、音声特徴量とセンサ情報のみをネットワーク5を介して音声認識サーバ6に転送するようにしたので、ネットワーク5に伝送負荷をかけずに音声認識を行うことができる。
なお、前述の通り、音響モデルのデータサイズは数百キロバイトに及ぶ場合がある。したがってネットワークの帯域幅が制限されている場合には、音響モデルそのものを送信しようとすると伝送能力の限界に達してしまう場合もある。しかし音声特徴量であれば、せいぜい20kbpsの帯域幅が確保できれば、実時間内に十分転送が可能である。したがって極めてネットワーク負荷が軽いクライアントサーバ側音声認識システムを構築できるとともに、マイクロホン1の集音環境に合わせた高精度な音声認識処理を行うことができる。
なお実施例1とは異なり、実施例3では認識結果7を音声認識端末2から出力するのではなく、音声認識サーバ6から出力する構成とした。例えば音声認識端末2がインターネットを閲覧しており、発話によってURL(Uniform Resource Location)を音声入力し、このURLから決定されるWebページを音声認識サーバ6が取得して、音声認識端末2に送信して表示させるような場合は、このような構成で十分である。
しかしながら、実施例1と同じように、音声認識端末2が認識結果を出力するような構成とすることもできる。この場合は、音声認識端末2に端末側受信部、音声認識サーバ6にサーバ側送信部を備えるようにし、照合部27の出力結果を音声認識サーバ6の送信部からネットワーク5を介して音声認識端末2の受信部に送信し、この受信部から所望の出力先に出力するように構成すればよい。In the speech recognition terminal 2 according to the first and second embodiments, the acoustic model stored in the
FIG. 6 is a block diagram illustrating the configuration of the voice recognition terminal and the server according to the third embodiment. In the figure, the portions denoted by the same reference numerals as those in FIG. 1 are the same as those in the first embodiment, and thus the description thereof is omitted. Also in the third embodiment, the voice recognition terminal 2 and the
Next, operations of the voice recognition terminal 2 and the
First, when a user inputs a voice from the microphone 1, a voice signal is input to the voice recognition terminal 2 via the input terminal 3 (step S101), and the
Next, the sensor information and the voice feature amount are transferred to the
Subsequently, the server-
As described above, according to the voice recognition terminal 2 and the
Further, since only the voice feature amount and the sensor information are transferred to the
As described above, the data size of the acoustic model may reach several hundred kilobytes. Therefore, if the bandwidth of the network is limited, transmission of the acoustic model itself may reach the limit of transmission capability. However, in the case of a voice feature amount, if a bandwidth of 20 kbps can be secured at most, it can be transferred sufficiently in real time. Therefore, it is possible to construct a client / server side voice recognition system with a very light network load, and to perform highly accurate voice recognition processing according to the sound collection environment of the microphone 1.
Unlike the first embodiment, in the third embodiment, the
However, as in the first embodiment, the voice recognition terminal 2 can output a recognition result. In this case, the voice recognition terminal 2 is provided with a terminal side receiving unit, the
実施例1及び2における音響モデルの送受信、実施例3における音声特徴量の送受信に代えて、音声データを送受信する方法も考えられる。実施例4による音声認識端末及びサーバはこのような原理に基づいて動作するものである。
図8は、実施例4による音声認識端末及びサーバの構成を示すブロック図である。図において、図1と同一の符号を付した部位については実施例1と同様であるので、説明を省略する。実施例4においても、音声認識端末2と音声認識サーバ6はネットワーク5を介して接続されている。しかし、音声認識端末2から音声認識サーバ6に対して音声データとセンサ情報が送信されるようになっており、また認識結果7が音声認識サーバ6より出力されるようになっている点で、実施例1と異なる。
音声ディジタル処理部19は入力端3から入力された音声をディジタルデータに変換する部位であって、A/D変換器あるいは素子又は回路を備えるものである。さらにA/D変換されたサンプリングデータをネットワーク5を介して伝送するのに適する形式に変換する専用回路、またはこのような専用回路と同等の処理を行うコンピュータプログラムとこのプログラムを実行する中央演算装置をさらに備えるようにしてもよい。また、サーバ側音響分析部28は音声認識サーバ6上で入力音声から音声特徴量を算出する部位であって、実施例1及び2における端末側音響分析部11と同様の機能を有する。
次に実施例4における音声認識端末2及び音声認識サーバ6の動作について、図を参照しながら説明する。図9は、実施例1による音声認識端末2と音声認識サーバ6との処理を示したフローチャートである。なおこのフローチャートにおいて、図2と同一の符号を付した処理については実施例1と同様である。そこで以下においては、このフローチャート独自の符号を付した処理を中心に説明を行う。
まず、利用者がマイクロホン1から音声入力を行うと、入力端3を介して音声認識端末2に音声信号が入力され(ステップS101)、音声ディジタル処理部19は、ステップS101で入力された音声信号をA/D変換によってサンプリングする(ステップS401)。なお、音声ディジタル処理部19では、音声信号のA/D変換だけでなく、音声データの符号化、あるいは圧縮処理を行うことが望ましいが、このことは必須ではない。具体的な音声の圧縮方法としては、ディジタル方式の公衆有線電話網(ISDNなど)で使用されているu−law 64kbps PCM方式(Pulse Coded Modulation、ITU−T G.711)や、PHSで使用されている適応差分符号化PCM方式(Adaptive Differential encoding PCM、ADPCM.ITU−T G.726)、携帯電話で使用されているVSELP方式(Vector Sum Excited Linear Prediction)、CELP方式(Code Excited Linear Prediction)等を適用する。通信網の使用可能帯域幅やトラフィックに応じて、これらの方式のうちのいずれかを選択するとよい。例えば、帯域幅が64kbpsである場合にはu−law PCM方式、16〜40kbpsである場合にはADPCM方式、11.2kbpsである場合にはVSELP方式、5.6kbpsである場合にはCELP方式が適していると考えられる。ただし他の符号化方式を適用しても、この発明の特徴が失われるわけではない。
次に、センサ12によってセンサ情報が収集され(ステップS103)、さらに収集されたセンサ情報と符号化された音声データは、例えば図10で示すようなデータフォーマットに並べ替えられて、端末側送信部13によってネットワーク5を介して音声認識サーバ6に転送される(ステップS402)。
なお、図10において領域701には、音声データの処理時刻を表すフレーム番号が格納される。このフレーム番号は、例えば音声データのサンプリング時刻に基づいて、一意に決定される。ここで、「一意に決定される」という語の意義は、音声認識端末2と音声認識サーバ6との間で調整された相対的な時刻に基づいて決定される場合を含み、この相対的な時刻が異なる場合には、異なるフレーム番号が与えられるようにする、という意味である。あるいは、音声認識端末2と音声認識サーバ6との外部に存在する時計より絶対的な時刻の供給を受け、この時刻に基づいてフレーム番号を一意に決定するようにしてもよい。時刻からフレーム番号を算出するには、例えば年(西暦4桁が望ましい)、月(値域1〜12で2桁を割り当てる)、日(値域1〜31で2桁を割り当てる)、時(値域0〜23で2桁を割り当てる)、分(値域0〜59で2桁を割り当てる)、秒(値域0〜59で2桁を割り当てる)、千分の一秒(値域0〜999で3桁を割り当てる)の各数値をそれぞれの桁数でパディングし、これらの順に数字列として連結してもよいし、ビット単位で年・月・日・時・分・秒・ミリ秒の各値をパックして一定の値を得るようにしてもよい。
また、図10のデータフォーマットの領域702には、センサ情報の占有するデータサイズが格納される。例えばセンサ情報が32ビット値であるならば、センサ情報を格納するのに必要な領域の大きさ(4バイト)をバイトで表現して4が格納される。センサ12が複数個のセンサから構成される場合には、それぞれのセンサ情報を格納するのに必要となる配列領域のデータサイズが格納されることになる。さらに領域703には、ステップS103においてセンサ12によって取得されたセンサ情報が格納される領域である。センサ12が複数個のセンサから構成される場合は、領域703にセンサ情報の配列が格納される。また領域703のデータサイズは、領域702に保持されたデータサイズと一致する。
領域704には音声データサイズが格納される。なお、送信部13は音声データを複数のパケット(その構造は図7で示されるデータフォーマットと等しいものとする)に分割して送信する場合がある。その場合、領域704に格納されるのは、それぞれのパケットに含まれる音声データのデータサイズである。複数のパケットに分割する場合については、後に再び述べることにする。続いて領域705には音声データが格納される。
ネットワーク5の特性から、パケットサイズの上限が定められている場合には、端末側送信部13は入力端3を介して入力された音声データを複数のパケットに分割する。図7のデータフォーマットにおいて、領域701に格納されるフレーム番号は、その音声データの処理時刻を表す情報であり、このフレーム番号は、それぞれのパケットに含まれる音声データのサンプリング時刻に基づいて決定される。さらにすでに述べたように、領域704にそれぞれのパケットに含まれる音声データのデータサイズを格納する。またセンサ12を構成するセンサの出力結果が短時間の間に刻々と変化する性質を有する場合には、領域703に格納されるセンサ情報もパケット間で異なることになる。例えば音声認識端末2が車載用音声認識装置であり、センサ12が背景重畳雑音の大きさを取得するセンサ(マイクロホン1とは別のマイクロホンなど)の場合、話者の発話の最中に自動車がトンネルを出入りすると、背景重畳雑音の大きさは著しく異なることになる。このような場合に、図10のデータフォーマットによるパケットを送信することで、発話の途中であってもセンサ情報を適切に反映させることが可能となる。そのために端末側送信部13は、発話の最中にセンサ情報が大きく変化した場合に、ネットワーク5の特性とは関係なく、センサ情報が変化した時点で音声データを分割し、異なるセンサ情報を格納したパケットを送信するのが望ましい。
引き続き、音声認識端末2及び音声認識サーバ6の動作を説明する。サーバ側受信部21によってセンサ情報と音声データ音声認識サーバ6に取り込まれる(ステップS403)。サーバ側音響分析部28は、取り込まれた音声データを音響分析して、音声特徴量の時系列を算出する(ステップS404)。さらにサーバ側音響モデル選択部23は、取得したセンサ情報に基づいて、最も適切な音響モデルを選択し(ステップS109)、サーバ側照合部26はこの音響モデルの標準パターンと音声特徴量とを照合する(ステップS405)。
以上より明らかなように、この実施例4では、音声認識端末2がセンサ情報と音声データを音声認識サーバ6に転送することとしたので、音声認識端末2側で音響分析を行うことなく、集音環境に適した音響モデルに基づいて高精度な音声認識処理を行うことができる。
したがって、音声認識端末2に音声認識のための特別な部品や回路、コンピュータプログラムなどを設けなくても音声認識機能を実現することができる。
また実施例4によれば、フレーム毎にセンサ情報を送信するようにしたので、発話中にマイクロホン1が集音する環境条件が急激に変化した場合であっても、フレーム毎に適切な音響モデルを選択して、音声認識を行うことができる。
なお、音声認識端末2からの送信を複数のフレームに分割するという方法は、実施例3の音声特徴量の送信にも適用できる。すなわち、音声特徴量は時系列成分を有するから、フレームに分割する場合には、その時系列順にフレーム分割するとよい。またそれぞれのフレームに、その時系列の時刻におけるセンサ情報を実施例4と同様に格納し、音声認識サーバ6側で、各フレームに含まれる最新のセンサ情報に基づいて最適な音響モデルを選択するようにすれば、さらに音声認識の精度を向上させることができる。Instead of transmitting / receiving the acoustic model in the first and second embodiments and transmitting / receiving the voice feature amount in the third embodiment, a method of transmitting / receiving audio data is also conceivable. The voice recognition terminal and server according to the fourth embodiment operate based on such a principle.
FIG. 8 is a block diagram illustrating the configuration of the voice recognition terminal and the server according to the fourth embodiment. In the figure, the portions denoted by the same reference numerals as those in FIG. 1 are the same as those in the first embodiment, and thus the description thereof is omitted. Also in the fourth embodiment, the voice recognition terminal 2 and the
The voice
Next, operations of the voice recognition terminal 2 and the
First, when the user performs voice input from the microphone 1, a voice signal is input to the voice recognition terminal 2 via the input terminal 3 (step S101), and the voice
Next, sensor information is collected by the sensor 12 (step S103), and the collected sensor information and encoded audio data are rearranged in a data format as shown in FIG. 13 is transferred to the
In FIG. 10, an
Further, the data size occupied by the sensor information is stored in the
The
When the upper limit of the packet size is determined from the characteristics of the network 5, the terminal
Next, operations of the voice recognition terminal 2 and the
As is clear from the above, in the fourth embodiment, since the voice recognition terminal 2 transfers the sensor information and the voice data to the
Therefore, the voice recognition function can be realized without providing the voice recognition terminal 2 with special parts, circuits, computer programs, etc. for voice recognition.
In addition, according to the fourth embodiment, since sensor information is transmitted for each frame, an appropriate acoustic model is obtained for each frame even when the environmental conditions in which the microphone 1 collects a sound during speech change abruptly. Voice recognition can be performed by selecting.
Note that the method of dividing the transmission from the voice recognition terminal 2 into a plurality of frames can also be applied to the transmission of the voice feature amount of the third embodiment. That is, since the audio feature amount has a time series component, when dividing into frames, it is preferable to divide the frames in the order of the time series. Further, the sensor information at the time series in each frame is stored in the same manner as in the fourth embodiment, and the optimum acoustic model is selected on the
実施例1〜4の音声認識システムでは、音声認識端末2の備えるセンサ12が取得した環境条件に基づいて、音声認識端末2及びサーバ6の記憶する音響モデルを選択することにより、実環境に対応した音声認識処理を行うというものであった。しかし、センサ12が取得した環境条件だけでなく、インターネットなどから得られる付加情報を組み合わせて、音響モデルを選択する方法も考えられる。実施例5の音声認識システムはこのような特徴を有するものである。
なお、実施例5の特徴は上記のとおり、インターネットから得られる付加情報とセンサ情報とを組み合わせて、音響モデルを選択する、というものなので、実施例1〜4のいずれの音声認識システムと組み合わせることも可能であり、得られる効果についても同じであるが、ここでは例として実施例1の音声認識システムにインターネットから得られる付加情報を組み合わせた場合について説明することにする。
図11は、実施例5による音声認識システムの構成を示すブロック図である。この図から明らかなとおり、実施例5の音声認識システムは、実施例1の音声認識システムに、インターネット情報取得部29を付加したものであって、図1と同一の符号を付した構成要素は実施例1と同様であるので、説明を省略する。また、インターネット情報取得部29は、インターネットを介して付加情報を取得する部位であり、具体的にはhttp(Hyper Text Transfer Protocol)によってWebページを取得するインターネットブラウザ相当の機能を有するものである。さらに、実施例5における音声認識サーバ6が記憶している音響モデルでは、その音響モデルを学習した環境条件をセンサ情報と付加情報とで表現するようにしているものとする。
ここで、付加情報とは、例えば気象情報や交通情報である。インターネットには気象情報や交通情報を提供するWebサイトが存在しており、これらのWebサイトによれば、各地の気象条件や渋滞情報、工事状況などを入手することができる。
そこで、このような付加情報を利用して、より精度の高い音声認識を行うために、入手できる付加情報にあわせた音響モデルを準備する。例えば、気象情報が付加情報である場合は、豪雨や強風などによって生じる背景雑音の影響を加味して音響モデルが学習される。また例えば交通情報の場合は、道路工事などによって生じる背景雑音の影響を加味して音響モデルが学習される。
次に実施例5による音声認識端末2及びサーバ6の動作について説明する。図12は、実施例5による音声認識端末2及びサーバ6の動作を示すフローチャートである。図12のフローチャートと図2のフローチャートとが異なるのは、ステップS501の有無のみである。そこで、以降では、ステップS501の処理を中心に説明することとする。
音声認識サーバ6において、センサ情報を受信した後に(ステップS108)、インターネット情報取得部29は、音声認識端末2に接続されたマイクロホン1が集音する環境に影響を与える情報をインターネットから収集する(ステップS501)。例えば、センサ12にGPSアンテナが備えられている場合、センサ情報には音声認識端末2及びマイクロホン1の存在する位置情報が含まれることになる。そこで、インターネット情報取得部29は、この位置情報に基づいて音声認識端末2及びマイクロホン1の存在する場所の気象情報や交通情報などの付加情報をインターネットから収集する。
続いて、サーバ側音響モデル選択部23は、センサ情報と付加情報とに基づいて音響モデルを選択する。具体的には、まず現在の音声認識端末2及びマイクロホン1の存在する場所の付加情報と音響モデルの付加情報が一致しているかどうかが判定される。そして付加情報が一致している音響モデルの中から、次にセンサ情報について、実施例1で示した式(1)に基づいて算出された距離値が最小となる音響モデルを選択する。
以後の処理については実施例1と同様であるので、説明を省略する。
以上から明らかなように、実施例5の音声認識システムによれば、音響モデルを学習した環境条件が、センサ情報だけでは完全に表現できないものであっても、付加情報を用いて表現することができるので、マイクロホン1の集音環境についてより適切な音響モデルを選択することができる。またこの結果として、音声認識精度を向上させることができる、という効果を奏する。
なお上記において、付加情報を入手する方法としてインターネットを経由する方法について説明したが、付加情報を用いる技術的意義は、音声認識の精度を劣化させる環境的諸要因のうち、あくまでもセンサ情報では表現できない要素に基づいて音響モデルを準備することにある。したがって、このような付加情報を入手する方法は、インターネットに限定されるものではなく、例えば、付加情報を提供するための専用システムや専用コンピュータを準備してもよい。In the speech recognition systems according to the first to fourth embodiments, the acoustic model stored in the speech recognition terminal 2 and the
The feature of the fifth embodiment is that, as described above, the acoustic model is selected by combining the additional information obtained from the Internet and the sensor information, and therefore, combined with any of the voice recognition systems of the first to fourth embodiments. Although the same is true for the obtained effect, here, as an example, a case where additional information obtained from the Internet is combined with the voice recognition system of the first embodiment will be described.
FIG. 11 is a block diagram illustrating the configuration of the speech recognition system according to the fifth embodiment. As is clear from this figure, the voice recognition system of the fifth embodiment is obtained by adding the Internet
Here, the additional information is, for example, weather information or traffic information. There are Web sites that provide weather information and traffic information on the Internet. According to these Web sites, it is possible to obtain weather conditions, traffic jam information, construction status, and the like in each region.
Therefore, in order to perform more accurate speech recognition using such additional information, an acoustic model is prepared according to the additional information that can be obtained. For example, when the weather information is additional information, the acoustic model is learned by taking into account the influence of background noise caused by heavy rain or strong winds. For example, in the case of traffic information, an acoustic model is learned in consideration of the influence of background noise caused by road construction.
Next, operations of the voice recognition terminal 2 and the
After receiving the sensor information at the voice recognition server 6 (step S108), the internet
Subsequently, the server-side acoustic
Since the subsequent processing is the same as that of the first embodiment, description thereof is omitted.
As is clear from the above, according to the speech recognition system of the fifth embodiment, even if the environmental condition learned from the acoustic model cannot be completely expressed only by sensor information, it can be expressed using additional information. Therefore, it is possible to select a more appropriate acoustic model for the sound collection environment of the microphone 1. As a result, the voice recognition accuracy can be improved.
In the above description, the method of obtaining additional information via the Internet has been described. However, the technical significance of using additional information cannot be expressed by sensor information among environmental factors that degrade the accuracy of speech recognition. To prepare an acoustic model based on the elements. Therefore, the method for obtaining such additional information is not limited to the Internet. For example, a dedicated system or a dedicated computer for providing the additional information may be prepared.
以上のように、この発明に係る音声認識システム並びに端末及びサーバは、使用する場所が変化しても高精度の音声認識処理を実現するために有用であり、特にカーナビゲーションシステムや携帯電話など、筐体の大きさや重量、価格帯等の制限から、搭載可能な記憶装置の容量が限られた機器に音声認識機能を提供するのに適している。 As described above, the voice recognition system, the terminal, and the server according to the present invention are useful for realizing high-accuracy voice recognition processing even if the place to be used is changed. Due to restrictions on the size, weight, price range, etc. of the housing, it is suitable for providing a voice recognition function to a device having a capacity of a storage device that can be mounted.
Claims (20)
前記音声認識端末は、
外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
前記ネットワークを介して前記センサ情報を前記音声認識サーバに送信するクライアント側送信手段と、
前記音声認識サーバから音響モデルを受信するクライアント側受信手段と、
前記音響モデルと前記音声特徴量とを照合するクライアント側照合手段と、を備え、
前記音声認識サーバは、
前記クライアント側送信手段が送信したセンサ情報を受信するサーバ側受信手段と、
複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
前記複数の音響モデルから前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
前記サーバ側音響モデル選択手段が選択した音響モデルを前記音声認識端末に送信するサーバ側送信手段と、を備えることを特徴とする音声認識システム。In a voice recognition system in which a voice recognition server and a plurality of voice recognition terminals are connected via a network,
The voice recognition terminal is
Connect an external microphone, and input terminal to input the audio signal collected by the external microphone,
A client-side acoustic analysis unit that calculates a voice feature amount from a voice signal input from the input terminal; and a sensor that detects sensor information representing a type of noise to be superimposed on the voice signal;
Client-side transmission means for transmitting the sensor information to the voice recognition server via the network;
Client-side receiving means for receiving an acoustic model from the speech recognition server;
Client-side collating means for collating the acoustic model with the voice feature amount,
The voice recognition server
Server-side receiving means for receiving sensor information transmitted by the client-side transmitting means;
Server-side acoustic model storage means for storing a plurality of acoustic models;
Server-side acoustic model selection means for selecting an acoustic model that matches the sensor information from the plurality of acoustic models;
And a server-side transmission unit that transmits the acoustic model selected by the server-side acoustic model selection unit to the voice recognition terminal.
前記音声認識端末は、
外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
前記ネットワークを介して前記センサ情報と前記音声特徴量とを前記音声認識サーバに送信するクライアント側送信手段とを備え、
前記音声認識サーバは、
前記センサ情報と前記音声特徴量とを受信するサーバ側受信手段と、
複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
前記複数の音響モデルから前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
前記サーバ側音響モデル選択手段が選択した音響モデルと前記音声特徴量とを照合するサーバ側照合手段と、を備えることを特徴とする音声認識システム。In a voice recognition system in which a voice recognition server and a plurality of voice recognition terminals are connected via a network,
The voice recognition terminal is
Connect an external microphone, and input terminal to input the audio signal collected by the external microphone,
A client-side acoustic analysis unit that calculates a voice feature amount from a voice signal input from the input terminal; and a sensor that detects sensor information representing a type of noise to be superimposed on the voice signal;
Client-side transmission means for transmitting the sensor information and the voice feature amount to the voice recognition server via the network;
The voice recognition server
Server-side receiving means for receiving the sensor information and the voice feature amount;
Server-side acoustic model storage means for storing a plurality of acoustic models;
Server-side acoustic model selection means for selecting an acoustic model that matches the sensor information from the plurality of acoustic models;
A speech recognition system comprising: a server-side collating unit that collates the acoustic model selected by the server-side acoustic model selecting unit with the voice feature amount.
前記音声認識端末は、
外部マイクロホンを接続し、その外部マイクロホンが集音した音声信号を入力する入力端と、
前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
前記ネットワークを介して前記センサ情報と前記音声信号とを前記音声認識サーバに送信するクライアント側送信手段とを備え、
前記音声認識サーバは、
前記センサ情報と前記音声信号とを受信するサーバ側受信手段と、
前記音声信号から音声特徴量を算出するサーバ側音響分析手段と
複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
前記複数の音響モデルから前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
前記サーバ側音響モデル選択手段が選択した音響モデルと前記音声特徴量とを照合するサーバ側照合手段と、を備えることを特徴とする音声認識システム。In a voice recognition system in which a voice recognition server and a plurality of voice recognition terminals are connected via a network,
The voice recognition terminal is
Connect an external microphone, and input terminal to input the audio signal collected by the external microphone,
A sensor for detecting sensor information representing a type of noise superimposed on the audio signal;
Client-side transmission means for transmitting the sensor information and the voice signal to the voice recognition server via the network,
The voice recognition server
Server-side receiving means for receiving the sensor information and the audio signal;
Server-side acoustic analysis means for calculating a voice feature amount from the voice signal; server-side acoustic model storage means for storing a plurality of acoustic models;
Server-side acoustic model selection means for selecting an acoustic model that matches the sensor information from the plurality of acoustic models;
A speech recognition system comprising: a server-side collating unit that collates the acoustic model selected by the server-side acoustic model selecting unit with the voice feature amount.
インターネットから交通情報を取得する交通情報取得手段をさらに備え、
前記サーバ側音響モデル選択手段は、前記センサ情報と前記交通情報取得手段により取得された交通情報との双方に適合する音響モデルを、前記複数の音響モデルから選択することを特徴とする請求の範囲第1項〜第3項のいずれか一項に記載の音声認識システム。The voice recognition server
A traffic information acquisition means for acquiring traffic information from the Internet;
The server-side acoustic model selection unit selects an acoustic model that matches both the sensor information and the traffic information acquired by the traffic information acquisition unit from the plurality of acoustic models. The speech recognition system according to any one of Items 1 to 3.
インターネットから気象情報を取得する気象情報取得手段をさらに備え、
前記サーバ側音響モデル選択手段は、前記センサ情報と前記気象情報取得手段により取得された気象情報との双方に適合する音響モデルを、前記複数の音響モデルから選択することを特徴とする請求の範囲第1項〜第3項のいずれか一項に記載の音声認識システム。The voice recognition server
It further includes weather information acquisition means for acquiring weather information from the Internet,
The server-side acoustic model selection unit selects an acoustic model that matches both the sensor information and the weather information acquired by the weather information acquisition unit from the plurality of acoustic models. The speech recognition system according to any one of Items 1 to 3.
前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
複数の音響モデルから前記センサ情報に適合する音響モデルを選択し、ネットワークを介してこの音響モデルを送信する音声認識サーバに、前記センサ情報を送信するクライアント側送信手段と、
前記音声認識サーバが送信した前記音響モデルを受信するクライアント側受信手段と、
前記音響モデルと前記音声特徴量とを照合するクライアント側照合手段と、を備えることを特徴とする音声認識端末。Connect an external microphone, and input terminal to input the audio signal collected by the external microphone,
A client-side acoustic analysis unit that calculates a voice feature amount from a voice signal input from the input terminal; and a sensor that detects sensor information representing a type of noise to be superimposed on the voice signal;
Client-side transmission means for selecting the acoustic model that matches the sensor information from a plurality of acoustic models and transmitting the sensor information to a voice recognition server that transmits the acoustic model via a network;
Client-side receiving means for receiving the acoustic model transmitted by the voice recognition server;
A voice recognition terminal comprising: a client-side collating unit that collates the acoustic model with the voice feature amount.
前記集音環境を表すセンサ情報を前記各音声認識端末から受信するサーバ側受信手段と、
前記複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
前記サーバ側音響モデル選択手段が選択した音響モデルを前記各音声認識端末に送信するサーバ側送信手段とを備えたことを特徴とする音声認識サーバ。Audio that stores a plurality of acoustic models, selects an acoustic model suitable for the sound collection environment of the plurality of speech recognition terminals from the plurality of acoustic models, and transmits the acoustic model to each speech recognition terminal via the network In the recognition server,
Server-side receiving means for receiving sensor information representing the sound collection environment from each voice recognition terminal;
Server-side acoustic model storage means for storing the plurality of acoustic models;
Server-side acoustic model selection means for selecting an acoustic model suitable for the sensor information;
A speech recognition server, comprising: server side transmission means for transmitting the acoustic model selected by the server side acoustic model selection means to each of the speech recognition terminals.
をさらに備え、
前記サーバ側送信手段は、前記音響モデルに代えて、前記差分を送信する、
ことを特徴とする請求の範囲第7項に記載の音声認識サーバ。Acoustic model difference calculating means for calculating a difference between the acoustic model stored in the voice recognition terminal and the acoustic model selected by the server-side acoustic model selecting means;
Further comprising
The server-side transmission means transmits the difference instead of the acoustic model.
The voice recognition server according to claim 7, wherein:
前記音響モデル差分算出手段は、前記クラスタリングされた複数の音響モデルの差分を算出する、
ことを特徴とする請求の範囲第8項に記載の音声認識サーバ。The server-side acoustic model storage means further stores a plurality of acoustic models clustered in advance based on acoustic model statistics.
The acoustic model difference calculating means calculates a difference between the plurality of clustered acoustic models.
The voice recognition server according to claim 8, wherein:
前記ローカル音響モデル記憶手段が記憶している音響モデルに、その音響モデルと前記音声認識サーバが前記センサ情報に適合する音響モデルとして選択した音響モデルとの差分を加えて、前記センサ情報に適合する音響モデルを生成する音響モデル合成手段と、をさらに備え、
前記クライアント側受信手段は、前記音響モデルに代えて、前記音声認識サーバより送信される前記差分を受信することを特徴とする請求の範囲第6項に記載の音声認識端末。Of a plurality of acoustic models stored in the voice recognition server, a local acoustic model storage unit that stores some acoustic models;
The acoustic model stored in the local acoustic model storage means is added with the difference between the acoustic model and the acoustic model selected by the speech recognition server as the acoustic model that matches the sensor information, and conforms to the sensor information. An acoustic model synthesis means for generating an acoustic model, and
The voice recognition terminal according to claim 6, wherein the client-side receiving unit receives the difference transmitted from the voice recognition server instead of the acoustic model.
前記各音声認識端末から前記集音環境を表すセンサ情報と前記音声特徴量を受信するサーバ側受信手段と、
前記複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
前記音声特徴量と前記サーバ側音響モデル選択手段により選択された音響モデルとを照合するサーバ側照合手段とを備えたことを特徴とする音声認識サーバ。A plurality of acoustic models are stored, voice features of input speech extracted by a plurality of speech recognition terminals are received via a network, and acoustic models suitable for the sound collection environment of each speech recognition terminal are In the speech recognition server that selects from the acoustic model and recognizes the speech feature using the acoustic model,
Server-side receiving means for receiving sensor information representing the sound collection environment and the voice feature amount from each voice recognition terminal;
Server-side acoustic model storage means for storing the plurality of acoustic models;
Server-side acoustic model selection means for selecting an acoustic model suitable for the sensor information;
A speech recognition server, comprising: a server-side collation unit that collates the voice feature amount with the acoustic model selected by the server-side acoustic model selection unit.
前記入力端から入力された音声信号から音声特徴量を算出するクライアント側音響分析手段と
前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
複数の音響モデルから前記センサ情報に適合する音響モデルを選択し、その音響モデルに基づいて、ネットワークを介して受信した音声特徴量の音声認識を行う音声認識サーバに、前記センサ情報と前記音声特徴量とを送信するクライアント側送信手段と、
を備えることを特徴とする音声認識端末。Connect an external microphone, and input terminal to input the audio signal collected by the external microphone,
A client-side acoustic analysis unit that calculates a voice feature amount from a voice signal input from the input terminal; and a sensor that detects sensor information representing a type of noise to be superimposed on the voice signal;
The sensor information and the voice feature are selected in a voice recognition server that selects a voice model that matches the sensor information from a plurality of acoustic models, and performs voice recognition of the voice feature amount received via the network based on the acoustic model. Client-side transmission means for transmitting the amount;
A voice recognition terminal comprising:
前記サーバ側音響モデル選択手段は、前記フレーム毎に前記センサ情報に適合する音響モデルを選択し、
前記サーバ側照合手段は、前記サーバ側音響モデル選択手段により前記フレーム毎に選択された音響モデルと前記フレームの音声特徴量との照合を行うことを特徴とする請求の範囲第11項に記載の音声認識サーバ。The server-side receiving means receives the sensor information and the voice feature amount for each frame,
The server-side acoustic model selection means selects an acoustic model that matches the sensor information for each frame,
12. The server according to claim 11, wherein the server-side collating unit collates the acoustic model selected for each frame by the server-side acoustic model selecting unit and a voice feature amount of the frame. Speech recognition server.
前記各音声認識端末から前記集音環境を表すセンサ情報と前記音声ディジタル信号とを受信するサーバ側受信手段と、
前記音声ディジタル信号から音声特徴量を算出するサーバ側音響分析手段と
前記複数の音響モデルを記憶するサーバ側音響モデル記憶手段と、
前記センサ情報に適合する音響モデルを選択するサーバ側音響モデル選択手段と、
前記音声特徴量と前記サーバ側音響モデル選択手段により選択された音響モデルとを照合するサーバ側照合手段とを備えたことを特徴とする音声認識サーバ。Audio digital signals are received from a plurality of voice recognition terminals via a network, an acoustic model suitable for the sound collection environment of each voice recognition terminal is selected from the plurality of acoustic models, and the voice is used using the acoustic model. In a speech recognition server that performs speech recognition of digital signals,
Server-side receiving means for receiving sensor information representing the sound collection environment and the voice digital signal from each voice recognition terminal;
Server-side acoustic analysis means for calculating speech feature values from the speech digital signal; server-side acoustic model storage means for storing the plurality of acoustic models;
Server-side acoustic model selection means for selecting an acoustic model suitable for the sensor information;
A speech recognition server, comprising: a server-side collation unit that collates the voice feature amount with the acoustic model selected by the server-side acoustic model selection unit.
前記入力端から入力された音声信号から音声ディジタル信号を算出する音声ディジタル処理手段と、
前記音声信号に重畳する騒音の種別を表すセンサ情報を検出するセンサと、
複数の音響モデルから前記センサ情報に適合する音響モデルを選択し、その音響モデルに基づいて、ネットワークを介して受信した音声信号ディジタル信号を音声認識する音声認識サーバに、前記センサ情報と前記音声ディジタル信号とを送信するクライアント側送信手段と、
を備えることを特徴とする音声認識端末。Connect an external microphone, and input terminal to input the audio signal collected by the external microphone,
Audio digital processing means for calculating an audio digital signal from an audio signal input from the input end;
A sensor for detecting sensor information representing a type of noise superimposed on the audio signal;
An acoustic model that matches the sensor information is selected from a plurality of acoustic models, and the sensor information and the audio digital are sent to a speech recognition server that recognizes a speech signal digital signal received via a network based on the acoustic model. A client-side transmission means for transmitting a signal;
A voice recognition terminal comprising:
前記サーバ側音響分析手段は、前記音声ディジタル信号から前記フレーム毎に音声特徴量を算出し、
前記サーバ側音響モデル選択手段は、前記フレームの前記フレーム毎に前記センサ情報に適合する音響モデルを選択し、
前記サーバ側照合手段は、前記サーバ側音響モデル選択手段により前記フレーム毎に選択された音響モデルと、前記フレームの音声特徴量との照合を行うことを特徴とする請求の範囲第15項に記載の音声認識サーバ。The server-side receiving means receives an audio digital signal and sensor information for each frame,
The server-side acoustic analysis means calculates a voice feature amount for each frame from the voice digital signal,
The server-side acoustic model selection means selects an acoustic model that matches the sensor information for each frame of the frame,
16. The server according to claim 15, wherein the server-side collating unit collates the acoustic model selected for each frame by the server-side acoustic model selecting unit and a voice feature amount of the frame. Voice recognition server.
前記サーバ側音響モデル選択手段は、前記センサ情報と前記交通情報取得手段により取得された交通情報との双方に適合する音響モデルを、前記複数の音響モデルから選択することを特徴とする請求の範囲第7項〜第9項、第11項、第14項、第15項、第18項のいずれか一項に記載の音声認識サーバ。A traffic information acquisition means for acquiring traffic information from the Internet;
The server-side acoustic model selection unit selects an acoustic model that matches both the sensor information and the traffic information acquired by the traffic information acquisition unit from the plurality of acoustic models. The speech recognition server according to any one of Items 7 to 9, Item 11, Item 14, Item 15, Item 18.
前記サーバ側音響モデル選択手段は、前記センサ情報と前記気象情報取得手段により取得された気象情報との双方に適合する音響モデルを、前記複数の音響モデルから選択することを特徴とする請求の範囲第7項〜第9項、第11項、第14項、第15項、第18項のいずれか一項に記載の音声認識サーバ。The server-side acoustic model selection means further includes weather information acquisition means for acquiring weather information from the Internet,
The server-side acoustic model selection unit selects an acoustic model that matches both the sensor information and the weather information acquired by the weather information acquisition unit from the plurality of acoustic models. The speech recognition server according to any one of Items 7 to 9, Item 11, Item 14, Item 15, Item 18.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/009598 WO2005010868A1 (en) | 2003-07-29 | 2003-07-29 | Voice recognition system and its terminal and server |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2005010868A1 true JPWO2005010868A1 (en) | 2006-09-14 |
Family
ID=34090568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005504586A Pending JPWO2005010868A1 (en) | 2003-07-29 | 2003-07-29 | Speech recognition system and its terminal and server |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2005010868A1 (en) |
WO (1) | WO2005010868A1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5229216B2 (en) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
JP2011118124A (en) * | 2009-12-02 | 2011-06-16 | Murata Machinery Ltd | Speech recognition system and recognition method |
CN109213970B (en) * | 2017-06-30 | 2022-07-29 | 北京国双科技有限公司 | Method and device for generating notes |
WO2019031870A1 (en) * | 2017-08-09 | 2019-02-14 | 엘지전자 주식회사 | Method and apparatus for calling voice recognition service by using bluetooth low energy technology |
US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
KR20200052612A (en) * | 2018-11-07 | 2020-05-15 | 삼성전자주식회사 | Electronic apparatus for processing user utterance and controlling method thereof |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091477A (en) * | 2000-09-14 | 2002-03-27 | Mitsubishi Electric Corp | Voice recognition system, voice recognition device, acoustic model control server, language model control server, voice recognition method and computer readable recording medium which records voice recognition program |
JP2003122395A (en) * | 2001-10-19 | 2003-04-25 | Asahi Kasei Corp | Voice recognition system, terminal and program, and voice recognition method |
JP2003140691A (en) * | 2001-11-07 | 2003-05-16 | Hitachi Ltd | Voice recognition device |
-
2003
- 2003-07-29 JP JP2005504586A patent/JPWO2005010868A1/en active Pending
- 2003-07-29 WO PCT/JP2003/009598 patent/WO2005010868A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2005010868A1 (en) | 2005-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2538404B1 (en) | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system | |
KR100578260B1 (en) | Recognition and recognition methods, learning devices and learning methods | |
US8571861B2 (en) | System and method for processing speech recognition | |
KR100636317B1 (en) | Distributed Speech Recognition System and method | |
EP2581901B1 (en) | Server device, searching system and corresponding searching method | |
CN101122636B (en) | Method of estimating sound arrival direction and apparatus of estimating sound arrival direction | |
EP2438590B1 (en) | Navigation system with speech processing mechanism and method of operation thereof | |
JP4340686B2 (en) | Speech recognition apparatus and speech recognition method | |
EP2956939B1 (en) | Personalized bandwidth extension | |
CN104040626B (en) | Many decoding mode Modulation recognitions | |
EP0661688A2 (en) | System and method for location specific speech recognition | |
CN1138386A (en) | Distributed voice recognition system | |
JP6475426B2 (en) | Intent estimation device and model learning method | |
JPWO2005010868A1 (en) | Speech recognition system and its terminal and server | |
CN112017642B (en) | Speech recognition method, apparatus, device and computer readable storage medium | |
JP4996156B2 (en) | Audio signal converter | |
CN111312236A (en) | Domain management method for speech recognition system | |
US20170018273A1 (en) | Real-time adaptation of in-vehicle speech recognition systems | |
JP2003241788A (en) | Device and system for speech recognition | |
US7478046B2 (en) | Server-client type speech recognition apparatus and method | |
JP2002049390A (en) | Voice recognition method, server and voice recognition system | |
JP2006106300A (en) | Speech recognition device and program therefor | |
JP2017181667A (en) | Voice recognition apparatus and voice recognition method | |
JP3937937B2 (en) | Speech recognition apparatus and method | |
Rozic et al. | ASR Assisted Speech Transcription in Sensor Networks |