JP2006079089A - 音声認識用ベースバンドのモデムと、それを用いる移動通信端末機 - Google Patents

音声認識用ベースバンドのモデムと、それを用いる移動通信端末機 Download PDF

Info

Publication number
JP2006079089A
JP2006079089A JP2005259381A JP2005259381A JP2006079089A JP 2006079089 A JP2006079089 A JP 2006079089A JP 2005259381 A JP2005259381 A JP 2005259381A JP 2005259381 A JP2005259381 A JP 2005259381A JP 2006079089 A JP2006079089 A JP 2006079089A
Authority
JP
Japan
Prior art keywords
feature vector
speech recognition
voice
signal
sampling rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005259381A
Other languages
English (en)
Inventor
Chan Woo Kim
チャン ウ キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2006079089A publication Critical patent/JP2006079089A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

【課題】 音声認識に適したサンプリングレートで調節することによって音声認識率を高められると共に、音声認識のためのプロセッシングユニットの一部の処理部分をハードウェア的に実現できる音声認識用ベースバンドモデムと、それを用いる移動通信端末機を提供する。
【解決手段】 音声認識のためのサンプリングレートと、音声通話のためのサンプリングレートのうち何れか一つを用いて、入力されたボイス信号に対して変調を実施するオーディオコーデックと、音声認識のためのサンプリングレートを用いて、変調されたオーディオコーデックの出力から特徴ベクトルを抽出する特徴ベクトル抽出ブロックと、特徴ベクトル抽出ブロックの出力を用いて、音声認識を行う音声認識ブロックと、音声通話のためのサンプリングレートを用いて、変調されたオーディオコーデックの出力をボコーディグするボコーダとを含んで構成される、ベースバンドモデム。
【選択図】 図3

Description

本発明は、より高い音声認識率を保障する音声認識用ベースバンドのモデムと、それを用いる移動通信端末機に関する。
従来のベースバンドモデム(ベースバンドモデム)は、オーディオコーデックを含む。
一方、従来の音声認識技術を移動通信端末機に適用する時は、大部分音声通話のための音声コーディングと音声認識で同一のサンプリングレートの音声を用いた。
これは、16kHzマイクロフォンの入力を支援するベースバンドモデムが多くないためであり、現在、多くのベースバンドモデムがパルスコード変調(Pulse Code Modulation:以下、PCM)データを得ることが難しいからである。
図1は従来技術に係るベースバンドモデムの構成図である。図2は、図1に示すベースバンドモデムを介した音声認識過程を説明した図面である。
図1を参照すると、従来のベースバンドモデムは、オーディオコーデック13と、ボコーダ15と、プロセッサー17とで構成されている。
オーディオコーデック13は、マイクロフォンからボイス信号が入力されると、そのボイス信号を所定のサンプリングレートで変調する。一例として、入力されたボイス信号を8kHzのサンプリングレートでPCMを実施する。
ボコーダ15は、オーディオコーデック13の出力に対してボコーディグを実施する。
一例として、音声コーディング方式としてQUELP(Qualcomm Code Excited Linear Prediction)やEVRC(Enhanced Variable Rate Coding)が用いられる。
プロセッサー17は、ボコーダ15の出力に対して音声認識を実施する。より詳細に、プロセッサー17は、音声コーディングされたデータを復号化し、その復号化されたデータから特徴ベクトルを抽出する。そして、予め備えられた音声認識アルゴリズムに前記抽出された特徴ベクトルを用いて音声認識を実施する。
前記プロセッサー17は、マイクロプロセッシングユニット(MPU:Micro Processing Unit)やデジタルシグナリングプロセッサー(DSP:Digital Signaling Processor)であることが好ましい。
反面、前記入力されたボイス信号が音声通話のためのものである場合は、プロセッサー17は、ボコーダ15の出力に対してコンボルーションコードやターボコードなどを用いるチャンネルコーディングを実施する。
上記の構成による音声認識過程を図2に基づいて以下に説明する。
従来のベースバンドモデムは、マイクロフォンからボイス信号が入力されると、そのボイス信号を所定のサンプリングレートで変調する(S12)。一例として、入力されたボイス信号を8kHzのサンプリングレートでPCMを実施する。
次いで、変調の結果に対してボイスコーディングを実施する(S14)。音声コーディング方式としては、QCELP(Qualcomm Code Excited Linear Prediction)やEVRCが好ましい。
次いで、音声コーディングの出力に対してMPU(Micro Processing Unit)やDSP(digital Signaling Processer)の内部で音声認識を実施する。前記の音声認識のために、まず、音声コーディングされたデータを復号化する(S16)。そして、復号化されたデータから特徴ベクトルを抽出する(S18)。
最後に、音声認識アルゴリズムに前記抽出された特長ベクトルを用いて、音声認識を実施する(S20)。
上記説明された従来技術で変調のためのサンプリングレートを8kHzにする理由は、4kHz以下のボイス成分でも十分に聞き取れるほどの音質水準を出すことができるからである。
しかしながら、従来の移動通信端末機で音声認識を実施する場合には、大部分音声通話のためにサンプリングを経たデータを、音声認識用として用いる。そのため、従来技術では、満足すべき音声認識率を保障できなかった。
また、従来技術においては、図2で説明したように、音声認識のためには必要のない声コーディングと復号化を経なければならない。
勿論、音声認識のためのデジタル信号処理プロセッサーチップや、音声認識用チップを移動通信端末機に用いる方法もあるが、これは端末機の単価を上昇させる要因となる。
一方、従来の一部のベースバンドモデムは、音声認識のためにDTW(Dynamic Time Warping)のような方法を用いた。しかし、この方法も音声通話のためにサンプリングを経たデータを音声認識用に用いるため、十分な音声認識率を保障することはできなかった。
また、従来は、音声認識のための動作時にも、ベースバンドモデムの内部に備えられたオーディオコーデックにサンプリングレートを上げたり、特徴ベクトルを抽出する部分がハードウェア的に具現されていなかった。
さらに、音声認識のためのまた他の方法としては、ベースバンドモデムの外部に音声認識に適したサンプリングレートを有する別途のオーディオコーデックを設置する方法がある。しかし、これはハードウェア的な具現が容易ではない。
要すると、従来技術では、移動通信端末機で音声認識を実施するにおいて、音声通話と音声認識とを区分して、ベースバンドモデムのサンプリングレートを調節できるようにする技術がなかった。また、ベースバンドモデムがPCMデータを得ることが難しいという問題があった。
本発明は上記の問題点を解決するために案出したもので、音声認識に適したサンプリングレートで調節して、音声認識率を高めることのできる音声認識用ベースバンドモデムと、それを用いる移動通信端末機を提供することにその目的がある。
他の目的として、音声認識のためのプロセッシングユニットの一部の処理部分をハードウェア的に実現できる音声認識用ベースバンドモデムと、それを用いる移動通信端末機を提供することにある。
上記目的を達成するために、本発明に係るベースバンドモデムは、音声認識のためのサンプリングレートと、音声通話のためのサンプリングレートのうち何れか一つを用いて、入力されたボイス信号に対して変調を実施するオーディオコーデックと、前記音声認識のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力から特徴ベクトルを抽出する特徴ベクトル抽出ブロックと、前記特徴ベクトル抽出ブロックの出力を用いて、音声認識を行う音声認識ブロックと、前記音声通話のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力を音声コーディングするボコーダとを含んで構成されることを特徴とする。
上記目的を達成するために、本発明に係る移動通信端末機は、音声認識用サンプリングレートと、音声通話用サンプリングデータのうち何れか一つを用いて、入力されたボイス信号に対してパルスコード変調を実施するオーディオコーデックと、前記音声認識用サンプリングレートで変調された前記オーディオコーデックの出力から特徴ベクトルを抽出する特徴ベクトル抽出ブロックと、前記特徴ベクトル抽出ブロックの出力を用いて音声認識アルゴリズムを行うプロセッサーを備えた音声認識経路と、前記音声通話用サンプリングレートで変調された前記オーディオコーデックの出力を音声コーディングするボコーダを備えた音声通話経路とを含んで構成されることを特徴とする。
上記目的を達成するために、本発明は、例えば、以下の手段を提供する。
(項目1)
音声認識のためのサンプリングレートと、音声通話のためのサンプリングレートのうち何れか一つを用いて、入力されたボイス信号に対して変調を実施するオーディオコーデックと、
前記音声認識のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力から特徴ベクトルを抽出する特徴ベクトル抽出ブロックと、
前記特徴ベクトル抽出ブロックの出力を用いて、音声認識を行う音声認識ブロックと、
前記音声通話のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力をボコーディグするボコーダとを含んで構成されることを特徴とするベースバンドモデム。
(項目2)
前記音声認識のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力を保存するバッファを更に含んで構成されることを特徴とする項目1に記載のベースバンドモデム。
(項目3)
前記特徴ベクトル抽出ブロックは、前記バッファに保存されたデータから前記特徴ベクトルを抽出することを特徴とする項目2に記載のベースバンドモデム。
(項目4)
前記バッファは、ピンポンバッファであることを特徴とする項目2に記載のベースバンドモデム。
(項目5)
前記特徴ベクトル抽出ブロックから抽出された前記特徴ベクトルを保存する特徴ベクトルバッファを更に含んで構成されることを特徴とする項目1に記載のベースバンドモデム。
(項目6)
前記入力されたボイス信号が前記音声認識のための信号であるか、前記音声通話のための信号であるかを区分する制御器を更に含んで構成されることを特徴とする項目1に記載のベースバンドモデム。
(項目7)
前記制御器は、
前記入力されたボイス信号を、前記音声認識のための信号と、前記音声通話のための信号のうち一つで区分することにより、前記オーディオコーデックの変調に用いるサンプリングレートの可変を制御することを特徴とする項目6に記載のベースバンドモデム。
(項目8)
前記制御器は、
前記入力されたボイス信号を、前記音声認識のための信号と、前記音声通話のための信号のうち一つで区分することにより、前記特徴ベクトル抽出ブロックと前記音声認識ブロックの活性化を制御することを特徴とする項目6に記載のベースバンドモデム。
(項目9)
前記入力されたオーディオ信号が前記音声認識のための信号である場合に、前記制御器は、前記特徴ベクトル抽出ブロックと、前記音声認識ブロックを活性化させることを特徴とする項目8に記載のベースバンドモデム。
(項目10)
前記制御器は、前記ベースバンドモデムに備えられた音声認識のためのレジスターをオン/オフして、前記特徴ベクトル抽出ブロックと前記音声認識ブロックの活性化を制御することを特徴とする項目6に記載のベースバンドモデム。
(項目11)
前記音声認識のためのサンプリングレートは、12〜32kHzの範囲に含まれることを特徴とする項目1に記載のベースバンドモデム。
(項目12)
前記音声認識のためのサンプリングレートは、16kHzであることを特徴とする項目1に記載のベースバンドモデム。
(項目13)
前記特徴ベクトル抽出ブロックは、ハードウェアで構成されることを特徴とする項目1に記載のベースバンドモデム。
(項目14)
前記オーディオコーデックは、前記入力されたボイス信号に対してパルスコード変調を実施することを特徴とする項目1に記載のベースバンドモデム。
(項目15)
前記ベースバンドモデムは、移動通信端末機に内装されることを特徴とする項目1に記載のベースバンドモデム。
(項目16)
音声認識用サンプリングレートと、音声通話用サンプリングデータのうち何れか一つを用いて、入力されたボイス信号に対してパルスコード変調を実施するオーディオコーデックと、
前記音声認識用サンプリングレートで変調された前記オーディオコーデックの出力から特徴ベクトルを抽出する特徴ベクトル抽出ブロックと、前記特徴ベクトル抽出ブロックの出力を用いて音声認識アルゴリズムを行うプロセッサーを備えた音声認識経路と、
前記音声通話用サンプリングレートで変調された前記オーディオコーデックの出力を音声コーディングするボコーダを備えた音声通話経路とを含んで構成されることを特徴とする移動通信端末機。
(項目17)
前記音声認識経路は、
前記音声認識用サンプリングレートで変調された前記オーディオコーデックの出力を保存するバッファを、特徴ベクトル抽出ブロックの入力端に更に備えることを特徴とする項目16に記載の移動通信端末機。
(項目18)
前記バッファは、ピンポンバッファであることを特徴とする項目17に記載の移動通信端末機。
(項目19)
前記音声認識経路は、
前記特徴ベクトル抽出ブロックから抽出された前記特徴ベクトルを保存する特徴ベクトルバッファを、前記プロセッサーの入力端に更に備えることを特徴とする項目16に記載の移動通信端末機。
(項目20)
前記入力されたボイス信号が前記音声認識用信号であるか、前記音声通話用信号であるかを区分して、前記経路の動作を制御する制御器を更に含んで構成されることを特徴とする項目16に記載の移動通信端末機。
(項目21)
前記制御器は、
前記入力されたボイス信号を、前記音声認識用信号と、前記音声通話用信号のうち一つで区分し、それによって前記オーディオコーデックの変調に用いるサンプリングレートを可変させることを特徴とする項目20に記載の移動通信端末機。
(項目22)
前記制御器は、
前記入力されたボイス信号が前記音声認識用信号である場合に、前記特徴ベクトル抽出ブロックと、前記音声認識ブロックの動作を活性化させることを特徴とする項目20に記載の移動通信端末機。
(項目23)
前記制御器は、前記移動通信端末機に備えられた音声認識用レジスターをオン/オフして、前記特徴ベクトル抽出ブロックと、前記音声認識ブロックの動作を制御することを特徴とする項目20に記載の移動通信端末機。
(項目24)
前記音声認識用サンプリングレートは、12〜32kHzの範囲に含まれることを特徴とする項目16に記載の移動通信端末機。
(項目25)
前記音声認識用サンプリングレートは、16kHzであることを特徴とする項目1に記載の移動通信端末機。
(項目26)
前記特徴ベクトルブロックは、ハードウェアで構成されることを特徴とする項目1に記載の移動通信端末機。
本発明に係る音声認識用ベースバンドモデムと、それを用いる移動通信端末機によれば次のような効果がある。
第一に、オーディオコーデックによる変調時に音声認識に適したサンプリングレートを用いるので、音声認識率が向上する。
第二に、特徴ベクトルの抽出のための部分をハードウェアで実現することで、音声認識のためのプロセッシングユニットの演算量を減らすことができ、また、電力消費面でも経済的である。
第三に、音声認識アルゴリズムで固定点の移行やアルゴリズムの改善のための部分を、上述したMPUまたはDSPを介して実現することで、以後、必要による修正が容易である。
以下、本発明に係る音声用ベースバンドモデムと、それを用いる移動通信端末機についての好適な実施例を添付の図面に基づいて詳細に説明する。
図3は、本発明の一実施例によるベースバンドモデムの構成を示すブロックダイアグラムである。特に、図3のベースバンドモデムは、移動通信端末機に装着されることが好ましい。図2を参照すると、本発明に係るベースバンドモデムは、オーディオコーデック22、制御器27、ボコーダ28、特徴ベクトル抽出ブロック24、多数のバッファ23、25、そして音声認識ブロック26で構成されている。
オーディオコーデック22は、マイクロフォンからボイス信号が入力されると、そのボイス信号を所定のサンプリングレートで変調する。特に、オーディオコーデック22は、入力されたボイス信号を、可変的なサンプリングレートでPCMを実施する。
上記でマイクロフォンは、入力されるユーザーの音声を電気的な信号に変換する。
オーディオコーデック22は、入力されるボイス信号が音声認識のための信号であるか、音声通話のための信号であるかによってサンプリングレートを変更して、PCMを行う。
より詳細には、オーディオコーデック22は、音声通話のための信号に対しては、8kHz程度のサンプリングレートをPCMに用いる。反面、音声認識のための信号に対しては、より高い12〜32kHz範囲のサンプリングレートをPCMに用いる。
より好ましくは、音声認識のための信号に対しては16kHzのサンプリングレートをPCMに用いる。これは、16kHzのサンプリングレートが音声認識率を向上させると知られているためである。
一方、入力される信号が音声認識のための信号であるか、音声通話のための信号であるかの区分は、ユーザーがどんなアプリケーションを選択するかによって実現される。
即ち、ユーザーが音声通話のためのアプリケーションを選択すると、以後オーディオコーデック22に入力される信号は、音声通話のためのボイス信号である。そして、ユーザーが音声認識のためのアプリケーションを選択すると、以後オーディオコーデック22に入力される信号は、音声認識のためのボイス信号である。
そのため、移動通信端末機の立場で入力される信号が、音声認識のための信号であるか音声通話のための信号であるかを区分する。
本発明では、制御器27が現在のユーザーが選択したアプリケーションが何であるかを把握して、音声通話のための信号伝達経路と、音声認識のための信号伝達経路のうち、一つの経路を活性化させる。より正確には、制御器27は、音声認識のための信号伝達経路の要素23、24、25を活性化させたり、不活性化させる。もし、ユーザーが音声認識のためのアプリケーションを選択すると、制御器27は、音声認識のための信号伝達経路の要素23、24、25を活性化させる。
しかし、ユーザーが音声認識のためのアプリケーションを選択しない時は、制御器27は、音声認識のための信号伝達経路の要素23、24、25を不活性化させ、オーディオコーデック22の出力がボコーダ28に伝達されるように制御する。
また、制御器27は、オーディオコーデック22のサンプリングレートを制御する。即ち、制御器27は、ユーザーがどんなアプリケーションを選択するかによって、オーディオコーデック22に入力される信号が音声通話のためのものであるか、音声認識のためのものであるかが分かるので、各状況によってオーディオコーデック22が適切なサンプリングレートを用いてPCMを実行するように制御する。
制御器27の制御動作に対する一例を説明する。即ち、ユーザーが音声認識を用いる自動ダイアリング、メニュー選択、名前の呼出など、音声認識のためのアプリケーションを選択すると、制御器27は、ベースバンドモデムに備えられたレジスターのうち、音声認識モードを示す部分をオンにして、オーディオコーデック22のサンプリングレートを音声認識用サンプリングレート(例えば、16kHz)に設定する。そして、バッファ23と、特徴ベクトル抽出ブロック24と、特徴ベクトルバッファ25で前記音声認識モードを示す部分をオン/オフにして制御する。
要すると、制御器27は、オーディオコーデック22が用いるサンプリングレートの可変を制御する。そして、制御器27は、ユーザーが選択したアプリケーションによって、オーディオコーデック22の出力が伝達された経路を決定する。
一方、音声認識のための信号伝達経路上で、特徴ベクトル抽出ブロック24の入力端に備えられたバッファ23は、音声認識のための音声信号(PCMデータ)を保存する。前記バッファ23は、ピンポンバッファであることが好ましい。ここで、ピンポンバッファは、二重バッファリングの構造を用いる。即ち、二つの保存領域に区分して、その二つの保存領域のうち一方の領域にデータを満たすと同時に、他方の領域では、保存されていたデータを出力する構造である。
一方、本発明では、上記の二重バッファリングの構造を用いたり、三つ以上の保存領域に区分して、その保存領域をリングの形態で構成した構造を用いる。ここで、前記バッファ23は、20〜40msバッファである。
特徴ベクトル抽出ブロック24は、入力端に位置したバッファ23からPCMデータの伝達を受け、そこから特徴ベクトルを抽出する。前記特徴ベクトル抽出ブロック24は、MFCC(mel-frequency cepstral coefficients)、PLP(perceptual linear prediction)、LPC(Linear Predictive Coding)、又はLPCC(Linear Predictive Cepstral Coefficients)のうち、何れかの方式を用いる。
そして、特徴ベクトル抽出ブロック24の出力端に備えられた特徴ベクトル25は、特徴ベクトル抽出ブロック24から抽出された特徴ベクトルを保存する。
本発明では、20〜40ms程度の短時間単位で反復的に特徴ベクトルを抽出し、その特徴ベクトルをアレイ形態で特徴ベクトルバッファ25に保存する。
一般的に、特徴ベクトルを抽出する時は、フィルターバンク、フィルタリング、FFT(Fast Fourier Transform)、DCT(Discrete Cosine Transform)、IFFT(Inverse Fast Fourier Transform)などの過程を経なければならない。そのため、多くの演算量が要求される。また、特徴ベクトルを抽出する過程は規則性が強い。したがって、本発明では、特徴ベクトルの抽出のためのブロック24をハードウェアとして実現する。
別途の例として、特徴ベクトル抽出のためにソフトウェア的な実現も可能である。
音声認識ブロック26は、特徴ベクトルバッファ25に保存された特徴ベクトルを用いて、音声認識を実施する。前記音声認識ブロック26は、音声認識用アルゴリズムを備えたMPUやDSPであることが好ましい。
音声認識アルゴリズム自体は変化可能性が多い。そして、トレイニングファイル及びパラメーターによって固定点の移行において差が生じ得る。そして、アルゴリズムの改善のためにビタビ復号化や言語モデリングや文法に当たる部分が用いられる。それにより、本発明では、音声認識アルゴリズムで固定点の移行やアルゴリズムの改善のための部分を、上述したMPU又はDPSを介して実現する。
別途の例として、本発明では、MPU又はDSPを介した音声認識のために、予めノイズ除去を実施する。そのノイズの除去も上述したMPU又はDSPを介して行うことが好ましい。
ボコーダ28は、音声通話のためのオーディオコーデック22の出力(8kHzのサンプリングレートを用いたPCMデータ)に対して音声コーディングを実施する。即ち、ボコーダ28は、音声通話のための音声信号が入力されると、そのPCMデータをQCELP(Qualcomm Code Excited Linear Prediction)やEVRC(Enhanced Variable Rate Coding)やVSELP(Vector Sum Excited Linear Prediction)やRPE−LTP(residual pulse excitation/long term prediction) などを用いて音声コーディングする。
ボコーダー28の出力に対しては、コンボルーションコードやターボコードなどを用いるチャンネルコーディングを実施する。そして、チャンネルコーディングの以後に無線変調などの過程を更に経る。
上述した前記ベースバンドモデムは、移動通信端末機の出荷時に内部の構成要素として予め装着させることが好ましい。しかし、本発明に係るベースバンドモデムを独立的なモジュールに実現して、移動通信端末機に後で装着するように構成してもよい。
即ち、本発明による技術的な範囲は、前記両者の場合に共に及ぶことができる。
以上で説明した内容を通じて当業者であれば本発明の技術思想を逸脱しない範囲で多様な変更及び修正が可能なことが分かる。したがって、本発明の技術的な範囲は明細書の詳細な説明に記載された内容に限定されるものではなく、特許請求の範囲によって定められなければならない。
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
音声認識に適したサンプリングレートで調節することによって音声認識率を高められると共に、音声認識のためのプロセッシングユニットの一部の処理部分をハードウェア的に実現できる音声認識用ベースバンドモデムと、それを用いる移動通信端末機を提供する。
本発明に係るベースバンドモデムは、音声認識のためのサンプリングレートと、音声通話のためのサンプリングレートのうち何れか一つを用いて、入力されたボイス信号に対して変調を実施するオーディオコーデックと、前記音声認識のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力から特徴ベクトルを抽出する特徴ベクトル抽出ブロックと、前記特徴ベクトル抽出ブロックの出力を用いて、音声認識を行う音声認識ブロックと、前記音声通話のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力をボコーディグするボコーダとを含んで構成されることを特徴とする。
従来技術に係るベースバンドモデムの構成図である。 図1に示したベースバンドモデムを介した音声認識過程を説明した図面である。 本発明の一実施例によるベースバンドモデムの構成を示すブロックダイアグラムである。

Claims (26)

  1. 音声認識のためのサンプリングレートと、音声通話のためのサンプリングレートのうち何れか一つを用いて、入力されたボイス信号に対して変調を実施するオーディオコーデックと、
    前記音声認識のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力から特徴ベクトルを抽出する特徴ベクトル抽出ブロックと、
    前記特徴ベクトル抽出ブロックの出力を用いて、音声認識を行う音声認識ブロックと、
    前記音声通話のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力をボコーディグするボコーダとを含んで構成されることを特徴とするベースバンドモデム。
  2. 前記音声認識のためのサンプリングレートを用いて、変調された前記オーディオコーデックの出力を保存するバッファを更に含んで構成されることを特徴とする請求項1に記載のベースバンドモデム。
  3. 前記特徴ベクトル抽出ブロックは、前記バッファに保存されたデータから前記特徴ベクトルを抽出することを特徴とする請求項2に記載のベースバンドモデム。
  4. 前記バッファは、ピンポンバッファであることを特徴とする請求項2に記載のベースバンドモデム。
  5. 前記特徴ベクトル抽出ブロックから抽出された前記特徴ベクトルを保存する特徴ベクトルバッファを更に含んで構成されることを特徴とする請求項1に記載のベースバンドモデム。
  6. 前記入力されたボイス信号が前記音声認識のための信号であるか、前記音声通話のための信号であるかを区分する制御器を更に含んで構成されることを特徴とする請求項1に記載のベースバンドモデム。
  7. 前記制御器は、
    前記入力されたボイス信号を、前記音声認識のための信号と、前記音声通話のための信号のうち一つで区分することにより、前記オーディオコーデックの変調に用いるサンプリングレートの可変を制御することを特徴とする請求項6に記載のベースバンドモデム。
  8. 前記制御器は、
    前記入力されたボイス信号を、前記音声認識のための信号と、前記音声通話のための信号のうち一つで区分することにより、前記特徴ベクトル抽出ブロックと前記音声認識ブロックの活性化を制御することを特徴とする請求項6に記載のベースバンドモデム。
  9. 前記入力されたオーディオ信号が前記音声認識のための信号である場合に、前記制御器は、前記特徴ベクトル抽出ブロックと、前記音声認識ブロックを活性化させることを特徴とする請求項8に記載のベースバンドモデム。
  10. 前記制御器は、前記ベースバンドモデムに備えられた音声認識のためのレジスターをオン/オフして、前記特徴ベクトル抽出ブロックと前記音声認識ブロックの活性化を制御することを特徴とする請求項6に記載のベースバンドモデム。
  11. 前記音声認識のためのサンプリングレートは、12〜32kHzの範囲に含まれることを特徴とする請求項1に記載のベースバンドモデム。
  12. 前記音声認識のためのサンプリングレートは、16kHzであることを特徴とする請求項1に記載のベースバンドモデム。
  13. 前記特徴ベクトル抽出ブロックは、ハードウェアで構成されることを特徴とする請求項1に記載のベースバンドモデム。
  14. 前記オーディオコーデックは、前記入力されたボイス信号に対してパルスコード変調を実施することを特徴とする請求項1に記載のベースバンドモデム。
  15. 前記ベースバンドモデムは、移動通信端末機に内装されることを特徴とする請求項1に記載のベースバンドモデム。
  16. 音声認識用サンプリングレートと、音声通話用サンプリングデータのうち何れか一つを用いて、入力されたボイス信号に対してパルスコード変調を実施するオーディオコーデックと、
    前記音声認識用サンプリングレートで変調された前記オーディオコーデックの出力から特徴ベクトルを抽出する特徴ベクトル抽出ブロックと、前記特徴ベクトル抽出ブロックの出力を用いて音声認識アルゴリズムを行うプロセッサーを備えた音声認識経路と、
    前記音声通話用サンプリングレートで変調された前記オーディオコーデックの出力を音声コーディングするボコーダを備えた音声通話経路とを含んで構成されることを特徴とする移動通信端末機。
  17. 前記音声認識経路は、
    前記音声認識用サンプリングレートで変調された前記オーディオコーデックの出力を保存するバッファを、特徴ベクトル抽出ブロックの入力端に更に備えることを特徴とする請求項16に記載の移動通信端末機。
  18. 前記バッファは、ピンポンバッファであることを特徴とする請求項17に記載の移動通信端末機。
  19. 前記音声認識経路は、
    前記特徴ベクトル抽出ブロックから抽出された前記特徴ベクトルを保存する特徴ベクトルバッファを、前記プロセッサーの入力端に更に備えることを特徴とする請求項16に記載の移動通信端末機。
  20. 前記入力されたボイス信号が前記音声認識用信号であるか、前記音声通話用信号であるかを区分して、前記経路の動作を制御する制御器を更に含んで構成されることを特徴とする請求項16に記載の移動通信端末機。
  21. 前記制御器は、
    前記入力されたボイス信号を、前記音声認識用信号と、前記音声通話用信号のうち一つで区分し、それによって前記オーディオコーデックの変調に用いるサンプリングレートを可変させることを特徴とする請求項20に記載の移動通信端末機。
  22. 前記制御器は、
    前記入力されたボイス信号が前記音声認識用信号である場合に、前記特徴ベクトル抽出ブロックと、前記音声認識ブロックの動作を活性化させることを特徴とする請求項20に記載の移動通信端末機。
  23. 前記制御器は、前記移動通信端末機に備えられた音声認識用レジスターをオン/オフして、前記特徴ベクトル抽出ブロックと、前記音声認識ブロックの動作を制御することを特徴とする請求項20に記載の移動通信端末機。
  24. 前記音声認識用サンプリングレートは、12〜32kHzの範囲に含まれることを特徴とする請求項16に記載の移動通信端末機。
  25. 前記音声認識用サンプリングレートは、16kHzであることを特徴とする請求項1に記載の移動通信端末機。
  26. 前記特徴ベクトルブロックは、ハードウェアで構成されることを特徴とする請求項1に記載の移動通信端末機。
JP2005259381A 2004-09-07 2005-09-07 音声認識用ベースバンドのモデムと、それを用いる移動通信端末機 Pending JP2006079089A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040071327A KR100640893B1 (ko) 2004-09-07 2004-09-07 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기

Publications (1)

Publication Number Publication Date
JP2006079089A true JP2006079089A (ja) 2006-03-23

Family

ID=36158548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005259381A Pending JP2006079089A (ja) 2004-09-07 2005-09-07 音声認識用ベースバンドのモデムと、それを用いる移動通信端末機

Country Status (7)

Country Link
US (1) US7593853B2 (ja)
EP (1) EP1632934B1 (ja)
JP (1) JP2006079089A (ja)
KR (1) KR100640893B1 (ja)
CN (1) CN1797542B (ja)
AT (1) ATE370494T1 (ja)
DE (1) DE602005001995T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028160A (ja) * 2017-07-27 2019-02-21 アルパイン株式会社 電子装置および情報端末システム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154608A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. On a mobile device tracking use of search results delivered to the mobile device
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ATE539433T1 (de) 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
JP4703787B2 (ja) * 2009-01-28 2011-06-15 三菱電機株式会社 音声認識装置
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US9851787B2 (en) 2012-11-29 2017-12-26 Microsoft Technology Licensing, Llc Display resource management
CN104038804B (zh) * 2013-03-05 2017-09-29 三星电子(中国)研发中心 基于语音识别的字幕同步装置和方法
US9542933B2 (en) * 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US20150031416A1 (en) * 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
US9449602B2 (en) * 2013-12-03 2016-09-20 Google Inc. Dual uplink pre-processing paths for machine and human listening
CN103886860B (zh) * 2014-02-21 2017-05-24 联想(北京)有限公司 一种信息处理方法和电子设备
CN110910888B (zh) * 2018-09-17 2022-06-14 中国移动通信集团设计院有限公司 语音识别装置及方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE100658T1 (de) 1988-09-02 1994-02-15 Siemens Ag Verfahren und anordnung zur sprechererkennung in einer fernsprechvermittlungsanlage.
JPH04207551A (ja) 1990-11-30 1992-07-29 Toshiba Corp 電話装置
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6212228B1 (en) * 1997-09-10 2001-04-03 Nortel Networks Limited Apparatus for modulation and demodulating digital data
US7085710B1 (en) * 1998-01-07 2006-08-01 Microsoft Corporation Vehicle computer system audio entertainment system
US6321195B1 (en) 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
US6411926B1 (en) * 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
JP2001142488A (ja) 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
US6633845B1 (en) * 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
KR20010008073A (ko) 2000-11-07 2001-02-05 조용범 음성 인식 및 번역 전용 에이직을 이용한 휴대용 다국어번역 단말장치
US6901270B1 (en) 2000-11-17 2005-05-31 Symbol Technologies, Inc. Apparatus and method for wireless communication
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US7221902B2 (en) * 2004-04-07 2007-05-22 Nokia Corporation Mobile station and interface adapted for feature extraction from an input media sample

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028160A (ja) * 2017-07-27 2019-02-21 アルパイン株式会社 電子装置および情報端末システム

Also Published As

Publication number Publication date
CN1797542A (zh) 2006-07-05
EP1632934B1 (en) 2007-08-15
ATE370494T1 (de) 2007-09-15
KR20060022490A (ko) 2006-03-10
CN1797542B (zh) 2010-04-07
DE602005001995T2 (de) 2008-05-15
DE602005001995D1 (de) 2007-09-27
EP1632934A1 (en) 2006-03-08
US20060053011A1 (en) 2006-03-09
KR100640893B1 (ko) 2006-11-02
US7593853B2 (en) 2009-09-22

Similar Documents

Publication Publication Date Title
JP2006079089A (ja) 音声認識用ベースバンドのモデムと、それを用いる移動通信端末機
US20230230572A1 (en) End-to-end speech conversion
JP4607334B2 (ja) 分散された音声認識システム
US8483854B2 (en) Systems, methods, and apparatus for context processing using multiple microphones
EP3416166B1 (en) Processing speech signal using substitute speech data
AU667871B2 (en) Voice controlled messaging system and processing method
JP5730682B2 (ja) 背景雑音情報の断続伝送及び正確な再生の方法
US8768701B2 (en) Prosodic mimic method and apparatus
US20070121657A1 (en) Method and communication device for providing a personalized ring-back
US20110282650A1 (en) Automatic normalization of spoken syllable duration
JP2002540703A (ja) 通話容易化装置用の口頭ユーザインターフェイス
KR20080107376A (ko) 화자 독립 음성 인식을 구비한 통신 장치
KR20100094529A (ko) 신호음 데이터와 오디오를 믹싱하기 위한 시스템 및 방법
KR20080054591A (ko) 휴대단말기의 통화 서비스 방법
KR100460411B1 (ko) 목소리 신호의 억양조절에 의한 부드러운 소리의 전화기방식
KR100817284B1 (ko) 이동통신 단말기의 효과음 제공 장치 및 방법
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091028

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091204

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20091218