JP5062171B2 - 音声認識システム、音声認識方法および音声認識用プログラム - Google Patents

音声認識システム、音声認識方法および音声認識用プログラム Download PDF

Info

Publication number
JP5062171B2
JP5062171B2 JP2008506329A JP2008506329A JP5062171B2 JP 5062171 B2 JP5062171 B2 JP 5062171B2 JP 2008506329 A JP2008506329 A JP 2008506329A JP 2008506329 A JP2008506329 A JP 2008506329A JP 5062171 B2 JP5062171 B2 JP 5062171B2
Authority
JP
Japan
Prior art keywords
recognition
application
data
processing
applications
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008506329A
Other languages
English (en)
Other versions
JPWO2007108500A1 (ja
Inventor
山本  仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008506329A priority Critical patent/JP5062171B2/ja
Publication of JPWO2007108500A1 publication Critical patent/JPWO2007108500A1/ja
Application granted granted Critical
Publication of JP5062171B2 publication Critical patent/JP5062171B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識システム、音声認識方法および音声認識プログラムに関し、特に認識結果を複数のアプリケーションから利用できる音声認識システム、音声認識方法および音声認識プログラムに関する。
音声認識結果をアプリケーションで使用するためには、その使用目的や発声内容にあわせた適切な言語モデルや探索手段を用いて音声認識システムを構成する必要がある。
従来の応用では、例えば音声によるコマンド入力システムのように、発声と使用目的とが一対一に対応しているため、これに合わせた音声認識システムを一つ構成すればよいことになる。
しかしながら、近時、人と人との対話音声(話し言葉音声)の認識技術の発達により、ある音声を様々な応用目的に認識して利用するためのシステム等が検討されるに至っている。例えば、対話の記録のために、一字一句、文字化するという用途や、対話からの情報抽出のために、特定の表現を検出する、という用途である。
これらの用途では、それぞれ最適な音声認識システムの構成要素(言語情報や探索手段)が異なるが、それぞれのアプリケーションに適した音声認識結果を、一つの音声認識システムで同時に提供することができれば、音声認識の使用場面が広がり、利便性が高まる。
一つの音声認識システムを、複数のアプリケーションで取り扱うものとして、例えば特許文献1に示されるものがある。
図10は、特許文献1に開示される構成を示す図である。図10に示すように、この従来の音声認識システムは、音声を認識する音声認識部12と、複数のアプリケーションに関する情報を管理する応用プログラム管理テーブル13と、応用プログラム管理手段の情報に基づいて音声入力に対する認識語彙や音声認識手段の認識結果の送信先を特定するメッセージ処理部11とから構成されている。
アプリケーションから送られたメッセージはメッセージ処理部11で解釈され、その指示に基づいて応用プログラム管理テーブル13は、認識対象語彙と認識結果の送信先を決定する。音声認識部12は決められた認識対象語彙を用いて音声認識し、その認識結果をメッセージ処理部11が決定した応用プログラム2に送信する。
特開平7−140998号公報
しかしながら、図10を参照して説明した従来のシステムは次のような問題点を有している。
すなわち、一つの音声認識システムから複数のアプリケーションに同時に適切な音声認識結果を送信できない、ということである。
その理由は、従来のシステムでは、応用ごとに適切な言語情報や探索手段が異なることを考慮しておらず、常に1通りの音声認識結果しか生成しないためである。
例えば、対話音声を一字一句文字化するアプリケーションと、対話から特定の表現を抽出するアプリケーションとでは、使用する認識語彙や言語モデル、探索手段などが異なるため、同時に、認識結果を利用することはできない。
したがって、本発明の目的は、複数のアプリケーションそれぞれに適切な音声認識結果を同時に送信できる音声認識システム及び方法並びにプログラムを提供することにある。
本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。
本発明に係る音声認識システムは、複数のアプリケーションが接続した音声認識システムにおいて、それぞれのアプリケーション用の認識結果を提供する手段を備えている、ことを特徴とする。本発明においては、好ましくは、共通データ処理手段と適応データ処理手段とを備え、共通データ処理手段で生成された認識結果仮説を、適応データ処理手段で各アプリケーション向けデータを用いて再計算するよう動作する。
このような構成を採用し、複数のアプリケーションに、例えば同時に認識結果を提供する。
より詳細には、本発明の1つのアスペクト(側面)に係るシステムは、入力音声信号を音声認識した結果得られた認識結果仮説に対して、応用の異なる複数の提供先に応じて、それぞれ異なる仕方でリスコアを行い、該リスコア結果に基づき決定した認識結果を前記複数の提供先の対応する提供先に供給する処理装置を備えている。本発明は、前記入力音声信号に対して、複数の提供先には、それぞれの応用の相違に応じて、互いに異なる、複数の認識結果を生成し出力することを可能としている。本発明に係るシステムは、音声入力手段より入力された音声に対して、アプリケーションに偏らない認識結果仮説を生成する共通データ処理手段と、前記共通データ処理手段からの認識結果仮説を受け、前記アプリケーションに個別に特化した認識結果を生成して出力する適応データ処理手段と、を備えている。
本発明に係るシステムは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶する記憶装置と、
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、を有する共通データ処理手段と、
それぞれが、前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いてアプリケーションに個別に特化した認識結果を生成し、複数の提供先の複数のアプリケーションに提供する適応手段を備えた適応用データ処理手段と、を備え、前記複数のアプリケーションに対して、認識結果仮説を生成する認識結果仮説生成手段を共通化してなるものである。
本発明の他のアスペクトに係るシステムは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶する記憶装置と、
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
を有する共通データ処理手段と、
前記記憶装置から音声認識処理用のデータを取得し、さらに、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する適応データ管理手段と、
前記認識結果仮説を受け取り、前記適応データ管理手段で生成された適応処理に対応するデータに基づき、前記認識結果仮説に対してアプリケーションに応じた適応処理を行い、認識結果を複数の提供先に提供する共通適応手段と、
を有する適応用データ処理手段と、
を備え、前記複数のアプリケーションに対して前記共通適応手段を共通化した構成としてもよい。
本発明に係るシステムにおいて、好ましくは、前記記憶装置は、音声認識処理のうち各アプリケーションに共通の処理に関するデータとして音響モデル、言語モデルを記憶する音声認識データ記憶部と、音声認識処理のうち各アプリケーションで異なる処理に関するデータとして、認識語彙の単語重み情報や、認識結果仮説のリスコアのためのパラメタなどを記憶する適応用データ記憶部と、を備えている。
本発明の他のアスペクトに係るシステムは、音声認識用データを前記音声認識データ記憶部から取得し、各アプリケーションに関する適応用データを前記適応用データ記憶部から取得し、それらを合成した認識用データを作成する音声認識用データ加工手段をさらに備えた構成としてもよい。
本発明の他のアスペクトに係るシステムは、前記音声認識用データ加工手段は、合成としては、複数の言語モデルの重み付け合成や、特定の認識語彙の言語スコアの底上げを行う。
本発明の1つのアスペクトに係る方法は、音声認識装置による音声認識方法であって、音声入力手段より入力された音声に対して、複数のアプリケーションに共通の認識結果仮説を生成する工程と、前記認識結果仮説を受け、前記アプリケーションに個別に特化した認識結果を生成して出力する工程と、を含む。本発明は、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶装置に記憶保持しておき、
音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
それぞれが、前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、アプリケーション向けの認識結果を生成し、対応するアプリケーションに適した認識結果を生成し、複数のアプリケーションに供給する工程と、
を含む。
本発明の他のアスペクトに係る方法は、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶装置に記憶保持しておき、
前記第1の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
を含み、
前記第2の工程が、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する工程と、
前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する工程と、
を含む。
本発明の他のアスペクトに係るコンピュータ・プログラムは、音声認識装置を構成するコンピュータに、
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、音声認識装置を構成するコンピュータに、
音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置から読み込んだ音声認識用のデータを用いて、認識結果仮説を生成する処理と、
前記認識結果仮説を基に、前記記憶装置から読み込んだ適応処理に関するデータを用いて、アプリケーション向けの認識結果を生成し、対応するアプリケーションに適した認識結果を生成し、対応するアプリケーションにそれぞれ供給する処理と、
を実行させるプログラムよりなる。
本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、音声認識装置を構成するコンピュータに、
音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置から読み込んだ、複数のアプリケーションに共通の処理に関する音声認識用データを用いて、認識結果仮説を生成する処理と、
前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に適切なデータを生成する処理と、
前記生成された適応処理に適切なデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する処理と、
を実行させるプログラムよりなる。
本発明によれば、1つの音声認識システムにより、複数のアプリケーション向けにそれぞれ処理した認識結果を提供できるようにしたことにより、複数のアプリケーションに対して複数の音声認識システムを用意することを要しなくし、この結果、計算量の縮減、およびメモリ容量の縮減等、システム構成の縮減、簡易化を実現することができる。
本発明によれば、適応手段を共通化することで、システム構築を容易化することができる。
さらに、本発明によれば、共通データ処理手段には汎用的な言語モデルを提供し、適応手段には、それぞれに適した言語モデルを提供するため、認識精度を向上することができる。
本発明の第1の実施の形態の構成を示すブロック図である。 本発明を実施の動作を示す流れ図である。 本発明の第2の実施の形態の構成を示す図である。 本発明の第3の実施の形態の構成を示す図である。 本発明の第4の実施の形態の構成を示す図である。 本発明の第5の実施の形態の構成を示す図である。 本発明の第1の実施例の動作を説明するための図である。 本発明の第2の実施例の動作を説明するための図である。 本発明の第3の実施例の動作を説明するための図である。 特許文献1の構成を示す図である。
符号の説明
2 応用プログラム
11 メッセージ処理部
12 音声認識部
13 応用プログラム管理テーブル
100 音声入力手段
200 データ処理装置
210 共通データ処理手段
211 特徴抽出手段
212 認識結果仮説生成手段
220 適応用データ処理手段
221〜22N 適応手段
231 共通適応手段
232 適応データ管理手段
241 音声認識用データ加工手段
300 記憶装置
301 音声認識用データ記憶部
302 適応用データ記憶部
401〜40N アプリケーション
600 音声認識プログラム
700 データ処理装置
上記した本発明についてさらに詳細に説述すべく、本発明を実施するための最良の形態を添付図面を参照して以下に説明する。まず、本発明の第1の実施の形態について図面を参照して詳細に説明する。図1は、本発明の第1の実施の形態のシステムの構成を示す図である。
図1を参照すると、本発明の第1の実施の形態のシステムは、音声を入力する音声入力手段100と、音声認識処理を行うデータ処理装置200と、音声認識処理に関するデータを記憶する記憶装置300と、音声認識結果を使用するN個のアプリケーション401〜40Nを含んでいる。
これらの手段のそれぞれについて以下に説明する。
音声入力手段100は、話者の発声を入力するためのものである。話者の発声を音声信号として取り込み、A/D(アナログ・デジタル)変換してデータ処理装置200へ送る。
N個のアプリケーション401〜40Nは、データ処理装置200から認識結果を含むデータを受け取り、それぞれ固有の処理を行う。
記憶装置300は、音声認識用データ記憶部301と適応用データ記憶部302とを備えている。
音声認識用データ記憶部301は、音声認識処理のうち各アプリケーションに共通の処理に関するデータ、例えば、
・HMMなどで表現される音響モデル、
・Nグラムなどで表現される言語モデル
などを記憶する。
適応用データ記憶部302は、音声認識処理のうち各アプリケーションで異なる処理に関するデータ、例えば、認識語彙の単語重み情報や、認識結果仮説のリスコアのためのパラメタなどを記憶する。なお、本明細書では、音声認識システム内部で扱う認識結果の候補を認識結果仮説(認識結果仮説生成手段によって生成される、「認識仮説」あるいは「音声認識仮説」ともいう)といい、音声認識システムからの出力を認識結果という。
音声認識処理を行うデータ処理装置200は、各応用の共通データ処理手段210と適応用データ処理手段220とを備えている。
共通データ処理手段210は、特徴抽出手段211と認識結果仮説生成手段212とを備えている。
特徴抽出手段211は、音声入力手段100から送られてきた音声信号について音声認識用の特徴量を求め、認識結果仮説生成手段212へ送る。
特徴量としては、メル周波数ケプストラム係数の多次元ベクトルなどを用いる。
認識結果仮説生成手段212は、音声特徴量を特徴抽出手段211から、音響モデルや言語モデルなどの音声認識用データを音声認識用データ記憶部301からそれぞれ取得し、探索計算によって、
・単語グラフや、
・Nベスト単語列
などで表現される認識結果仮説を生成する。
適応用データ処理手段220は、認識結果仮説生成手段212で生成された認識結果仮説(単語グラフや単語列)を取得し、当該認識結果仮説に対して、アプリケーション401〜40Nにそれぞれ対応する、言語モデルなどの認識用データ(リスコア用の単語辞書)を、記憶装置300から、それぞれ取得して、それぞれのアプリケーション401〜40Nに適した認識結果を生成する。
次に、図1および図2のフローチャートを参照して、本発明の第1の実施の形態の動作について詳細に説明する。
まず、予め音声認識処理に関するデータと、適応処理に関するデータを記憶装置300に記憶させた上で、システムを初期化する(ステップS101)。
話者が発声すると、音声入力手段100がそれを音声信号として取り込み、A/D変換してデータ処理装置200へ送る(ステップS102)。
音声認識処理を行うデータ処理装置200に入力された音声は、特徴抽出手段211で特徴量が抽出される(ステップS103)。
特徴抽出手段211で抽出された特徴量を受け取り、該特徴量に対して、認識結果仮説生成手段212では、記憶装置300から読み込んだ音響モデルや言語モデルなどを用いて、認識結果仮説を生成する(ステップS104)。
次に、ステップS104で生成された認識結果仮説を基に、適応用データ処理手段220は、記憶装置300から読み込んだ言語モデルや各応用の認識語彙などを用いて、各応用向けの認識結果を生成し、各アプリケーション401〜40Nに送る(ステップS105)。
次に、本発明の第1の実施の形態の作用効果について説明する。
本発明の第1の実施の形態では、適応用データ処理手段220にて、各応用(アプリケーション)向けの認識結果を生成するため、一つの音声認識システムで、常に複数の応用それぞれに適切な認識処理を行った認識結果を提供することができる。
また、本発明の第1の実施の形態では、共通データ処理手段210によって、同じプロセスをまとめるため、各応用一つ一つに音声認識システムを用意するのに比べて、全体としての使用メモリ量や計算コストを低減することができる。なお、図1に示した第1の実施の形態では、複数のアプリケーション401〜40Nは、データ処理装置200の複数のポート(あるいはバス)等を介してデータ処理装置200に並列に接続される構成として示されているが、データ処理装置200は複数のアプリケーション401〜40Nに1つのポート(あるいはバス)を介して時分割にてデータを提供する構成としてもよい。また、データ処理装置200の複数の出力と複数のアプリケーション401〜40Nとの対応関係を可変自在としてもよい。すなわち、データ処理装置200の出力とアプリケーションの対応関係は、可変自在としてもよい。この場合、提供先のアプリケーションに対して、認識結果を対応する出力先に振り分ける振り分け器を備えた構成としてもよい。複数のアプリケーション401〜40Nは、認識結果を受け取りそれぞれのアプリケーションを実行するN個の処理装置で構成してもよい。この場合、複数のアプリケーション401〜40Nを実行するN個の処理装置は、データ処理装置とネットワーク等により通信接続される構成としてもよい。
図3は、本発明の第2の実施の形態の構成を示す図である。本実施の形態は、本発明の第1の実施の形態の変形例をなすものである。本実施の形態においては、図1に示した前記第1の実施の形態の適応用データ処理手段220が、N個のアプリケーション401〜40Nのそれぞれに対応させて配設された適応手段221〜22Nを備え、適応手段221〜22Nがそれぞれのアプリケーション401〜40Nに適した認識結果を個別に提供する。本実施の形態の動作は、図2と同様とされるが、ステップS105(応用に適応した認識結果の生成処理)では、各応用向けの適応手段221〜22Nが、それぞれ、個別に、記憶装置300から読み込んだ、言語モデルや各応用の認識語彙などを用いて、各応用向けの認識結果を生成し、各アプリケーション401〜40Nに送る。なお、適応手段221〜22Nは、図1の適応用データ処理手段220によりN個のアプリケーション401〜40Nに対して行われる処理を、N個のモジュールに分割配置した構成としてもよい。なお、適応手段221〜22Nは、並列処理する構成としてもよいことは勿論である。
次に、本発明の第3の実施の形態について説明する。図4は、本発明の第3の実施の形態の構成を示す図である。図4を参照すると、本発明の第3の実施の形態は、適応用データ処理手段220の構成が、図3の前記第2の実施の形態における適応用データ処理手段と相違している。すなわち、本発明の第3の実施の形態では、適応用データ処理手段220は、N個のアプリケーションに共通に配設された共通適応手段231と、適応データ管理手段232とを備えている。
適応データ管理手段232は、音声認識用データを音声認識用データ記憶部301から取得し、さらに適応するアプリケーションに関するデータを適応用データ記憶部302から取得し、共通適応手段231に対して、適応先のアプリケーションとその適応処理に適切なデータを与える。
共通適応手段231は、認識結果仮説生成手段212で生成された認識結果仮説を受け取り、適応データ管理手段232の指示に基づいて適応処理を行い、処理結果を、それぞれ、アプリケーション401〜40Nに送信する。
次に、本発明の第3の実施の形態の動作について、図2を参照して詳細に説明する。
図2のステップS101−S104で示される本実施の形態における音声入力手段100、共通データ処理手段210、記憶装置300、アプリケーション401〜40Nの動作は、前記第1及び第2の実施の形態の動作と同一であるため、説明は省略する。
共通適応手段231は、ステップS104で生成された認識結果仮説を受け取り、適応データ管理手段232の制御に基づいて、記憶装置300から音声認識用データおよび各アプリケーションの適応処理用データを読み込んで、各アプリケーション401〜40N向けの認識結果を生成して送信する(ステップS105)。
次に、本発明の第3の実施の形態の効果について説明する。
本発明の第3の実施の形態では、音声認識処理における探索手段や認識結果仮説の再計算方法など、適応手段の処理内容に共通な部分があるときに、それらを共通化している。このため、適応用データ管理手段220が、共通適応手段231に与える適応処理用データを切り替えるだけで、各アプリケーション向けの認識結果を生成することができ、システムの構築を容易化し、柔軟性、拡張性を向上する。
次に、本発明の第4の実施の形態について説明する。図5は、本発明の第4の実施の形態の構成を示す図である。図5を参照すると、本発明の第4の実施の形態は、図1、図3、図4に示した前記第1、第2、第3の実施の形態の装置構成に加え、データ処理装置200が、音声認識用データ加工手段241を備えている。
音声認識用データ加工手段241は、音声認識用データを音声認識用データ記憶部301から取得し、各アプリケーションに関する適応用データを、適応用データ記憶部302から取得し、それらを合成した認識用データを作成する。
合成の方法としては、例えば、
・複数の言語モデルの重み付け合成や、
・特定の認識語彙の言語スコアの底上げ
のような処理が適用される。
本発明の第4の実施の形態の動作について、図2を参照して詳細に説明する。
図2のステップS101−S103で示される音声入力手段100、記憶装置300、アプリケーション401〜40Nの動作は、前記第1の実施の形態の動作と同一であるため、説明は省略する。
共通データ処理手段210の認識結果仮説生成手段212は、音声認識用データ加工手段241が記憶装置300から音声認識用データと適応用データとを読み出して生成した言語モデルなどを用いて、ステップS103で生成された特徴量に対する認識結果仮説を生成する(ステップS104)。
適応用データ処理手段220は、ステップS104で生成された認識結果仮説を受け取り、音声認識用データ加工手段241が記憶装置300から音声認識用データと適応用データとを読み込んで生成した言語モデルなどを用いて、アプリケーション401〜40Nそれぞれで使用する認識結果を生成する(ステップS105)。
ステップS104、S105では、例えば、共通データ処理手段210において、各応用の認識語彙を満遍なく含んだ認識結果仮説を生成し、適応用データ処理手段220では、それぞれの応用の認識語彙を用いて、応用に適した認識結果仮説の順位付けをするというようなことができる。
次に、本発明の第4の実施の形態の作用効果について説明する。
本実施の形態では、音声認識用データ加工手段241によって共通データ処理手段向けに汎用的な言語モデルを提供し、適応用データ処理手段220にはそれぞれに適した言語モデルを提供するため、効率的な認識結果仮説(中間結果)の生成と、精度の高い応用適応が可能である。
次に、本発明の第5の実施の形態について説明する。図6を参照すると、本発明の第5の実施の形態は、本発明の第1乃至第4の実施の形態と同様に、音声入力手段100、記憶装置300、アプリケーション401〜40Nとを備える。音声認識プログラム600は、データ処理装置700に読み込まれデータ処理装置700の動作を制御する。データ処理装置700は、音声認識プログラム600の制御により、前記第1乃至第4の実施の形態の各々における、データ処理装置200で実行される処理と同一の処理を実行する。以下、本発明を適用したいくつかの具体例について説明する。
本発明の第1の実施例は、図3の前記第2の実施の形態に対応するものである。本実施例では、前記第2の実施の形態を、コンタクトセンタにおける、顧客と担当者(オペレータ)との対話音声の認識に適用した例を示す。
図3において、音声入力手段100としては、ヘッドセットマイクロフォンや電話などがある。コンタクトセンタにアクセスする顧客の音声は、固定電話・携帯電話・IP電話などの電話機から入力され、電話回線やIP網を経由して、A/D変換されてデータ処理装置200に送られる。
また、コンタクトセンタのオペレータの音声は、通常使用しているヘッドセットマイクロフォンから入力され、電話回線・IP網を流れているものを分岐して取り出され、A/D変換されてデータ処理装置200に送られる。
また、電話機とヘッドセットとの間で分岐すると電話回線よりも品質のよい音声が取り出せるが、これは音声認識の性能を向上させるためには好ましい。
記憶装置300は、各オペレータの端末に内蔵されている記憶装置や、コンタクトセンタ全体のデータベース装置が使用される。この記憶装置300は、音声認識用データ記憶部301と、適応用データ記憶部302とを含んでいる。
音声認識用データ記憶部301は音声認識処理のうち各アプリケーションに共通の処理に関するデータ、例えば、
・HMM(Hidden Markov Model)などで表現される音響モデル、
・Nグラムなどで表現される言語モデル、
などを記憶する。
適応用データ記憶部302は、音声認識処理のうち各アプリケーションで異なる処理に関するデータ、例えば、
・各アプリケーションで使用する語彙の単語重み情報や、
・認識結果仮説のリスコアのためのパラメタ、
などを記憶する。
アプリケーション401〜40Nは、データ処理装置200から音声認識結果を取得し、それぞれ独自の処理を行うプログラム(応用プログラム)である。例えば、
・オペレータの端末上で、現在の自らの通話を文字化して表示するアプリケーションや、
・オペレータの端末上で、同じく通話からキーワードを抽出して情報検索するもの、
・オペレータの管理者(スーパバイザ)の端末上に、通話の文字化情報を提示するもの、
・オペレータの管理者(スーパバイザ)の端末上に、同じくオペレータに手助けが必要な状況を検出して提示するもの、
など、
一つの音声について、同時にさまざまなアプリケーションが動作する。
データ処理装置200には、演算装置を備えるコンピュータが用いられる。データ処理装置200は、各オペレータの端末コンピュータや、コンタクトセンタ全体の音声認識専用のサーバとして構成される。ここで、本発明の実施に関わる主要なデータ処理が行われる。
共通データ処理手段210では、各アプリケーションで共通化できる処理を行う。
本実施例では、音声からの特徴抽出を行う処理と、認識結果仮説を生成する処理を共通化する。特に、認識結果仮説生成処理は、最も処理量が多い部分であることから、認識結果仮説生成処理を共通化できると、一つの音声認識システムで、複数のアプリケーションに対応するときの効果が大きい。
データ処理装置200に入力された音声は、まず、特徴抽出手段211で特徴量に変換される。
特徴量には、音声の周波数スペクトルの特徴を現すものが用いられる。例えば、
・メル周波数ケプストラム係数(MFCC;Mel Frequency Cepstrum Coefficients)の多次元ベクトルや、
・音声のパワー、
・音声のピッチ周波数
などが使用される。
認識結果仮説生成手段212では、与えられた音声特徴量に対して、
・HMMなどの音響モデルや、
・Nグラムや文法制約などの言語モデル
から得られるスコアを用いて、尤もらしい単語列を探索する。
探索には、音声認識で一般的な手法、例えば、フレーム同期ビームサーチなどが使用可能である。
ここでは、
・Nベスト単語列や、
・単語グラフ
など、複数の候補単語列を認識結果仮説として生成する。
また、各単語には、
・品詞や、
・読み、
・探索スコアや、
・信頼度
などの属性情報を、必要に応じて付加しておく。
適応用データ処理手段220では、共通データ処理手段210で生成された認識結果仮説を基に、適応手段221〜22Nで各応用に適切な認識結果を求める。
応用が、例えば通話の文字化であれば、
・より詳細なモデルや通話に適応した言語モデルで再計算したり、あるいは、
・仮説中の単語の信頼度を用いて順位を再計算したりする、
などの方法によって、認識性能を向上させることができる。
通話から特定の表現を抽出する応用では、
・その表現の含まれる認識結果仮説のみを対象に再計算したり、
・当該単語の言語スコアの底上げや対象外単語の言語スコアの抑制をした言語モデルを用いて再探索したりする、
ことで、より精度の高い検出ができる。
図7は、本発明の第1の実施例の動作の一例を説明する模式図であり、2つのアプリケーションに対応して2つの適応手段221、222(図3においてNを2とした場合に対応)が設けられている。図3の特徴抽出手段211からの音声特徴量(MFCC)を受け、認識結果仮説生成手段212は、音声認識用データ記憶部301のHMM(音響モデル)、N−gram(言語モデル)を参照し、N−gram(「方法+が」、「方+が」、「儲か+る」の出現確率がそれぞれ0.2、0.25、0.005)から、尤度の(尤もらしい)順に候補を順位付けし、認識結果仮説(音声認識仮説)として、例えば、1.「簡単に方があります」、2.「簡単な方法があります」、・・・、30.「簡単に儲かります」を出力する。なお、認識結果仮説(音声認識仮説)として出力される候補の数は30個に制限されるものでないことは勿論である。
適応手段221は、適応用データ記憶部302を参照し、適応手段1(221)に対応して格納されているN−gram(「方法+が+ある」、「方+が+ある」、「に+儲か+る」の出現確率(共起確率)がそれぞれ0.3、0.1、0.001)に基づき、上記1〜30の認識結果仮説(音声認識仮説)のリスコアを行い、スコアの最も高い「簡単な方法があります」を選択して出力し、出力1(アプリケーション1)として、対応するアプリケーション(図3の401)に出力する。
適応手段222では、適応用データ記憶部302を参照して、適応手段2(222)に対応して格納されているリスコア用単語辞書(「方法」、「儲かる」のスコアは0.0、+0.3)に基づき、上記1〜30の認識結果仮説(音声認識仮説)のリスコアを行い、スコアの最も高い「簡単に儲かります」を選択して出力し、出力2(アプリケーション1)として、対応するアプリケーション(図3の402)に供給する。
次に、本発明の第2の実施例について説明する。本実施例は、図4を参照して説明した第3の実施の形態に対応する。共通データ処理手段210で生成された認識結果仮説からアプリケーションに適応した認識結果を生成するときの再計算方法が各応用で共通である場合は、言語モデルなどのデータを切り替えるだけでアプリケーション適応が可能となる。このデータの管理は適応データ管理手段232が行い、適切なデータを共通適応手段231に与える。共通適応手段としては、適応手段221〜22Nと同様の手法が考えられる。
図8は、本発明の第2の実施例の動作の一例を説明する模式図である。図8を参照すると、2つのアプリケーションへの出力1、2に対して、共通適応手段231(図4の231に対応)が設けられている。本実施例では、図4の特徴抽出手段211からの音声特徴量(MFCC)を受け、認識結果仮説生成手段212は、音声認識用データ記憶部301のHMM(音響モデル)、N−gram(言語モデル)を参照し、N−gram(「方法+が」、「方+が」、「儲か+る」の出現確率がそれぞれ0.2、0.25、0.005)から、スコアの高い順に候補をソートし、認識結果仮説(音声認識仮説)として、例えば、1.「簡単に方があります」、2.「簡単な方法があります」、・・・、30.「簡単に儲かります」を出力するものとする。
適応データ管理手段232は、適応用データ記憶部302を参照して、出力1(アプリケーション1)用には、リスコア用単語辞書(「方法」、「儲かる」のスコアが、+0.1、+0.0)、出力2(アプリケーション2)用には、リスコア用単語辞書(「方法」、「儲かる」のスコアが+0.0、+0.3)を生成し、共通適応手段231に対して与える。
共通適応手段231は、上記1〜30の認識結果仮説(音声認識仮説)の中から、出力1(アプリケーション1)用には、スコアの最も高い「簡単な方法があります」を選択して出力し、出力2(アプリケーション2)用には、スコアの最も高い「簡単に儲かります」を選択して出力し、それぞれ対応するアプリケーション(図4の401、402)に供給する。
次に本発明の第3の実施例について説明する。本実施例は、図5を参照して説明した第4の実施の形態に対応するものである。
認識結果仮説を生成する際、各アプリケーションで認識対象の語彙が異なることがある。例えば、通話をそのまま文字化する応用では通話によく現れる表現が認識語彙となるが、オペレータの不適切な発言を検出する応用では、通話にめったに現れない表現が認識語彙に多く含まれる。
これらの両方に対応するためには、認識語彙に、両者(通話によく現れる表現の認識語彙、通話にめったに現れない表現の認識語彙)を含むようにする必要がある。
また、どれかの応用向けの語彙に偏った認識結果仮説にならないように、バランスよく言語モデルを統合し、スコアを調整する必要がある。
上記のような処理を、音声認識用データ加工手段241で行うことで、より多くの種類のアプリケーションへの適応が可能となる。同様に、認識結果仮説生成手段212においても、各応用に偏らない認識結果仮説を生成するために、語彙によって探索の枝刈りの閾値を変えたりするなどの工夫ができる。
また、共通データ処理手段210において、音声認識用データ加工手段241で作成した言語モデル等を用いた場合には、音声認識用データ加工手段241において、同様に、各アプリケーション向けに言語モデル等を再作成し、再作成された各アプリケーション向けに言語モデル等を、適応用データ処理手段220で使用することで、認識性能を向上することができる。
先の例では、通常の通話文字化に際しては、通話にめったに現れない不適切な表現等は含まない認識語彙の言語モデルを使用したほうが、より精度の高い認識を実現することができる。
逆に、不適切な発言の検出の応用例では、通話にめったに現れない不適切な表現等のスコアを大きくした言語モデルを用いたほうがよい。
共通データ処理手段210の出力する認識結果仮説は、特定の応用の語彙に偏らないようになっているが、適応用データ処理手段220では、これらを各応用に特化して、再計算する。
図9は、本発明の第3の実施例の動作の一例を説明する模式図であり、図9の適応用データ手段220は、図5に示した第4の実施の形態の適応用データ処理手段220である。図5の音声認識用データ加工手段241は、適応用データ記憶部302に記憶されるリスコア用の適応用データを考慮して、共通データ処理手段210で参照される言語モデルを作成する。この場合、音声認識用データ加工手段241は、音声認識用データを音声認識用データ記憶部301から取得し、各アプリケーションに関する適応用データ(出力1用と出力2用の単語リスト)を適応用データ記憶部302から取得し、それらを合成した認識用データとして、N−gram(「方法+が」、「方+が」、「儲か+る」の出現確率がそれぞれ0.2、0.25、0.005)を作成する。図5の特徴抽出手段211からの音声特徴量(MFCC)を受け、認識結果仮説生成手段212は、音声認識用データ記憶部301のHMM(音響モデル)、N−gram(言語モデル)を参照し、尤度の高い順に候補をソートし、認識結果仮説(音声認識仮説)として、例えば、1.「簡単に方があります」、2.「簡単な方法があります」、・・・、30.「簡単に儲かります」を出力する。
本実施例では、適応用データ処理手段220は、上記1〜30の認識結果仮説の中から、出力1(アプリケーション1)用には、リスコア用の適応データとして出力1(アプリケーション1)用の単語リスト(「方法」、「儲かる」のスコアが、+0.1、+0.0)に基づき、スコアの最も高い「簡単な方法があります」を選択して出力し対応するアプリケーション(図5の401)に供給し、出力2(アプリケーション1)用には、出力2(アプリケーション1)用の単語リスト(「方法」、「儲かる」のスコアが、+0.0、+0.3)に基づき、スコアの最も高い「簡単に儲かります」を選択して出力し、対応するアプリケーション(図5の402)に供給する。
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみに制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims (34)

  1. 一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う適応手段を備え、
    前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力することを特徴とする音声認識システム。
  2. 一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する共通データ処理手段と、
    前記共通データ処理手段からの認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を同時に生成して出力する適応用データ処理手段と、
    を備えている、ことを特徴とする音声認識システム。
  3. 音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶する記憶装置を備え、
    前記処理装置は、
    音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
    を有する共通データ処理手段と、
    それぞれが、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーションのそれぞれに個別に適した認識結果を同時に生成し、対応するアプリケーションにそれぞれ供給する複数の適応手段と、
    を備え、
    前記複数の提供先である前記複数のアプリケーションに対して、認識結果仮説を生成する認識結果仮説生成手段を共通化してなる、ことを特徴とする請求項記載の音声認識システム。
  4. 前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項又は記載の音声認識システム。
  5. 前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び/又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項又は記載の音声認識システム。
  6. 前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
    オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
    オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
    オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
    オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
    のうちの複数種を含む、ことを特徴とする請求項又は記載の音声認識システム。
  7. 前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項又は記載の音声認識システム。
  8. 通話にめったに現れない表現は含まない認識語彙の言語モデルを使用した方がより精度の高い認識を実現可能な、通話を文字化するアプリケーションと、
    通話にめったに現れない不適切な表現のスコアを大きくした言語モデルを用いた方がより精度の高い認識を実現可能な、不適切な発言を検出するアプリケーションと、を含み、
    前記共通データ処理手段の出力する認識結果仮説は、特定のアプリケーションの語彙に偏らないように設定され、前記適応手段では、前記認識結果仮説を各アプリケーションに特化して、再計算する、ことを特徴とする請求項記載の音声認識システム。
  9. 音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶する記憶装置を備え、
    音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
    前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
    を有する共通データ処理手段と、
    前記記憶装置から音声認識処理用のデータを取得し、さらに、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する適応データ管理手段と、
    前記認識結果仮説を受け取り、前記適応データ管理手段で生成された適応処理に対応するデータに基づき、前記認識結果仮説に対してアプリケーションに応じた適応処理を行い、認識結果を、前記複数の提供先のアプリケーションにそれぞれ提供する共通適応手段と、
    を有する適応用データ処理手段と、
    を備え、
    前記複数の提供先である前記複数のアプリケーションに対して前記共通適応手段を共通化してなる、ことを特徴とする請求項記載の音声認識システム。
  10. 前記記憶装置は、
    音声認識処理のうち各アプリケーションに共通の処理に関するデータとして音響モデルや言語モデルを記憶する音声認識データ記憶部と、
    音声認識処理のうち各アプリケーションで異なる処理に関するデータとして、認識語彙の単語重み情報や、認識結果仮説のスコアのためのパラメタを記憶する適応用データ記憶部と、
    を備えている、ことを特徴とする請求項又は記載の音声認識システム。
  11. 前記音声認識データ記憶部から音声認識用データを取得し、各アプリケーションに関する適応用データを前記適応用データ記憶部から取得し、それらを合成した認識用データを作成する音声認識用データ加工手段をさらに備えている、ことを特徴とする請求項10記載の音声認識システム。
  12. 前記音声認識用データ加工手段は、合成としては、複数の言語モデルの重み付け合成や、特定の認識語彙の言語スコアの底上げを行う、ことを特徴とする請求項11記載の音声認識システム。
  13. 一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う工程と、
    前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力する工程と、
    を含む、ことを特徴とする音声認識方法。
  14. 一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する第1の工程と、
    前記認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を生成して出力する第2の工程と、
    を含む、ことを特徴とする音声認識方法。
  15. 音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶装置に記憶保持しておき、
    前記第1の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
    前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
    を含み、
    前記第2の工程が、それぞれが、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーション向けのそれぞれに適した認識結果を同時に生成し、対応するアプリケーションにそれぞれ供給する工程と、
    を含む、ことを特徴とする請求項14記載の音声認識方法。
  16. 前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項14又は15記載の音声認識方法。
  17. 前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び/又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項14又は15記載の音声認識方法。
  18. 前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
    オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
    オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
    オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
    オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
    のうちの複数種を含む、ことを特徴とする請求項14又は15記載の音声認識方法。
  19. 前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項14又は15記載の音声認識方法。
  20. 音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶装置に記憶保持しておき、
    前記第1の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
    前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
    を含み、
    前記第2の工程が、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する工程と、
    前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する工程と、
    を含む、ことを特徴とする請求項14記載の音声認識方法。
  21. 前記記憶装置から音声認識用データとアプリケーションに関する適応用データを取得し、それらを合成し、音声認識処理用のデータを作成する工程と、をさらに含む、ことを特徴とする請求項15又は20記載の音声認識方法。
  22. 音声認識装置を構成するコンピュータに、
    一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う処理と、
    前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力する処理と、を実行させるプログラム。
  23. 音声認識装置を構成するコンピュータに、
    一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する第1の処理と、
    前記認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を生成して出力する第2の処理と、
    を実行させるプログラム。
  24. 前記コンピュータは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、
    前記第1の処理は、音声入力手段より入力された音声の特徴量を抽出する処理と、
    前記抽出された特徴量に対して、前記記憶装置に記憶された音声認識用のデータを用いて、認識結果仮説を生成する処理と、
    を含み、
    前記第2の処理は、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーション向けのそれぞれに適した認識結果を生成し、対応するアプリケーションにそれぞれ供給する処理と、
    を含む請求項23記載のプログラム。
  25. 前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項22又は23記載のプログラム。
  26. 前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び/又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項22又は23記載のプログラム。
  27. 前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
    オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
    オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
    オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
    オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
    のうちの複数種を含む、ことを特徴とする請求項22又は23記載のプログラム。
  28. 前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項22又は23記載のプログラム。
  29. 前記コンピュータは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、
    前記第1の処理は、音声入力手段より入力された音声の特徴量を抽出する処理と、
    前記抽出された特徴量に対して、前記記憶装置に記憶された、複数のアプリケーションに共通の処理に関する音声認識用データを用いて、認識結果仮説を生成する処理と、
    を含み、
    前記第2の処理は、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する処理と、
    前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する処理と、
    を含む請求項23記載のプログラム。
  30. 一つの入力音声手段より入力された音声信号の特徴量を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された音声特徴量に対して、記憶装置に予め記憶されている音響モデルや言語モデルを用いて単語列を探索して特定の応用の語彙に偏らない認識結果仮説を生成する認識結果仮説生成手段と、を含む共通データ処理手段を、音声認識結果を取得してそれぞれ処理を行う複数の前記アプリケーションに対して共通に備え、
    アプリケーションで用いられる語彙又は該語彙と単語の重み情報を含むスコア用単語辞書、又は、言語モデルを、アプリケーション毎に参照して、前記認識結果仮説のスコアを行い、複数の前記アプリケーション向けのそれぞれに適した音声認識結果を生成し、対応するアプリケーションにそれぞれ供給する複数の適応手段を備えている、ことを特徴とする処理装置。
  31. 前記適応手段を前記複数のアプリケーションにそれぞれ対応して備えている、ことを特徴とする請求項30記載の処理装置。
  32. 音声認識結果を出力するアプリケーションに応じてスコア用単語辞書を切り替える手段を備え、前記適応手段を、前記複数のアプリケーションに対して共通化してなる、ことを特徴とする請求項30記載の処理装置。
  33. 前記スコア用単語辞書の単語リストから音声認識用の言語モデルを作成する手段を備えている、ことを特徴とする請求項30記載の処理装置。
  34. 音声信号を入力し音声認識結果を複数のアプリケーションに供給する音声認識用のサーバを備え、1つの音声入力に対して複数のアプリケーションが動作するシステムであって、請求項30乃至33のいずれか一記載の処理装置を前記音声認識用のサーバとして備えたシステム。
JP2008506329A 2006-03-23 2007-03-22 音声認識システム、音声認識方法および音声認識用プログラム Expired - Fee Related JP5062171B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008506329A JP5062171B2 (ja) 2006-03-23 2007-03-22 音声認識システム、音声認識方法および音声認識用プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006081345 2006-03-23
JP2006081345 2006-03-23
PCT/JP2007/055811 WO2007108500A1 (ja) 2006-03-23 2007-03-22 音声認識システム、音声認識方法および音声認識用プログラム
JP2008506329A JP5062171B2 (ja) 2006-03-23 2007-03-22 音声認識システム、音声認識方法および音声認識用プログラム

Publications (2)

Publication Number Publication Date
JPWO2007108500A1 JPWO2007108500A1 (ja) 2009-08-06
JP5062171B2 true JP5062171B2 (ja) 2012-10-31

Family

ID=38522526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008506329A Expired - Fee Related JP5062171B2 (ja) 2006-03-23 2007-03-22 音声認識システム、音声認識方法および音声認識用プログラム

Country Status (3)

Country Link
US (1) US8781837B2 (ja)
JP (1) JP5062171B2 (ja)
WO (1) WO2007108500A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US9037463B2 (en) * 2010-05-27 2015-05-19 Nuance Communications, Inc. Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US20140280239A1 (en) * 2013-03-15 2014-09-18 Sas Institute Inc. Similarity determination between anonymized data items
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
JP6229071B2 (ja) * 2014-10-24 2017-11-08 株式会社ソニー・インタラクティブエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
WO2016063564A1 (ja) 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
CN105679319B (zh) * 2015-12-29 2019-09-03 百度在线网络技术(北京)有限公司 语音识别处理方法及装置
CN109634692A (zh) * 2018-10-23 2019-04-16 蔚来汽车有限公司 车载对话系统及用于其的处理方法和系统
KR20210084615A (ko) * 2018-12-03 2021-07-07 구글 엘엘씨 음성 입력 프로세싱

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075886A (ja) * 1998-08-28 2000-03-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
JP2004252121A (ja) * 2003-02-20 2004-09-09 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2005024797A (ja) * 2003-06-30 2005-01-27 Internatl Business Mach Corp <Ibm> 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP2005234504A (ja) * 2004-02-23 2005-09-02 Advanced Telecommunication Research Institute International 音声認識装置及びhmm発音モデルをトレーニングする方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
JP3725566B2 (ja) 1992-12-28 2005-12-14 株式会社東芝 音声認識インターフェース
US5895447A (en) * 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
BR9712979A (pt) * 1996-09-10 2000-10-31 Siemens Ag Processo para adaptação de um modelo acústico hidden markov em um sistema de identificação de fala
JP3500948B2 (ja) 1998-02-18 2004-02-23 株式会社デンソー 音声認識装置
DE69912754D1 (de) * 1998-03-09 2003-12-18 Lernout & Hauspie Speechprod Vorrichtung und verfahren zum gleichzeitigen multimodalen diktieren
US6205426B1 (en) * 1999-01-25 2001-03-20 Matsushita Electric Industrial Co., Ltd. Unsupervised speech model adaptation using reliable information among N-best strings
US6421641B1 (en) * 1999-11-12 2002-07-16 International Business Machines Corporation Methods and apparatus for fast adaptation of a band-quantized speech decoding system
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7209880B1 (en) * 2001-03-20 2007-04-24 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7609829B2 (en) * 2001-07-03 2009-10-27 Apptera, Inc. Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
JP3913626B2 (ja) 2002-07-17 2007-05-09 日本電信電話株式会社 言語モデル生成方法、その装置及びそのプログラム
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique
WO2005017768A1 (en) * 2003-08-15 2005-02-24 Silverbrook Research Pty Ltd Improving accuracy in searching digital ink
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075886A (ja) * 1998-08-28 2000-03-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
JP2004252121A (ja) * 2003-02-20 2004-09-09 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2005024797A (ja) * 2003-06-30 2005-01-27 Internatl Business Mach Corp <Ibm> 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP2005234504A (ja) * 2004-02-23 2005-09-02 Advanced Telecommunication Research Institute International 音声認識装置及びhmm発音モデルをトレーニングする方法

Also Published As

Publication number Publication date
WO2007108500A1 (ja) 2007-09-27
US8781837B2 (en) 2014-07-15
JPWO2007108500A1 (ja) 2009-08-06
US20100030560A1 (en) 2010-02-04

Similar Documents

Publication Publication Date Title
JP5062171B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP7436760B1 (ja) サブワードエンドツーエンド自動音声認識のための学習ワードレベルコンフィデンス
US8862478B2 (en) Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server
US8170866B2 (en) System and method for increasing accuracy of searches based on communication network
WO2020226789A1 (en) Contextual biasing for speech recognition
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US11093110B1 (en) Messaging feedback mechanism
US10854191B1 (en) Machine learning models for data driven dialog management
US10325599B1 (en) Message response routing
US20220122622A1 (en) Cascaded Encoders for Simplified Streaming and Non-Streaming ASR
US10152298B1 (en) Confidence estimation based on frequency
WO2022076029A1 (en) Transformer transducer: one model unifying streaming and non-streaming speech recognition
Bano et al. Speech to text translation enabling multilingualism
US12014729B2 (en) Mixture model attention for flexible streaming and non-streaming automatic speech recognition
US11532301B1 (en) Natural language processing
CN112420050B (zh) 一种语音识别方法、装置和电子设备
JPWO2019031268A1 (ja) 情報処理装置、及び情報処理方法
CN110164416B (zh) 一种语音识别方法及其装置、设备和存储介质
US12062363B2 (en) Tied and reduced RNN-T
US11626107B1 (en) Natural language processing
US20040006469A1 (en) Apparatus and method for updating lexicon
Tan et al. Addressing accent mismatch In Mandarin-English code-switching speech recognition
KR102699035B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들
US20230326461A1 (en) Unified Cascaded Encoder ASR model for Dynamic Model Sizes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120723

R150 Certificate of patent or registration of utility model

Ref document number: 5062171

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees