JP5062171B2

JP5062171B2 - 音声認識システム、音声認識方法および音声認識用プログラム

Info

Publication number: JP5062171B2
Application number: JP2008506329A
Authority: JP
Inventors: 山本　　仁
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-03-23
Filing date: 2007-03-22
Publication date: 2012-10-31
Anticipated expiration: 2027-03-22
Also published as: JPWO2007108500A1; US8781837B2; US20100030560A1; WO2007108500A1

Description

本発明は、音声認識システム、音声認識方法および音声認識プログラムに関し、特に認識結果を複数のアプリケーションから利用できる音声認識システム、音声認識方法および音声認識プログラムに関する。

音声認識結果をアプリケーションで使用するためには、その使用目的や発声内容にあわせた適切な言語モデルや探索手段を用いて音声認識システムを構成する必要がある。

従来の応用では、例えば音声によるコマンド入力システムのように、発声と使用目的とが一対一に対応しているため、これに合わせた音声認識システムを一つ構成すればよいことになる。

しかしながら、近時、人と人との対話音声（話し言葉音声）の認識技術の発達により、ある音声を様々な応用目的に認識して利用するためのシステム等が検討されるに至っている。例えば、対話の記録のために、一字一句、文字化するという用途や、対話からの情報抽出のために、特定の表現を検出する、という用途である。

これらの用途では、それぞれ最適な音声認識システムの構成要素（言語情報や探索手段）が異なるが、それぞれのアプリケーションに適した音声認識結果を、一つの音声認識システムで同時に提供することができれば、音声認識の使用場面が広がり、利便性が高まる。

一つの音声認識システムを、複数のアプリケーションで取り扱うものとして、例えば特許文献１に示されるものがある。

図１０は、特許文献１に開示される構成を示す図である。図１０に示すように、この従来の音声認識システムは、音声を認識する音声認識部１２と、複数のアプリケーションに関する情報を管理する応用プログラム管理テーブル１３と、応用プログラム管理手段の情報に基づいて音声入力に対する認識語彙や音声認識手段の認識結果の送信先を特定するメッセージ処理部１１とから構成されている。

アプリケーションから送られたメッセージはメッセージ処理部１１で解釈され、その指示に基づいて応用プログラム管理テーブル１３は、認識対象語彙と認識結果の送信先を決定する。音声認識部１２は決められた認識対象語彙を用いて音声認識し、その認識結果をメッセージ処理部１１が決定した応用プログラム２に送信する。

特開平７−１４０９９８号公報

しかしながら、図１０を参照して説明した従来のシステムは次のような問題点を有している。

すなわち、一つの音声認識システムから複数のアプリケーションに同時に適切な音声認識結果を送信できない、ということである。

その理由は、従来のシステムでは、応用ごとに適切な言語情報や探索手段が異なることを考慮しておらず、常に１通りの音声認識結果しか生成しないためである。

例えば、対話音声を一字一句文字化するアプリケーションと、対話から特定の表現を抽出するアプリケーションとでは、使用する認識語彙や言語モデル、探索手段などが異なるため、同時に、認識結果を利用することはできない。

したがって、本発明の目的は、複数のアプリケーションそれぞれに適切な音声認識結果を同時に送信できる音声認識システム及び方法並びにプログラムを提供することにある。

本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。

本発明に係る音声認識システムは、複数のアプリケーションが接続した音声認識システムにおいて、それぞれのアプリケーション用の認識結果を提供する手段を備えている、ことを特徴とする。本発明においては、好ましくは、共通データ処理手段と適応データ処理手段とを備え、共通データ処理手段で生成された認識結果仮説を、適応データ処理手段で各アプリケーション向けデータを用いて再計算するよう動作する。

このような構成を採用し、複数のアプリケーションに、例えば同時に認識結果を提供する。

より詳細には、本発明の１つのアスペクト（側面）に係るシステムは、入力音声信号を音声認識した結果得られた認識結果仮説に対して、応用の異なる複数の提供先に応じて、それぞれ異なる仕方でリスコアを行い、該リスコア結果に基づき決定した認識結果を前記複数の提供先の対応する提供先に供給する処理装置を備えている。本発明は、前記入力音声信号に対して、複数の提供先には、それぞれの応用の相違に応じて、互いに異なる、複数の認識結果を生成し出力することを可能としている。本発明に係るシステムは、音声入力手段より入力された音声に対して、アプリケーションに偏らない認識結果仮説を生成する共通データ処理手段と、前記共通データ処理手段からの認識結果仮説を受け、前記アプリケーションに個別に特化した認識結果を生成して出力する適応データ処理手段と、を備えている。

本発明に係るシステムは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶する記憶装置と、
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、を有する共通データ処理手段と、
それぞれが、前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いてアプリケーションに個別に特化した認識結果を生成し、複数の提供先の複数のアプリケーションに提供する適応手段を備えた適応用データ処理手段と、を備え、前記複数のアプリケーションに対して、認識結果仮説を生成する認識結果仮説生成手段を共通化してなるものである。

本発明の他のアスペクトに係るシステムは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶する記憶装置と、
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
を有する共通データ処理手段と、
前記記憶装置から音声認識処理用のデータを取得し、さらに、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する適応データ管理手段と、
前記認識結果仮説を受け取り、前記適応データ管理手段で生成された適応処理に対応するデータに基づき、前記認識結果仮説に対してアプリケーションに応じた適応処理を行い、認識結果を複数の提供先に提供する共通適応手段と、
を有する適応用データ処理手段と、
を備え、前記複数のアプリケーションに対して前記共通適応手段を共通化した構成としてもよい。

本発明に係るシステムにおいて、好ましくは、前記記憶装置は、音声認識処理のうち各アプリケーションに共通の処理に関するデータとして音響モデル、言語モデルを記憶する音声認識データ記憶部と、音声認識処理のうち各アプリケーションで異なる処理に関するデータとして、認識語彙の単語重み情報や、認識結果仮説のリスコアのためのパラメタなどを記憶する適応用データ記憶部と、を備えている。

本発明の他のアスペクトに係るシステムは、音声認識用データを前記音声認識データ記憶部から取得し、各アプリケーションに関する適応用データを前記適応用データ記憶部から取得し、それらを合成した認識用データを作成する音声認識用データ加工手段をさらに備えた構成としてもよい。

本発明の他のアスペクトに係るシステムは、前記音声認識用データ加工手段は、合成としては、複数の言語モデルの重み付け合成や、特定の認識語彙の言語スコアの底上げを行う。

本発明の１つのアスペクトに係る方法は、音声認識装置による音声認識方法であって、音声入力手段より入力された音声に対して、複数のアプリケーションに共通の認識結果仮説を生成する工程と、前記認識結果仮説を受け、前記アプリケーションに個別に特化した認識結果を生成して出力する工程と、を含む。本発明は、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶装置に記憶保持しておき、
音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
それぞれが、前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、アプリケーション向けの認識結果を生成し、対応するアプリケーションに適した認識結果を生成し、複数のアプリケーションに供給する工程と、
を含む。

本発明の他のアスペクトに係る方法は、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶装置に記憶保持しておき、
前記第１の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
を含み、
前記第２の工程が、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する工程と、
前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する工程と、
を含む。

本発明の他のアスペクトに係るコンピュータ・プログラムは、音声認識装置を構成するコンピュータに、
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、音声認識装置を構成するコンピュータに、
音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置から読み込んだ音声認識用のデータを用いて、認識結果仮説を生成する処理と、
前記認識結果仮説を基に、前記記憶装置から読み込んだ適応処理に関するデータを用いて、アプリケーション向けの認識結果を生成し、対応するアプリケーションに適した認識結果を生成し、対応するアプリケーションにそれぞれ供給する処理と、
を実行させるプログラムよりなる。

本発明の他のアスペクトに係るコンピュータ・プログラムは、
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、音声認識装置を構成するコンピュータに、
音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置から読み込んだ、複数のアプリケーションに共通の処理に関する音声認識用データを用いて、認識結果仮説を生成する処理と、
前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に適切なデータを生成する処理と、
前記生成された適応処理に適切なデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する処理と、
を実行させるプログラムよりなる。

本発明によれば、１つの音声認識システムにより、複数のアプリケーション向けにそれぞれ処理した認識結果を提供できるようにしたことにより、複数のアプリケーションに対して複数の音声認識システムを用意することを要しなくし、この結果、計算量の縮減、およびメモリ容量の縮減等、システム構成の縮減、簡易化を実現することができる。

本発明によれば、適応手段を共通化することで、システム構築を容易化することができる。

さらに、本発明によれば、共通データ処理手段には汎用的な言語モデルを提供し、適応手段には、それぞれに適した言語モデルを提供するため、認識精度を向上することができる。

本発明の第１の実施の形態の構成を示すブロック図である。本発明を実施の動作を示す流れ図である。本発明の第２の実施の形態の構成を示す図である。本発明の第３の実施の形態の構成を示す図である。本発明の第４の実施の形態の構成を示す図である。本発明の第５の実施の形態の構成を示す図である。本発明の第１の実施例の動作を説明するための図である。本発明の第２の実施例の動作を説明するための図である。本発明の第３の実施例の動作を説明するための図である。特許文献１の構成を示す図である。

符号の説明

２応用プログラム
１１メッセージ処理部
１２音声認識部
１３応用プログラム管理テーブル
１００音声入力手段
２００データ処理装置
２１０共通データ処理手段
２１１特徴抽出手段
２１２認識結果仮説生成手段
２２０適応用データ処理手段
２２１〜２２Ｎ適応手段
２３１共通適応手段
２３２適応データ管理手段
２４１音声認識用データ加工手段
３００記憶装置
３０１音声認識用データ記憶部
３０２適応用データ記憶部
４０１〜４０Ｎアプリケーション
６００音声認識プログラム
７００データ処理装置

上記した本発明についてさらに詳細に説述すべく、本発明を実施するための最良の形態を添付図面を参照して以下に説明する。まず、本発明の第１の実施の形態について図面を参照して詳細に説明する。図１は、本発明の第１の実施の形態のシステムの構成を示す図である。

図１を参照すると、本発明の第１の実施の形態のシステムは、音声を入力する音声入力手段１００と、音声認識処理を行うデータ処理装置２００と、音声認識処理に関するデータを記憶する記憶装置３００と、音声認識結果を使用するＮ個のアプリケーション４０１〜４０Ｎを含んでいる。

これらの手段のそれぞれについて以下に説明する。

音声入力手段１００は、話者の発声を入力するためのものである。話者の発声を音声信号として取り込み、Ａ／Ｄ（アナログ・デジタル）変換してデータ処理装置２００へ送る。

Ｎ個のアプリケーション４０１〜４０Ｎは、データ処理装置２００から認識結果を含むデータを受け取り、それぞれ固有の処理を行う。

記憶装置３００は、音声認識用データ記憶部３０１と適応用データ記憶部３０２とを備えている。

音声認識用データ記憶部３０１は、音声認識処理のうち各アプリケーションに共通の処理に関するデータ、例えば、
・ＨＭＭなどで表現される音響モデル、
・Ｎグラムなどで表現される言語モデル
などを記憶する。

適応用データ記憶部３０２は、音声認識処理のうち各アプリケーションで異なる処理に関するデータ、例えば、認識語彙の単語重み情報や、認識結果仮説のリスコアのためのパラメタなどを記憶する。なお、本明細書では、音声認識システム内部で扱う認識結果の候補を認識結果仮説（認識結果仮説生成手段によって生成される、「認識仮説」あるいは「音声認識仮説」ともいう）といい、音声認識システムからの出力を認識結果という。

音声認識処理を行うデータ処理装置２００は、各応用の共通データ処理手段２１０と適応用データ処理手段２２０とを備えている。

共通データ処理手段２１０は、特徴抽出手段２１１と認識結果仮説生成手段２１２とを備えている。

特徴抽出手段２１１は、音声入力手段１００から送られてきた音声信号について音声認識用の特徴量を求め、認識結果仮説生成手段２１２へ送る。

特徴量としては、メル周波数ケプストラム係数の多次元ベクトルなどを用いる。

認識結果仮説生成手段２１２は、音声特徴量を特徴抽出手段２１１から、音響モデルや言語モデルなどの音声認識用データを音声認識用データ記憶部３０１からそれぞれ取得し、探索計算によって、
・単語グラフや、
・Ｎベスト単語列
などで表現される認識結果仮説を生成する。

適応用データ処理手段２２０は、認識結果仮説生成手段２１２で生成された認識結果仮説（単語グラフや単語列）を取得し、当該認識結果仮説に対して、アプリケーション４０１〜４０Ｎにそれぞれ対応する、言語モデルなどの認識用データ（リスコア用の単語辞書）を、記憶装置３００から、それぞれ取得して、それぞれのアプリケーション４０１〜４０Ｎに適した認識結果を生成する。

次に、図１および図２のフローチャートを参照して、本発明の第１の実施の形態の動作について詳細に説明する。

まず、予め音声認識処理に関するデータと、適応処理に関するデータを記憶装置３００に記憶させた上で、システムを初期化する（ステップＳ１０１）。

話者が発声すると、音声入力手段１００がそれを音声信号として取り込み、Ａ／Ｄ変換してデータ処理装置２００へ送る（ステップＳ１０２）。

音声認識処理を行うデータ処理装置２００に入力された音声は、特徴抽出手段２１１で特徴量が抽出される（ステップＳ１０３）。

特徴抽出手段２１１で抽出された特徴量を受け取り、該特徴量に対して、認識結果仮説生成手段２１２では、記憶装置３００から読み込んだ音響モデルや言語モデルなどを用いて、認識結果仮説を生成する（ステップＳ１０４）。

次に、ステップＳ１０４で生成された認識結果仮説を基に、適応用データ処理手段２２０は、記憶装置３００から読み込んだ言語モデルや各応用の認識語彙などを用いて、各応用向けの認識結果を生成し、各アプリケーション４０１〜４０Ｎに送る（ステップＳ１０５）。

次に、本発明の第１の実施の形態の作用効果について説明する。

本発明の第１の実施の形態では、適応用データ処理手段２２０にて、各応用（アプリケーション）向けの認識結果を生成するため、一つの音声認識システムで、常に複数の応用それぞれに適切な認識処理を行った認識結果を提供することができる。

また、本発明の第１の実施の形態では、共通データ処理手段２１０によって、同じプロセスをまとめるため、各応用一つ一つに音声認識システムを用意するのに比べて、全体としての使用メモリ量や計算コストを低減することができる。なお、図１に示した第１の実施の形態では、複数のアプリケーション４０１〜４０Ｎは、データ処理装置２００の複数のポート（あるいはバス）等を介してデータ処理装置２００に並列に接続される構成として示されているが、データ処理装置２００は複数のアプリケーション４０１〜４０Ｎに１つのポート（あるいはバス）を介して時分割にてデータを提供する構成としてもよい。また、データ処理装置２００の複数の出力と複数のアプリケーション４０１〜４０Ｎとの対応関係を可変自在としてもよい。すなわち、データ処理装置２００の出力とアプリケーションの対応関係は、可変自在としてもよい。この場合、提供先のアプリケーションに対して、認識結果を対応する出力先に振り分ける振り分け器を備えた構成としてもよい。複数のアプリケーション４０１〜４０Ｎは、認識結果を受け取りそれぞれのアプリケーションを実行するN個の処理装置で構成してもよい。この場合、複数のアプリケーション４０１〜４０Ｎを実行するN個の処理装置は、データ処理装置とネットワーク等により通信接続される構成としてもよい。

図３は、本発明の第２の実施の形態の構成を示す図である。本実施の形態は、本発明の第１の実施の形態の変形例をなすものである。本実施の形態においては、図１に示した前記第１の実施の形態の適応用データ処理手段２２０が、Ｎ個のアプリケーション４０１〜４０Ｎのそれぞれに対応させて配設された適応手段２２１〜２２Ｎを備え、適応手段２２１〜２２Ｎがそれぞれのアプリケーション４０１〜４０Ｎに適した認識結果を個別に提供する。本実施の形態の動作は、図２と同様とされるが、ステップＳ１０５（応用に適応した認識結果の生成処理）では、各応用向けの適応手段２２１〜２２Ｎが、それぞれ、個別に、記憶装置３００から読み込んだ、言語モデルや各応用の認識語彙などを用いて、各応用向けの認識結果を生成し、各アプリケーション４０１〜４０Ｎに送る。なお、適応手段２２１〜２２Ｎは、図１の適応用データ処理手段２２０によりＮ個のアプリケーション４０１〜４０Ｎに対して行われる処理を、Ｎ個のモジュールに分割配置した構成としてもよい。なお、適応手段２２１〜２２Ｎは、並列処理する構成としてもよいことは勿論である。

次に、本発明の第３の実施の形態について説明する。図４は、本発明の第３の実施の形態の構成を示す図である。図４を参照すると、本発明の第３の実施の形態は、適応用データ処理手段２２０の構成が、図３の前記第２の実施の形態における適応用データ処理手段と相違している。すなわち、本発明の第３の実施の形態では、適応用データ処理手段２２０は、Ｎ個のアプリケーションに共通に配設された共通適応手段２３１と、適応データ管理手段２３２とを備えている。

適応データ管理手段２３２は、音声認識用データを音声認識用データ記憶部３０１から取得し、さらに適応するアプリケーションに関するデータを適応用データ記憶部３０２から取得し、共通適応手段２３１に対して、適応先のアプリケーションとその適応処理に適切なデータを与える。

共通適応手段２３１は、認識結果仮説生成手段２１２で生成された認識結果仮説を受け取り、適応データ管理手段２３２の指示に基づいて適応処理を行い、処理結果を、それぞれ、アプリケーション４０１〜４０Ｎに送信する。

次に、本発明の第３の実施の形態の動作について、図２を参照して詳細に説明する。

図２のステップＳ１０１−Ｓ１０４で示される本実施の形態における音声入力手段１００、共通データ処理手段２１０、記憶装置３００、アプリケーション４０１〜４０Ｎの動作は、前記第１及び第２の実施の形態の動作と同一であるため、説明は省略する。

共通適応手段２３１は、ステップＳ１０４で生成された認識結果仮説を受け取り、適応データ管理手段２３２の制御に基づいて、記憶装置３００から音声認識用データおよび各アプリケーションの適応処理用データを読み込んで、各アプリケーション４０１〜４０Ｎ向けの認識結果を生成して送信する（ステップＳ１０５）。

次に、本発明の第３の実施の形態の効果について説明する。

本発明の第３の実施の形態では、音声認識処理における探索手段や認識結果仮説の再計算方法など、適応手段の処理内容に共通な部分があるときに、それらを共通化している。このため、適応用データ管理手段２２０が、共通適応手段２３１に与える適応処理用データを切り替えるだけで、各アプリケーション向けの認識結果を生成することができ、システムの構築を容易化し、柔軟性、拡張性を向上する。

次に、本発明の第４の実施の形態について説明する。図５は、本発明の第４の実施の形態の構成を示す図である。図５を参照すると、本発明の第４の実施の形態は、図１、図３、図４に示した前記第１、第２、第３の実施の形態の装置構成に加え、データ処理装置２００が、音声認識用データ加工手段２４１を備えている。

音声認識用データ加工手段２４１は、音声認識用データを音声認識用データ記憶部３０１から取得し、各アプリケーションに関する適応用データを、適応用データ記憶部３０２から取得し、それらを合成した認識用データを作成する。

合成の方法としては、例えば、
・複数の言語モデルの重み付け合成や、
・特定の認識語彙の言語スコアの底上げ
のような処理が適用される。

本発明の第４の実施の形態の動作について、図２を参照して詳細に説明する。

図２のステップＳ１０１−Ｓ１０３で示される音声入力手段１００、記憶装置３００、アプリケーション４０１〜４０Ｎの動作は、前記第１の実施の形態の動作と同一であるため、説明は省略する。

共通データ処理手段２１０の認識結果仮説生成手段２１２は、音声認識用データ加工手段２４１が記憶装置３００から音声認識用データと適応用データとを読み出して生成した言語モデルなどを用いて、ステップＳ１０３で生成された特徴量に対する認識結果仮説を生成する（ステップＳ１０４）。

適応用データ処理手段２２０は、ステップＳ１０４で生成された認識結果仮説を受け取り、音声認識用データ加工手段２４１が記憶装置３００から音声認識用データと適応用データとを読み込んで生成した言語モデルなどを用いて、アプリケーション４０１〜４０Ｎそれぞれで使用する認識結果を生成する（ステップＳ１０５）。

ステップＳ１０４、Ｓ１０５では、例えば、共通データ処理手段２１０において、各応用の認識語彙を満遍なく含んだ認識結果仮説を生成し、適応用データ処理手段２２０では、それぞれの応用の認識語彙を用いて、応用に適した認識結果仮説の順位付けをするというようなことができる。

次に、本発明の第４の実施の形態の作用効果について説明する。

本実施の形態では、音声認識用データ加工手段２４１によって共通データ処理手段向けに汎用的な言語モデルを提供し、適応用データ処理手段２２０にはそれぞれに適した言語モデルを提供するため、効率的な認識結果仮説（中間結果）の生成と、精度の高い応用適応が可能である。

次に、本発明の第５の実施の形態について説明する。図６を参照すると、本発明の第５の実施の形態は、本発明の第１乃至第４の実施の形態と同様に、音声入力手段１００、記憶装置３００、アプリケーション４０１〜４０Ｎとを備える。音声認識プログラム６００は、データ処理装置７００に読み込まれデータ処理装置７００の動作を制御する。データ処理装置７００は、音声認識プログラム６００の制御により、前記第１乃至第４の実施の形態の各々における、データ処理装置２００で実行される処理と同一の処理を実行する。以下、本発明を適用したいくつかの具体例について説明する。

本発明の第１の実施例は、図３の前記第２の実施の形態に対応するものである。本実施例では、前記第２の実施の形態を、コンタクトセンタにおける、顧客と担当者（オペレータ）との対話音声の認識に適用した例を示す。

図３において、音声入力手段１００としては、ヘッドセットマイクロフォンや電話などがある。コンタクトセンタにアクセスする顧客の音声は、固定電話・携帯電話・ＩＰ電話などの電話機から入力され、電話回線やＩＰ網を経由して、Ａ／Ｄ変換されてデータ処理装置２００に送られる。

また、コンタクトセンタのオペレータの音声は、通常使用しているヘッドセットマイクロフォンから入力され、電話回線・ＩＰ網を流れているものを分岐して取り出され、Ａ／Ｄ変換されてデータ処理装置２００に送られる。

また、電話機とヘッドセットとの間で分岐すると電話回線よりも品質のよい音声が取り出せるが、これは音声認識の性能を向上させるためには好ましい。

記憶装置３００は、各オペレータの端末に内蔵されている記憶装置や、コンタクトセンタ全体のデータベース装置が使用される。この記憶装置３００は、音声認識用データ記憶部３０１と、適応用データ記憶部３０２とを含んでいる。

音声認識用データ記憶部３０１は音声認識処理のうち各アプリケーションに共通の処理に関するデータ、例えば、
・ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などで表現される音響モデル、
・Ｎグラムなどで表現される言語モデル、
などを記憶する。

適応用データ記憶部３０２は、音声認識処理のうち各アプリケーションで異なる処理に関するデータ、例えば、
・各アプリケーションで使用する語彙の単語重み情報や、
・認識結果仮説のリスコアのためのパラメタ、
などを記憶する。

アプリケーション４０１〜４０Ｎは、データ処理装置２００から音声認識結果を取得し、それぞれ独自の処理を行うプログラム（応用プログラム）である。例えば、
・オペレータの端末上で、現在の自らの通話を文字化して表示するアプリケーションや、
・オペレータの端末上で、同じく通話からキーワードを抽出して情報検索するもの、
・オペレータの管理者（スーパバイザ）の端末上に、通話の文字化情報を提示するもの、
・オペレータの管理者（スーパバイザ）の端末上に、同じくオペレータに手助けが必要な状況を検出して提示するもの、
など、
一つの音声について、同時にさまざまなアプリケーションが動作する。

データ処理装置２００には、演算装置を備えるコンピュータが用いられる。データ処理装置２００は、各オペレータの端末コンピュータや、コンタクトセンタ全体の音声認識専用のサーバとして構成される。ここで、本発明の実施に関わる主要なデータ処理が行われる。

共通データ処理手段２１０では、各アプリケーションで共通化できる処理を行う。

本実施例では、音声からの特徴抽出を行う処理と、認識結果仮説を生成する処理を共通化する。特に、認識結果仮説生成処理は、最も処理量が多い部分であることから、認識結果仮説生成処理を共通化できると、一つの音声認識システムで、複数のアプリケーションに対応するときの効果が大きい。

データ処理装置２００に入力された音声は、まず、特徴抽出手段２１１で特徴量に変換される。

特徴量には、音声の周波数スペクトルの特徴を現すものが用いられる。例えば、
・メル周波数ケプストラム係数（ＭＦＣＣ；ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）の多次元ベクトルや、
・音声のパワー、
・音声のピッチ周波数
などが使用される。

認識結果仮説生成手段２１２では、与えられた音声特徴量に対して、
・ＨＭＭなどの音響モデルや、
・Ｎグラムや文法制約などの言語モデル
から得られるスコアを用いて、尤もらしい単語列を探索する。

探索には、音声認識で一般的な手法、例えば、フレーム同期ビームサーチなどが使用可能である。

ここでは、
・Ｎベスト単語列や、
・単語グラフ
など、複数の候補単語列を認識結果仮説として生成する。

また、各単語には、
・品詞や、
・読み、
・探索スコアや、
・信頼度
などの属性情報を、必要に応じて付加しておく。

適応用データ処理手段２２０では、共通データ処理手段２１０で生成された認識結果仮説を基に、適応手段２２１〜２２Ｎで各応用に適切な認識結果を求める。

応用が、例えば通話の文字化であれば、
・より詳細なモデルや通話に適応した言語モデルで再計算したり、あるいは、
・仮説中の単語の信頼度を用いて順位を再計算したりする、
などの方法によって、認識性能を向上させることができる。

通話から特定の表現を抽出する応用では、
・その表現の含まれる認識結果仮説のみを対象に再計算したり、
・当該単語の言語スコアの底上げや対象外単語の言語スコアの抑制をした言語モデルを用いて再探索したりする、
ことで、より精度の高い検出ができる。

図７は、本発明の第１の実施例の動作の一例を説明する模式図であり、２つのアプリケーションに対応して２つの適応手段２２１、２２２（図３においてＮを２とした場合に対応）が設けられている。図３の特徴抽出手段２１１からの音声特徴量（ＭＦＣＣ）を受け、認識結果仮説生成手段２１２は、音声認識用データ記憶部３０１のＨＭＭ（音響モデル）、Ｎ−ｇｒａｍ（言語モデル）を参照し、Ｎ−ｇｒａｍ（「方法＋が」、「方＋が」、「儲か＋る」の出現確率がそれぞれ０．２、０．２５、０．００５）から、尤度の（尤もらしい）順に候補を順位付けし、認識結果仮説（音声認識仮説）として、例えば、１．「簡単に方があります」、２．「簡単な方法があります」、・・・、３０．「簡単に儲かります」を出力する。なお、認識結果仮説（音声認識仮説）として出力される候補の数は３０個に制限されるものでないことは勿論である。

適応手段２２１は、適応用データ記憶部３０２を参照し、適応手段１（２２１）に対応して格納されているＮ−ｇｒａｍ（「方法＋が＋ある」、「方＋が＋ある」、「に＋儲か＋る」の出現確率（共起確率）がそれぞれ０．３、０．１、０．００１）に基づき、上記１〜３０の認識結果仮説（音声認識仮説）のリスコアを行い、スコアの最も高い「簡単な方法があります」を選択して出力し、出力１（アプリケーション１）として、対応するアプリケーション（図３の４０１）に出力する。

適応手段２２２では、適応用データ記憶部３０２を参照して、適応手段２（２２２）に対応して格納されているリスコア用単語辞書（「方法」、「儲かる」のスコアは０．０、＋０．３）に基づき、上記１〜３０の認識結果仮説（音声認識仮説）のリスコアを行い、スコアの最も高い「簡単に儲かります」を選択して出力し、出力２（アプリケーション１）として、対応するアプリケーション（図３の４０２）に供給する。

次に、本発明の第２の実施例について説明する。本実施例は、図４を参照して説明した第３の実施の形態に対応する。共通データ処理手段２１０で生成された認識結果仮説からアプリケーションに適応した認識結果を生成するときの再計算方法が各応用で共通である場合は、言語モデルなどのデータを切り替えるだけでアプリケーション適応が可能となる。このデータの管理は適応データ管理手段２３２が行い、適切なデータを共通適応手段２３１に与える。共通適応手段としては、適応手段２２１〜２２Ｎと同様の手法が考えられる。

図８は、本発明の第２の実施例の動作の一例を説明する模式図である。図８を参照すると、２つのアプリケーションへの出力１、２に対して、共通適応手段２３１（図４の２３１に対応）が設けられている。本実施例では、図４の特徴抽出手段２１１からの音声特徴量（ＭＦＣＣ）を受け、認識結果仮説生成手段２１２は、音声認識用データ記憶部３０１のＨＭＭ（音響モデル）、Ｎ−ｇｒａｍ（言語モデル）を参照し、Ｎ−ｇｒａｍ（「方法＋が」、「方＋が」、「儲か＋る」の出現確率がそれぞれ０．２、０．２５、０．００５）から、スコアの高い順に候補をソートし、認識結果仮説（音声認識仮説）として、例えば、１．「簡単に方があります」、２．「簡単な方法があります」、・・・、３０．「簡単に儲かります」を出力するものとする。

適応データ管理手段２３２は、適応用データ記憶部３０２を参照して、出力１（アプリケーション１）用には、リスコア用単語辞書（「方法」、「儲かる」のスコアが、＋０．１、＋０．０）、出力２（アプリケーション２）用には、リスコア用単語辞書（「方法」、「儲かる」のスコアが＋０．０、＋０．３）を生成し、共通適応手段２３１に対して与える。

共通適応手段２３１は、上記１〜３０の認識結果仮説（音声認識仮説）の中から、出力１（アプリケーション１）用には、スコアの最も高い「簡単な方法があります」を選択して出力し、出力２（アプリケーション２）用には、スコアの最も高い「簡単に儲かります」を選択して出力し、それぞれ対応するアプリケーション（図４の４０１、４０２）に供給する。

次に本発明の第３の実施例について説明する。本実施例は、図５を参照して説明した第４の実施の形態に対応するものである。

認識結果仮説を生成する際、各アプリケーションで認識対象の語彙が異なることがある。例えば、通話をそのまま文字化する応用では通話によく現れる表現が認識語彙となるが、オペレータの不適切な発言を検出する応用では、通話にめったに現れない表現が認識語彙に多く含まれる。

これらの両方に対応するためには、認識語彙に、両者（通話によく現れる表現の認識語彙、通話にめったに現れない表現の認識語彙）を含むようにする必要がある。

また、どれかの応用向けの語彙に偏った認識結果仮説にならないように、バランスよく言語モデルを統合し、スコアを調整する必要がある。

上記のような処理を、音声認識用データ加工手段２４１で行うことで、より多くの種類のアプリケーションへの適応が可能となる。同様に、認識結果仮説生成手段２１２においても、各応用に偏らない認識結果仮説を生成するために、語彙によって探索の枝刈りの閾値を変えたりするなどの工夫ができる。

また、共通データ処理手段２１０において、音声認識用データ加工手段２４１で作成した言語モデル等を用いた場合には、音声認識用データ加工手段２４１において、同様に、各アプリケーション向けに言語モデル等を再作成し、再作成された各アプリケーション向けに言語モデル等を、適応用データ処理手段２２０で使用することで、認識性能を向上することができる。

先の例では、通常の通話文字化に際しては、通話にめったに現れない不適切な表現等は含まない認識語彙の言語モデルを使用したほうが、より精度の高い認識を実現することができる。

逆に、不適切な発言の検出の応用例では、通話にめったに現れない不適切な表現等のスコアを大きくした言語モデルを用いたほうがよい。

共通データ処理手段２１０の出力する認識結果仮説は、特定の応用の語彙に偏らないようになっているが、適応用データ処理手段２２０では、これらを各応用に特化して、再計算する。

図９は、本発明の第３の実施例の動作の一例を説明する模式図であり、図９の適応用データ手段２２０は、図５に示した第４の実施の形態の適応用データ処理手段２２０である。図５の音声認識用データ加工手段２４１は、適応用データ記憶部３０２に記憶されるリスコア用の適応用データを考慮して、共通データ処理手段２１０で参照される言語モデルを作成する。この場合、音声認識用データ加工手段２４１は、音声認識用データを音声認識用データ記憶部３０１から取得し、各アプリケーションに関する適応用データ（出力１用と出力２用の単語リスト）を適応用データ記憶部３０２から取得し、それらを合成した認識用データとして、Ｎ−ｇｒａｍ（「方法＋が」、「方＋が」、「儲か＋る」の出現確率がそれぞれ０．２、０．２５、０．００５）を作成する。図５の特徴抽出手段２１１からの音声特徴量（ＭＦＣＣ）を受け、認識結果仮説生成手段２１２は、音声認識用データ記憶部３０１のＨＭＭ（音響モデル）、Ｎ−ｇｒａｍ（言語モデル）を参照し、尤度の高い順に候補をソートし、認識結果仮説（音声認識仮説）として、例えば、１．「簡単に方があります」、２．「簡単な方法があります」、・・・、３０．「簡単に儲かります」を出力する。

本実施例では、適応用データ処理手段２２０は、上記１〜３０の認識結果仮説の中から、出力１（アプリケーション１）用には、リスコア用の適応データとして出力１（アプリケーション１）用の単語リスト（「方法」、「儲かる」のスコアが、＋０．１、＋０．０）に基づき、スコアの最も高い「簡単な方法があります」を選択して出力し対応するアプリケーション（図５の４０１）に供給し、出力２（アプリケーション１）用には、出力２（アプリケーション１）用の単語リスト（「方法」、「儲かる」のスコアが、＋０．０、＋０．３）に基づき、スコアの最も高い「簡単に儲かります」を選択して出力し、対応するアプリケーション（図５の４０２）に供給する。

以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみに制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims

一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う適応手段を備え、
前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力することを特徴とする音声認識システム。
一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する共通データ処理手段と、
前記共通データ処理手段からの認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を同時に生成して出力する適応用データ処理手段と、
を備えている、ことを特徴とする音声認識システム。
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶する記憶装置を備え、
前記処理装置は、
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
を有する共通データ処理手段と、
それぞれが、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーションのそれぞれに個別に適した認識結果を同時に生成し、対応するアプリケーションにそれぞれ供給する複数の適応手段と、
を備え、
前記複数の提供先である前記複数のアプリケーションに対して、認識結果仮説を生成する認識結果仮説生成手段を共通化してなる、ことを特徴とする請求項１記載の音声認識システム。
前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項２又は３記載の音声認識システム。
前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び／又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項２又は３記載の音声認識システム。
前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
のうちの複数種を含む、ことを特徴とする請求項２又は３記載の音声認識システム。
前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項２又は３記載の音声認識システム。
通話にめったに現れない表現は含まない認識語彙の言語モデルを使用した方がより精度の高い認識を実現可能な、通話を文字化するアプリケーションと、
通話にめったに現れない不適切な表現のスコアを大きくした言語モデルを用いた方がより精度の高い認識を実現可能な、不適切な発言を検出するアプリケーションと、を含み、
前記共通データ処理手段の出力する認識結果仮説は、特定のアプリケーションの語彙に偏らないように設定され、前記適応手段では、前記認識結果仮説を各アプリケーションに特化して、再計算する、ことを特徴とする請求項３記載の音声認識システム。
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶する記憶装置を備え、
音声入力手段より入力された音声の特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段で抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する認識結果仮説生成手段と、
を有する共通データ処理手段と、
前記記憶装置から音声認識処理用のデータを取得し、さらに、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する適応データ管理手段と、
前記認識結果仮説を受け取り、前記適応データ管理手段で生成された適応処理に対応するデータに基づき、前記認識結果仮説に対してアプリケーションに応じた適応処理を行い、認識結果を、前記複数の提供先のアプリケーションにそれぞれ提供する共通適応手段と、
を有する適応用データ処理手段と、
を備え、
前記複数の提供先である前記複数のアプリケーションに対して前記共通適応手段を共通化してなる、ことを特徴とする請求項１記載の音声認識システム。
前記記憶装置は、
音声認識処理のうち各アプリケーションに共通の処理に関するデータとして音響モデルや言語モデルを記憶する音声認識データ記憶部と、
音声認識処理のうち各アプリケーションで異なる処理に関するデータとして、認識語彙の単語重み情報や、認識結果仮説の再スコアのためのパラメタを記憶する適応用データ記憶部と、
を備えている、ことを特徴とする請求項３又は９記載の音声認識システム。
前記音声認識データ記憶部から音声認識用データを取得し、各アプリケーションに関する適応用データを前記適応用データ記憶部から取得し、それらを合成した認識用データを作成する音声認識用データ加工手段をさらに備えている、ことを特徴とする請求項１０記載の音声認識システム。
前記音声認識用データ加工手段は、合成としては、複数の言語モデルの重み付け合成や、特定の認識語彙の言語スコアの底上げを行う、ことを特徴とする請求項１１記載の音声認識システム。
一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う工程と、
前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力する工程と、
を含む、ことを特徴とする音声認識方法。
一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する第１の工程と、
前記認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を生成して出力する第２の工程と、
を含む、ことを特徴とする音声認識方法。
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶装置に記憶保持しておき、
前記第１の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
を含み、
前記第２の工程が、それぞれが、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーション向けのそれぞれに適した認識結果を同時に生成し、対応するアプリケーションにそれぞれ供給する工程と、
を含む、ことを特徴とする請求項１４記載の音声認識方法。
前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項１４又は１５記載の音声認識方法。
前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び／又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項１４又は１５記載の音声認識方法。
前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
のうちの複数種を含む、ことを特徴とする請求項１４又は１５記載の音声認識方法。
前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項１４又は１５記載の音声認識方法。
音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、各アプリケーションで異なる処理に関するデータを記憶装置に記憶保持しておき、
前記第１の工程が、音声入力手段より入力された音声の特徴量を抽出する工程と、
前記抽出された特徴量に対して、前記記憶装置に記憶された共通の処理に関する音声認識用のデータを用いて、認識結果仮説を生成する工程と、
を含み、
前記第２の工程が、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する工程と、
前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する工程と、
を含む、ことを特徴とする請求項１４記載の音声認識方法。
前記記憶装置から音声認識用データとアプリケーションに関する適応用データを取得し、それらを合成し、音声認識処理用のデータを作成する工程と、をさらに含む、ことを特徴とする請求項１５又は２０記載の音声認識方法。
音声認識装置を構成するコンピュータに、
一つの入力音声信号を音声認識した結果得られた認識結果仮説に対して、複数の出力先に応じて、それぞれ異なる仕方で再スコアを行う処理と、
前記入力音声信号に対して、同時に、複数の前記出力先に対して、互いに異なる、複数の認識結果を生成して出力する処理と、を実行させるプログラム。
音声認識装置を構成するコンピュータに、
一つの音声入力手段より入力された音声に対して、特定の応用の語彙に偏らない認識結果仮説を生成する第１の処理と、
前記認識結果仮説を受け、複数の前記アプリケーションのそれぞれに個別に特化した認識結果を生成して出力する第２の処理と、
を実行させるプログラム。
前記コンピュータは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、
前記第１の処理は、音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置に記憶された音声認識用のデータを用いて、認識結果仮説を生成する処理と、
を含み、
前記第２の処理は、一つの前記認識結果仮説を基に、前記記憶装置に記憶された適応処理に関するデータを用いて、複数のアプリケーション向けのそれぞれに適した認識結果を生成し、対応するアプリケーションにそれぞれ供給する処理と、
を含む請求項２３記載のプログラム。
前記複数のアプリケーションの少なくともいずれか一つに偏らない認識結果を出力することを特徴とする請求項２２又は２３記載のプログラム。
前記複数のアプリケーションが、前記入力した音声の文字化を行うアプリケーション、及び／又は、前記入力した音声から予め定められた所定の表現を抽出するアプリケーションを含む、ことを特徴とする請求項２２又は２３記載のプログラム。
前記複数のアプリケーションは、音声認識結果を取得し、それぞれ独自の処理を行うアプリケーションであって、
オペレータの端末上で、自らの通話を文字化して表示するアプリケーション、
オペレータの端末上で、通話からキーワードを抽出して情報検索するアプリケーション、
オペレータの管理者の端末上に、通話の文字化情報を提示するアプリケーション、
オペレータの管理者の端末上に、前記オペレータに手助けが必要な状況を検出して提示するアプリケーション、
のうちの複数種を含む、ことを特徴とする請求項２２又は２３記載のプログラム。
前記複数のアプリケーションが、通話をそのまま文字化するアプリケーションと、前記通話から不適切な発言を検出するアプリケーションとを含む、ことを特徴とする請求項２２又は２３記載のプログラム。
前記コンピュータは、音声認識処理のうち複数のアプリケーションに共通の処理に関する音声認識用のデータと、音声認識処理のうち複数のアプリケーションに応じてそれぞれ互いに異なる適応処理に関するデータを記憶保持する記憶装置を備え、
前記第１の処理は、音声入力手段より入力された音声の特徴量を抽出する処理と、
前記抽出された特徴量に対して、前記記憶装置に記憶された、複数のアプリケーションに共通の処理に関する音声認識用データを用いて、認識結果仮説を生成する処理と、
を含み、
前記第２の処理は、前記記憶装置から音声認識用のデータを取得し、アプリケーション毎の適応処理に関するデータを前記記憶装置から取得し、適応先のアプリケーションとその適応処理に対応するデータを生成する処理と、
前記生成された適応処理に対応するデータに基づき、前記認識結果仮説を受け取り、適応処理を行い、認識結果を複数のアプリケーションにそれぞれ供給する処理と、
を含む請求項２３記載のプログラム。
一つの入力音声手段より入力された音声信号の特徴量を抽出する特徴抽出手段と、前記特徴抽出手段で抽出された音声特徴量に対して、記憶装置に予め記憶されている音響モデルや言語モデルを用いて単語列を探索して特定の応用の語彙に偏らない認識結果仮説を生成する認識結果仮説生成手段と、を含む共通データ処理手段を、音声認識結果を取得してそれぞれ処理を行う複数の前記アプリケーションに対して共通に備え、
アプリケーションで用いられる語彙又は該語彙と単語の重み情報を含む再スコア用単語辞書、又は、言語モデルを、アプリケーション毎に参照して、前記認識結果仮説の再スコアを行い、複数の前記アプリケーション向けのそれぞれに適した音声認識結果を生成し、対応するアプリケーションにそれぞれ供給する複数の適応手段を備えている、ことを特徴とする処理装置。
前記適応手段を前記複数のアプリケーションにそれぞれ対応して備えている、ことを特徴とする請求項３０記載の処理装置。
音声認識結果を出力するアプリケーションに応じて再スコア用単語辞書を切り替える手段を備え、前記適応手段を、前記複数のアプリケーションに対して共通化してなる、ことを特徴とする請求項３０記載の処理装置。
前記再スコア用単語辞書の単語リストから音声認識用の言語モデルを作成する手段を備えている、ことを特徴とする請求項３０記載の処理装置。
音声信号を入力し音声認識結果を複数のアプリケーションに供給する音声認識用のサーバを備え、１つの音声入力に対して複数のアプリケーションが動作するシステムであって、請求項３０乃至３３のいずれか一記載の処理装置を前記音声認識用のサーバとして備えたシステム。